지난 글에서는 2개 집단의 평균을 비교하는 방법으로 t-test를 소개했다. 오늘은 t-test와 비슷하지만 약간 다른 분산분석(ANOVA, Analysis of variance)에 대해 이야기하고자 한다. 분산분석은 2개 이상의 집단 간 평균 차이를 검증할 때 사용되며, 현장에서는 주로 3개 이상 집단의 평균 차이를 분석할 때 사용하고 case by case지만 분산분석보다 ANOVA로 더 많이 불린다.
ANOVA는 왜 사용할까?
ANOVA는 3개 이상의 집단을 비교하기 위해 t-test를 실시하면 발생하는 통계적 오류 2가지가 있기 때문에 사용한다. 예를 들어 소득 수준 상-중-하 3개의 집단을 비교하기 위해 t-test를 실시하면 다음과 같은 통계적 오류를 만날 수 있다.
부모의 소득 수준(상-중-하)에 따라 자녀의 학업 성취도가 다를 것이다.
1. 1종 오류의 증가
첫 번째는 1종 오류가 증가하는 것으로, 가설 검정을 1번 진행할 때마다 제1종 오류를 범할 확률이 5% 정도 증가한다. 3개의 집단을 t-test로 분석한다면 소득 수준 상-중/상-하/중-하 3번의 가설 검정을 해야 하고 그에 따라 1종 오류가 1-(1-0.05) ³으로 팽창한다.
2. 독립성의 가정 위배
두 번째는 독립성의 가정이 위배되는 것이다. 이 가정은 한 관측값은 다른 집단의 관측값에 영향을 받거나 관련되어서는 안 된다는 의미인데, 소득 수준 상-중/상-하/중-하 3번의 가설 검정을 하면 동일한 표본을 1번 이상 t검증에 사용하게 되어 각 집단이 모집단에서 독립적으로 표집 된 사례가 되지 못한다. 따라서 2개 이상의 집단 간 평균 차이를 알고 싶다면 ANOVA를 사용하는 것이 적절하다.
ANOVA의 기본 개념 정리하기
ANOVA를 이해하기 위해서 간단하게 2가지 개념을 살펴보면, 요인(factor)과 수준(level)이 있다.
요인은 서로 비교하게 될 집단을 나타내는 변수를 의미하여, 소득 수준이나 학년, 성별 등이 해당한다. 수준은 각 요인이 가질 수 있는 구체적인 상태를 의미하는데, 예를 들어 소득 수준 요인에는 '상,중,하'라는 3 수준이 있고 성별 요인에는 '여성, 남성'이라는 2 수준이 포함된다.
요인 = 소득 수준 / 수준 = 상, 중, 하
요인 = 성별 / 수준 = 여성, 남성
구체적으로 2 요인 설계(two-factor design)는 서로 다른 시점에 얻어진 점수의 평균 차이 혹은 두 치료법 간의 평균 차이처럼 독립 변인이 2개인 연구를 나타내고, 단일 요인 설계(single-factor design)는 독립 변인이 1개인 연구를 이야기한다.
ANOVA에서 독립 변인은 범주형(명목/서열 척도), 종속 변인은 연속형(사칙연산이 가능한 등간/비율 척도)이어야 한다.
여러 집단 간의 평균 차이를 비교하기 위해 ANOVA는 F값을 계산하는 것이 최종 목표이고, 유의확률 p값이 유의 수준보다 작은지 비교하여 세 집단의 평균 간 차이가 통계적으로 유의미한지(세 집단의 차이가 존재하는지) 알 수 있다.
F값은 집단 간 분산과 집단 내 분산을 비교해서 집단 간의 차이가 우연 때문에 나타난 것인지, 실제로 집단 간의 차이가 있는지 알 수 있다. F값은 무조건 정적 편포이기 때문에 0 이상이며, 이를 구하는 공식은 다음과 같다.
F값 = (집단 내 분산) ÷ (집단 간 분산)
표본 분산 S² = (편차의 제곱) ÷ (n-1)
집단 내 분산은 각 집단 내의 개별 측정치들이 해당 집단의 평균과 얼마나 차이가 있는지를 나타내는데 일반적으로 편차를 구하면 음수가 나올 수 있고, 편차의 합은 0이므로 편차의 제곱을 구한다. 그리고 집단 내 모든 측정치들의 편차 제곱을 더하고, 집단 내의 자유도로 나누어 분산을 계산한다. 집단 내 자유도는 전체 측정치 N에서 집단의 수를 뺀 것으로, 집단이 3개이면 (N-3)이 집단 내 자유도에 해당한다.
집단 간 분산은 각 집단의 평균이 전체 평균과 얼마나 차이가 있는지를 보여주며, 각 집단의 평균과 전체 평균 사이의 차이(편차)를 마찬가지로 제곱한 후에 합산하고 집단 간 자유도로 나누어 계산한다. 집단 간 자유도는 집단이 3개라면 n-1을 적용하여 (3-1)=2이다.
F값 계산 과정을 이해하는 것이 다소 복잡하기 때문에 ANOVA를 공부할 때 통계에 대한 흥미를 잃어버리는 사람들도 종종 있다. 다행히 실제로 ANOVA를 사용할 때 F값은 통계 프로그램이 자동으로 계산(!)한다. 그렇지만 우리는 과정 없이 결과만 도출하는 AI와 달리, 결과가 나온 과정을 이해하는 것이 중요하다고 생각하여 길게 적어보았다. 계산된 F값을 통해 집단 간 차이가 우연인지, 진짜로 의미 있는 결과인지 확인할 수 있다.
만약 집단 간 차이가 우연의 일치라면 집단 내 분산과 집단 간 분산은 큰 차이가 없으며, F값은 1에 가깝다(F≒1).
집단 간의 차이가 실제로 있는 경우에는 집단 간 분산이 집단 내 분산보다 상대적으로 크고, F값은 1보다 큰 값이 된다(F>1). F값이 1보다 크고, 유의확률 p값이 유의 수준보다 작다면 세 집단 간 차이가 통계적으로 유의미하다고 볼 수 있다.
직업(학생, 무직, 공무원, 의사)에 따른 우울증 수준을 비교했을 때, 집단 간 차이가 통계적으로 유의미하다.
예를 들어, 위와 같이 4개의 직업 집단 사이의 우울증 수준 차이가 있다고 가정해보자. 이때 비교한 4개의 직업 집단 중 어떠한 집단끼리 차이가 있는지 알아보고 싶다면 [사후검정]을 실시해야 한다.
어떤 집단끼리 차이가 있을까? '진짜' 알아보는 사후검정
사후검정은 다양한 방법을 통해 진행할 수 있는데, 정규 분포를 따르는 경우에 조건별로 자주 사용되는 방법이 있다.
1. 등분산을 가정(집단 간 분산이 같음)하고, 표본 수가 동일한 경우
- (가장 흔하게 사용) Tukey: 가능한 모든 쌍(조합)에 대해 살펴보고 서로 다른지 확인하는 방법. 표본 수가 적을수록 차이점을 확인하기 어려워서 정확도가 낮음
- Duncan: 상대적으로 덜 보수적인 기준으로 통계적 유의성이 쉽게 도출됨. 1종 오류 발생 가능성이 높음
2. 등분산을 가정하고, 표본 수가 다른 경우
- Bonferroni: Tukey보다 엄격하지만, Scheffe보다 관대한 기준을 가짐. 비교 대상이 많을수록 검정력이 약함
- (가장 보수적) Scheffe: 가장 보수적인 기준을 가지고 있어, 1종 오류가 발생할 확률이 적음. 복잡한 비교에 특히 적합하지만, 통계적으로 유의한 차이를 도출하기가 어려움
- (최근에 잘 사용하지 않음) Fisher LSD: 가장 덜 보수적인 기준을 가지고 있어, 검정력이 가장 높지만 1종 오류가 발생할 확률도 가장 높음.
3. 등분산을 가정하지 않고, 표본 수가 다른 경우
Levene의 등분산성 검정에서 유의확률 p값이 유의수준보다 작은 경우에 다음과 같은 방법으로 사후 검정을 진행한다.
- Dunnett T3: 하나의 집단을 다른 여러 집단과 비교하는 기법. 집단별 표본 수가 50개 미만인 경우에 Games-Howell보다 검정력이 좋은 편
- Games-Howell: Welch 분석 기법*을 응용하여 1종 오류를 더 효과적으로 통제할 수 있음, 다만 표본 크기가 6개 미만인 경우에 1종 오류 발생률이 높음
*Welch 분석 기법은 2개 이상의 집단이 동일한 평균을 가지고 있음을 검증하는 ANOVA와 유사한데 등분산성 가정이 위배되었을 때 Welch를 주로 사용한다.
집단 간 차이가 존재한다고 할 때, 어떤 집단끼리 실제로 차이가 있는지 분석하는 것이 사후 검정이다. 사후 검정의 여러 방법은 각자 다른 기준을 사용하므로 통계 분석을 진행했을 때 가장 보수적인 Scheffe에서는 집단의 차이가 통계적으로 유의하지 않지만(차이가 나타나지 않음), Duncan에서는 통계적으로 유의할 수 있다.
'프로젝트를 디깅하다' 카테고리의 다른 글
사이사이 뉴스레터 7: 사이드 프로젝트를 비대면으로 진행할 때, 의사소통 방식 (0) | 2025.03.27 |
---|---|
사이사이 뉴스레터 6: 홍보 채널이 많다고 해서 무조건 득은 아니다 (0) | 2025.03.23 |
가설 세우기 전에 '이것'을 알아야 한다! (0) | 2024.03.30 |
G*Power 사용, 어떻게 하는 거지? (0) | 2024.03.12 |
사이사이 뉴스레터 5: 돈벌다가 뉴스레터 구독자 200여명을 잃은 썰 (0) | 2024.02.06 |