본문 바로가기
카테고리 없음

서로 다른 두 집단의 평균 비교하기 (t-test)

by 김소울 2024. 4. 12.

남성과 여성, 10대와 20대처럼 서로 다른 두 집단을 비교할 때 어떤 통계 방법을 사용할 수 있을까? 오늘은 두 집단의 평균 차이 값을 분석하는 t-test에 대해 이야기할 것이다.

 

 


표본이 작은 크기일 때 유용한 t-test

t-test의 t는 검정에 사용되는 확률 분포인 t-분포를 나타낸다. t-분포는 정규분포와 유사하지만 꼬리가 더 두껍기 때문에 표본 크기 n ≤ 30일 경우처럼 작은 표본 크기를 분석할 때 적합하다. t-test는 Student's t-test라고도 불리는데 영국의 통계학자 William Sealy Gosset가 필명 Student로 이 가설 검정법을 발표했기 때문이다.

 

두 집단의 평균을 비교할 때 모집단의 분산과 표준편차를 알고 있다면 z-score를 사용할 수 있다. 그러나 보통 연구에서는 모집단에 대한 정보를 모르는 상황이며, 모집단을 추론하고자 표본의 데이터를 수집하기 때문에 두 집단의 평균 비교 방법으로 t-test를 쓴다.

 

출처: JMP Statistics Knowledge 포털

 

 

t-분포는 평균이 0이고, 표준편차가 달라지는 모양이다. 자유도가 클수록 중심부가 더 솟으며 분산은 1보다 작지만 표본수가 클수록 정규분포처럼 1에 접근한다. t-test는 단일표본 t검증, 대응표본 t검증, 독립표본 t검증이라는 3가지 종류가 있다.

 

 


하나의 기준으로 비교하는 단일표본 t검증(one sample t-test)

단일표본의 의미는 독립 변수가 특정 점수(하나의 표본이자 기준)이라는 것이다. 예를 들어, A대학교에 입학한 신입생의 평균 토익 점수는 전국 평균 700점보다 높은가?라는 연구 문제를 다음과 같이 정리해 볼 수 있다.

 

 

 

대립 가설: A대학교에 입학한 신입생의 평균 토익 점수는 전국 평균 700점보다 높을 것이다.

영가설: A대학교에 입학한 신입생의 평균 토익 점수는 전국 평균 700점보다 낮거나 같을 것이다.

 

대립 가설이 방향성을 가지고 있기 때문에 단방 검정을 할 수 있으며, 이 가설을 검증하기 위해  700점이라는 특정 기준으로 단일표본 t검증을 수행해야 한다. SPSS를 통해 단일표본 t검증을 하는 방법은 다음과 같다.

단일표본 t검증
e.g. A대학교에 입학한 신입생의 평균 토익 점수는 전국 평균 700점보다 높을 것

분석 → 평균 비교 → 일표본 T검정 → 검정 변수(독립 변수)에 <차이를 보고 싶은 변수 'A대학교에 입학한 신입생의 평균 토익 점수'> 검정값에 <기준점 700> 입력 → 옵션 → 신뢰구간은 차이값이 95% 안에 있는지 확인하도록 입력 (α =. 05에서 검증)

 

단일표본 t검증의 결과표를 해석하는 방법은 상대적으로 간단하다. 우선 [일표본 통계량]에서 N수를 확인하여 표본이 누락되는 값 없이 모든 값이 사용되었는지 확인한다. [일표본 검정]에서 유의확률 p값이 연구자가 설정한 유의수준 0.05(신뢰구간을 95%로 설정했기 때문에 유의 수준은 0.05이다) 보다 작은지 확인한다. 만약 p<.05이면 영가설이 기각되고 대립 가설이 채택되어 통계적으로 유의*하다고 볼 수 있다.

*통계적으로 유의하다: 가설을 검정할 때, 말을 자주 사용하는데 이는 관찰된 효과 혹은 집단 간 차이가 우연으로 발생할 가능성이 낮다는 것을 이야기한다. 쉽게 말해, 표본에서 관찰된 결과는 표본의 특징 때문이 아니라 모집단의 결과를 반영할 가능성이 높다는 것이다.

 

그러나 유의확률 p값이 p>.05인 경우에는 영가설이 채택된다. 이러한 경우에는 기준점 700점을 다른 점수로 설정하거나, 표본의 극단 치를 삭제한 후에 다시 단일표본 t검정을 돌릴 수 있다. 단일표본 t검증 결과가 통계적으로 유의미하게 나와서 논문에 기술한다면 N=300, M=4.40(SD=0.85), t=70.86, p <. 05처럼 N값/평균(표준편차)/t값/p값을 사용한다.

 

 


2개 집단의 관계를 비교하는 독립표본 t검증(two sample t-test)

특정 기준점이 있는 단일표본 t검증과 달리 성별에 따른 차이, 10대와 20대의 차이처럼 2개 집단을 구분하는 경우에는 독립표본 t검증을 사용한다. 이때 독립변수는 불연속적인 명목/서열척도여야 한다.

 

만약 등간/비율 척도인 경우에는 임의의 기준점을 설정하여 범주화시켜야 한다. 예를 들어, 우울증에 따른 직무 만족도의 차이를 보고 싶은 상황에서 우울증을 리커트 7점 척도로 측정했다면 4점을 기준으로 잡아서 우울증이 4점 이상인 집단과 미만인 집단으로 범주화할 수 있다. 그리고 연구자는 4점을 기준점으로 잡은 타당한 이유를 설명해야 한다.

 

SPSS를 통해 독립표본 t검증을 하는 방법은 다음과 같다.

독립표본 t검증
e.g. 우울증에 따른 직무 만족도의 차이

분석 → 평균 비교 → 독립표본 T검정 → 집단 변수에 우울증 입력, 검정 변수에 직무 만족도 입력 집단 정의 클릭해서 절단점 '4점' 입력 

 

독립표본 t검증의 결과표를 해석하려면 [독립표본 검정]에서 Levene의 등분산 검정을 가장 먼저 확인해야 한다. t-test의 기본 가정은 비교하려는 두 집단의 분산이 같다(등분산 가정)이다. 그러므로 Levene의 등분산 검정의 유의확률이 p>. 05이어야 영가설(두 집단이 가진 분산의 차이가 없다)이 채택되어 [등분산을 가정함] 줄에 해당하는 t값을 사용할 수 있다.

 

만약 등분산 검정 p<.05로 등분산 가정이 틀렸다면 어떤 집단은 정규분포이지만 다른 집단은 한쪽으로 편포되어 있다고 해석할 수 있다. 이러한 경우에 SPSS에서는 두 집단의 분포를 동일한 정규 분포로 만들기 위해 N에서 일부를 제거하게 되어, [등분산을 가정하지 않음] 줄의 자유도 값이 [등분산을 가정함] 줄의 자유도 값과 다름을 알 수 있다.

 

 


짝지은 2개의 표본을 비교하는 대응표본 t검증(paired two-test)

실험의 전후 결과를 비교하거나, 아내와 남편처럼 짝(pair) 연구 결과를 분석하고 싶다면 대응표본 t검증을 실시한다. 대응표본 t검정의 조건은 연구의 결과 변수인 종속 변수가 연속 변수이며, 반복측정 되어야 한다는 점이다.

 

SPSS를 통해 대응표본 t검증을 하는 방법은 다음과 같다.

대응표본 t검증
e.g. 실험 사전, 사후 자존감 비교

분석 → 평균 비교 → 대응표본 T검정 → 변수1과 변수 2에 사전 자존감과 사후 자존감 입력

 

대응표본 t검증의 결과를 해석하려면 가장 먼저 [대응표본 상관계수] 표를 확인한다. 대응표본 t검증은 짝지어진 두 개의 집단이 관련성이 있다고 여기므로, 정말 두 집단이 상관있는지 파악하고자 [대응표본 상관계수] 표를 제시해 준다. 만약 상관계수에서 상관이 없다고 나오면(p>. 05 등) 두 집단을 비교하는 독립표본 t검정으로 분석 방법을 바꿔야 한다.

 

상관 계수에서 상관이 있다고 나오는 경우에는 이어서 [대응표본 통계량]을 통해 사전, 사후 자존감을 비교할 수 있다. 예를 들어, 사전 자존감의 평균은 3.88(SD=0.73)이고 사후 자존감의 평균은 4.13(SD=0.74)이다. 사전 자존감과 사후 자존감의 상관은 r=. 698, p <. 05이므로 유의미한 상관이 도출되어 대응표본 t검증을 수행할 수 있다. 

 

 


모르면 서운한 아주 기본적인 분석 방법, t-test

t-test의 핵심은 모집단의 평균과 표준편차를 모르는 상황에서 두 집단을 비교할 때 사용한다는 점이다. 이때 독립 변수(원인)는 범주형 변수이어야 하고, 종속 변수(결과)는 연속형 변수이어야 한다. 만약 독립 변수가 연속형인 경우에는 논리적 근거에 따라 특정 지점을 중심으로 범주화하여 t-test를 진행할 수 있다.

 

t-test는 사회과학에서 다루는 통계 방법 중 가장 기본적인 분석 방법이다. t-test의 개념을 충분히 이해하고 있다면, 앞으로 유사한 개념인 ANOVA, 회귀 분석을 이해할 때 큰 도움이 되므로 잘 알아두면 좋다!