내가 알고 싶은 집단(모집단)을 전체 조사(전수 조사)할 수 있다면, 더할 나위 없이 좋다. 그러나 현실에서 전체 모집단을 조사하는 것은 시간과 비용이 많이 들기 때문에 실현하기가 어렵다. 따라서 연구자는 모집단에서 표본을 추출하여, 표본의 통계량(statistic)으로부터 모수(parameter)를 추론하는 과정을 진행한다. 이를 추론 통계(inferential statistics)라고 부른다. 추론을 하기 위해서는 표본에 대한 결과가 데이터(숫자)로 기술되어야 하므로, 기술 통계(description statistics)가 선행된다.
가설에는 두 가지 유형이 있는데, 하나는 영가설(H0, null hypothesis, 귀무가설)이고 다른 하나는 대립 가설(H1, alternative hypothesis)이다. 자세한 내용은 예시를 통해 설명하겠다.
가설 1: A 음료는 용량이 300ml가 아니다.
가설 1을 검증하기 위해서는 시장에 나와 있는 모든 A 음료에 대한 데이터를 수집해야 한다. 그러나 실제로 모든 A 음료를 조사할 수 없기 때문에 모집단(모든 A 음료)에서 표본을 추출하여 데이터를 수집한다. 표본에서 얻은 데이터로 가설 1을 검증할 때는 영가설을 기각함으로써 대립 가설을 채택하는 전략을 사용한다.
영가설과 대립 가설은 어떤 차이가 있을까? 영가설과 대립 가설은 상반된 명제이므로, 둘 중 하나는 반드시 옳다. 연구자가 알고 싶어하는 가설 1은 대립 가설에 해당하고, 가설1의 영가설은 'A 음료는 용량이 300ml이다'에 해당한다. 영가설은 모두가 알고 있는 사실로써 A와 B는 차이가 없다(혹은 관계가 없다, 효과가 없다)로 표현되며 증명하기가 쉽다. 반면에 대립 가설은 실제로 검증하고자 하는 가설로 A와 B는 차이가 있다(혹은 관계가 있다, 효과가 있다)고 표현된다.
영가설 ↔ 대립 가설
A의 용량이 300ml인지 검증하는 것이 300ml가 아닌지를 검증하는 것보다 더 쉬운데, 이때 A의 용량이 300ml가 아니라면 어떨까? A의 용량은 300ml보다 적을 수 있지만, 300ml보다 클 수도 있다. 이처럼 대립 가설은 단순히 '300ml가 아니다'를 넘어서 '300ml보다 작다','300ml보다 크다'와 같이 다르게 표현될 수 있다.
이처럼 대립 가설을 어떻게 표현하는지에 따라서 가설 검증 시에 단측 검정 혹은 양측 검정을 실시한다. 단측 검정은 기준 하나를 중심으로 왼쪽이나 오른쪽 중 하나의 경우만 고려하는 것이고, 양측 검정은 왼쪽과 오른쪽의 경우 모두를 고려하는 것이다. 작다 혹은 크다를 선택한다면 단측 검정이 되고, 300ml이 아니다를 선택하면 양측 검정을 하게 된다. 보통 양측 검정을 더 많이 사용하는 것으로 알려져 있지만, 단측 검정을 하게 되면 검정력(power)이 올라간다는 장점이 있다. 여기서 검정력이 무엇인지 궁금하다면, 먼저 구체적인 가설 검정 절차에 대해 이해할 필요가 있다.
가설은 어떻게 만들고, 어떻게 검증할까?
1) 가설을 수립한다. 이때 영가설과 대립 가설을 설정한다.
2) 유의수준(significance level) α 를 결정한다.
3) 기각역(critical region)을 설정(단측 검정, 양측 검정)한다.
4) 표본을 추출하여 계산한 값이 기각역에 포함되는지 계산한다.
5) 유의확률(significance probability) p값이 유의수준보다유의 수준보다 작은지 계산한다. 만약 p값이 유의 수준보다 작다면 영가설이 기각되고, 대립 가설이 채택된다.
유의 수준이란, 영가설이 참일 때 영가설을 기각할 확률을 이야기한다. 관례적으로 유의수준은 0.05로 설정하는데, 쉽게 말하면 A음료가 300ml일 확률이 5% 미만이라는 의미이다. 유의 수준이 높을수록 영가설을 잘못 기각할 확률이 증가하는데, 이는 1종 오류를 높인다. 1종 오류와 2종 오류에 대해서는 (클릭) G*power 사용법을 다룬 지난 글에서 설명한 적이 있어서 간단하게만 이야기하겠다.
1종 오류( α )와 2종 오류( β )
1종 오류 = 영가설이 참인데 영가설을 기각하는(거짓이라고 하는) 오류
2종 오류 = 영가설이 거짓인데 채택하는(참이라고 하는) 오류
유의 수준이 높을수록 영가설이 참인데 영가설을 기각할 확률이 높아지므로, 1종 오류가 발생할 확률이 높아진다. 연구자가 알고 싶은 것은 대립 가설의 채택이므로, 영가설이 실수로 기각되는 확률을 낮추기 위해 유의 수준을 낮춰야 한다.
1종 오류( α )와 2종 오류( β ) 중 무엇이 더 중요할까? 1종 오류!
여기서 많은 사람들이 궁금해하는 것은 1종 오류, 2종 오류 둘 중 무엇이 연구자에게 더 중요한지이다. 연구마다 조금씩 다르지만 사회과학에서는 1종 오류가 더 심각한 것으로 여겨진다.
예를 들어, 영가설이 'B약은 우울증 치료에 효과가 없다'인 경우에 효과가 없는데 효과가 있다고 판단하는 1종 오류가 발생하면, 사람들은 실제로 효과가 없음에도 B약을 먹게 되고 이로 인해 다른 문제가 발생할 수 있다. 효과가 있는데 없다고 말하는 2종 오류가 발생하면, B약을 만든 회사는 효과가 있음에도 사람들이 B약을 먹지 않기 때문에 약간의 피해를 볼 수 있지만, 효과가 없는 약을 먹는 것보다는 덜 위험하다.
관례적으로 유의수준이 0.05인 이유 & 검정력을 높이는 최고의 방법
사회과학에서 가장 이상적인 유의 수준은 0.001이지만, 유의 수준을 엄격하게 설정하면 영가설이 실제로 틀렸는데도 영가설을 기각하지 못하는 2종 오류가 발생하게 된다. 그러므로 앞에서 이야기했듯 현실적인 여건을 고려하여 유의 수준을 0.05로 설정한다.
이때 틀린 영가설을 정확하게 기각하는 확률을 검정력(power, 1- β)이라고 부르는데, 연구자는 자신의 연구가 검정력이 높을수록 잘 설계된 연구라고 인정받는다. 검정력을 높이는 방법은 다음과 같다!
1) 표본의 크기가 큰 경우
2) 효과 크기가 큰 경우
3) 유의 수준이 큰 경우
4) 단측 검정일 경우
일반적으로 연구자들은 검정력을 높이기 위한 가장 쉬운 방법으로 표본을 키운다. 그 이유를 이해하고자 하나씩 살펴보자면, 유의수준이 클수록 영가설을 기각할 확률이 높아지고, 작은 효과가 통계적으로 유의미한 것으로 감지될 가능성이 높아져서 틀린 영가설을 기각할 확률(검정력)도 높아진다. 그래서 전체 확률 1에서 2종 오류 β 를 뺀 값(1-β)을 검정력이라고 표현한다. 유의수준이 높아지면 1종 오류가 발생할 확률도 높아진다는 문제가 있다.
효과 크기(cohen's d)는 절대적인 처치 효과의 크기를 의미하며, 효과 크기가 크면 집단 간의 차이가 더 커지므로, 통계적 검정에서 더 명확하고 유의미한 결과를 도출할 가능성이 높다. 따라서 영가설을 기각할 확률(검정력, power)이 증가한다. 효과 크기는 (처치 후 표본 평균 - 처치 전 모평균)을 표준편차로 나누어서 계산하며, 일반적인 평가는 다음과 같다.
d=0.2 작은 효과
d=0.5 중간 효과
d=0.8 큰 효과
같은 유의수준에서도 양측 검정, 단측 검정 중 무엇을 사용하는지에 따라 검정력이 달라진다. 단측 검정을 사용하게 되면 검정력을 한쪽 꼬리에 집중함으로써 관심 있는 특정 방향의 효과나 차이를 감지하는 데 유용하다. 틀린 영가설을 채택할 2종 오류가 발생할 확률이 감소하고, 이는 검정력의 증가로 이어진다. 그러나 대립 가설이 무엇인지(300ml가 아니다, 300ml보다 작다, 300ml보다 크다)에 따라서 단측 검정이 효과적일 수도 있고, 양측 검정이 효과적일 수도 있기 때문에 단측 검정이 검정력을 높이는 가장 좋은 방법은 아니다.
유의확률(p값)이 유의수준보다 작으면 발생하는 일
연구자가 유의수준을 결정하고 데이터를 수집하면, 데이터 분석을 통해 나온 유의확률 p값을 유의 수준과 비교한다.
유의확률은 p값, p-value라고도 불리는데 연구자가 구하는 값으로 영가설이 참이라고 가정할 때 통계치가 관측될 확률을 의미한다. 연구자는 유의 수준과 유의확률을 비교하여 영가설을 채택하거나 기각하게 된다.
만약 유의수준을 0.05라고 설정한 경우, 유의확률 p값이 유의 수준 0.05보다 작으면 영가설이 기각되고 대립 가설이 채택된다. 어떤 사건이 우연히 발생할 확률이 0.05(5%) 보다 적을 가능성은 거의 없기 때문이다.
잘못된 것을 잘못되었다고 제대로 말할 확률
가설 검정은 표본을 통해 얻은 데이터를 기반으로 가설의 타당성에 대해 결정할 수 있도록 도와준다. 연구자가 이러한 개념을 이해하는 것은 연구 결과의 타당성과 신뢰성을 뒷받침하는 데 매우 중요하며, 심리학 학부와 석사를 모두 경험한 입장에서 통계의 중요성은 강조하고 또 강조해도 부족하다. 마침 졸업 시험을 준비하면서 통계 개념을 복습하고 있는데, 더 자세한 통계 지식들을 글로 풀어낼 예정이다!
'프로젝트를 디깅하다' 카테고리의 다른 글
사이사이 뉴스레터 6: 홍보 채널이 많다고 해서 무조건 득은 아니다 (0) | 2025.03.23 |
---|---|
2개 이상의 집단을 비교하고 싶을 때 (ANOVA) (0) | 2024.04.24 |
G*Power 사용, 어떻게 하는 거지? (0) | 2024.03.12 |
사이사이 뉴스레터 5: 돈벌다가 뉴스레터 구독자 200여명을 잃은 썰 (0) | 2024.02.06 |
사이사이 뉴스레터 4: 팀원 리크루팅, 어떻게 해야할까? (0) | 2024.01.28 |