통계학에서는 모집단으로부터 표본을 추출하고, 추출된 표본의 통계량(표본평균, 표본표준편차)을 통해 모수(모평균, 모표준편차)를 추정하고자 한다. 이를 점추정(point estimation)이라고 한다. 하지만 점추정만으로는 이 모수가 얼마나 정밀하게 추정되었는지 알 수 없으므로 모평균이 존재할 구간을 확률적으로 추정하는 구간추정(interval estimation)이 동시에 사용될 수 있다.
대표적인 구간추정이 신뢰구간(confidence interval; CI)이다. 신뢰구간이란 이 구간 내에 실제 모수가 존재할 것으로 예측되는 구간으로 정의되며, 90%, 95%, 99% 신뢰구간 등 다양한 정도의 구간추정이 가능하다. 이 중 보건의학 통계 분야에서 가장 널리 사용되고 있는 것은 95% 신뢰구간이다. 이는 예측된 구간 내에 실제 모평균이 있을 가능성이 95%라고 신뢰할 수 있는 구간의 의미로 (구간의 시작, 구간의 끝)의 형식으로 표현된다.
모평균에 대한 신뢰구간
연속형 자료의 경우 표본의 크기(표본수)가 충분히 크다면 중심극한정리에 의해 표본 평균이 정규분포를 따른다고 가정할 수 있다. 그리고 이 정규분포라는 가정 하에 표본 평균과 표본 표준편차로부터 모평균의 신뢰구간을 구할 수 있다. 표본의 크기가 인 표본집단의 평균이 X, 표준편차가 s라면, 모평균의 95% 신뢰구간은 다음의 공식에 의해 구할 수 있다.
만약 표본들의 평균과 표준편차가 비슷하다면, 95% 신뢰구간의 폭은 표본수에 영향을 받는다. 아래의 그림에서 보듯이 표본수가 클수록 모평균은 정밀하게 추정될 수 있으며, 표본수가 작다면 신뢰구간이 너무 넓어 모평균이 실제로 어디쯤에 위치할지 예측하기가 매우 어렵다.
신뢰구간은 T 검정에도 이용된다. 독립표본 T 검정에서 두 군의 크기의 차이를 아래의 그림처럼 표현하면 ①, ②의 경우 95% 신뢰구간이 0을 포함하고 있지 않으므로 두 군의 모평균 차이가 실제로 0일 가능성은 5% 미만이며 검정결과는 p<0.05와 같다. 즉 ①에서는 실험군이 대조군보다 통계적으로 유의하게 점수가 높고(p<0.05), ②에서는 실험군이 대조군보다 유의하게 점수가 낮다고 해석할 수 있다(p<0.05). 95% 신뢰구간의 끝이 0에 걸쳐 있는 ③의 경우 p value는 정확히 0.05가 되며, ④, ⑤, ⑥은 모두 95% 신뢰구간이 0을 포함하고 있으므로 두 군이 통계적으로 유의한 차이가 있다고 말할 수 없다(p>0.05). ②와 ⑥을 비교해 보면 표본 평균의 차이는 비슷해 보이지만 신뢰구간의 폭에 따라서 유의성 여부가 달라지는 것을 엿볼 수 있는데, ⑥의 경우 표본수(n)가 작아서 유의성을 보이지 못했을 가능성이 높다.
모비율에 대한 신뢰구간
신뢰구간의 추정이 연속형 자료에서만 가능한 것은 아니다. 비율로 측정되는 자료의 경우에도 표본수가 충분히 크다면 모비율의 신뢰구간을 추정할 수 있다. '1'과 '0' 중 하나의 값을 갖는 자료에서 표본의 크기(n)가 충분히 크다면 중심극한정리에 의해 '1'이 관찰될 비율(p)의 표본분포도 근사적으로 정규분포를 띤다고 가정할 수 있다. 모비율의 95% 신뢰구간은 실제 모비율이 이 구간 내에 있을 가능성이 95%라는 의미로 계산법은 다음과 같다.
모비율의 신뢰구간도 표본 크기에 영향을 많이 받는다. 다음 그림을 보면 표본1~3은 모두 비슷한 표본비율(p)이 관찰되었지만 표본의 크기에 따라 신뢰구간은 큰 폭으로 차이가 난다. 64개의 표본수로 추정된 표본2의 경우 모비율의 95% 신뢰구간은 (0.57, 0.80)으로 추정되었지만 표본수가 9개에 불과한 표본3에서 모비율의 95% 신뢰구간은 무려 (0.36, 0.97)에 달한다. (중심극한정리를 적용하기 위해서는 표본수가 충분히 커야 하지만, 이 예에서는 설명의 편의를 위해 작은 수의 표본을 사용하였다.)
비의 신뢰구간
보건의학 통계분석에서는 질병발생 혹은 생존율과 특정 위험인자와의 연관성의 정도를 나타내는 척도로 교차비, 비례위험도 등의 비를 이용하는 경우가 많다. 비(ratio)란 a/b의 형태를 띠기 때문에 대개 0 이상으로 표현된다. 그리고 비교하는 두 값이 동일한 경우 1이 되며, 비교대상에 비해 연관성이 작은 경우 0~1 사이의 값을 갖고, 비교대상보다 큰 경우 1 이상의 값을 갖는다.
예를 들어, 로지스틱 회귀분석은 질병과 관련된 위험인자를 찾기 위한 통계적 분석법 중 하나로 교차비(odds ratio)를 통하여 질병과 개별 위험인자 사이의 연관성의 정도를 추정한다. 다음 그림을 보자. ①의 경우 95% 신뢰구간이 1보다 큰 구간에 위치하여 있고, 이는 교차비의 모수가 이 구간 내에 있을 가능성이 95%라는 의미이므로 실제 교차비가 1이어서 질병과 위험인자 사이에 연관성이 전혀 없을 가능성은 5% 미만일 것이다(p<0.05). 즉, 위험인자가 있을 때 질병의 위험이 통계적으로 유의하게 증가한다고 말할 수 있다. 95% 신뢰구간의 끝이 1에 걸쳐 있는 ②의 경우 교차비가 1일 수 있는 확률은 정확히 5%로 이는 p=0.05와 같다. 이제 95% 신뢰구간이 1을 포함하고 있는 ③과 ④를 살펴보자. 이 둘의 경우에는 위험인자가 질병과 연관성이 없을 가능성(교차비=1)을 95% 신뢰구간 내에 포함하고 있으므로 교차비의 점추정치가 1보다 크다고 해서 질병의 위험이 유의하게 증가한다고 말할 수는 없을 것이다(p>0.05). 마지막으로 교차비의 95% 신뢰구간이 0과 1사이에 완전하게 위치한 ⑤의 경우에는 위험인자가 있는 경우 질병의 위험도가 통계적으로 유의하게 낮다고 말할 수 있다(p<0.05).
여러 위험인자를 밝히는 다변수 분석에서는 일반적으로 비의 점추정치와 유의수준만 제시하기보다 95% 신뢰구간을 함께 제시해 준다. 왜 그럴까? 위의 그림으로 다시 돌아가 보자. ③과 ④의 경우 p value가 0.05보다 크다고 해서 위험인자로서 의미를 갖지 못할까? 5%의 기준으로 유의수준을 판단하는 것은 학계에서의 관행이지 위험인자로서의 의미를 판단하는 절대적인 기준은 아니다. 그리고 연구자가 로지스틱 회귀분석을 시행하는 목적은 질병의 발생에 영향을 미칠 것으로 예상되는 위험인자를 발견하는데 있다. 특히 ④의 경우 95% 신뢰구간에서 비록 p value가 5% 이상이기는 하지만 비교적 작을 것으로 예상된다. 이런 경우 경계적으로(marginally) 위험성이 있다고 해석하며, 신뢰구간을 함께 제시하여 구체적인 판단은 독자에게 맡기는 것이 더 합리적일 수 있다. 이렇듯 95% 신뢰구간으로 대표되는 구간추정은 점추정이 갖지 못하는 여러 정보를 추가적으로 갖고 있다. 그러므로 다변수 분석에서는 95% 신뢰구간을 함께 제시해 줌으로써 점추정의 부족한 부분을 보완해 줄 수 있다.
'의학통계 공부하기 > 개념 정리하기' 카테고리의 다른 글
| 우도 Likelihood (10) | 2012.04.02 |
|---|---|
| 일반화 선형모형 (1) | 2012.04.02 |
| 지수함수 f(x)=exp(x)=e^x (1) | 2012.04.02 |
| 상대위험도와 교차비 (4) | 2012.04.02 |
| 95% 신뢰구간 (12) | 2012.04.02 |
| [SPSS실습] 데이터 탐색 및 정규성 검정 (12) | 2011.12.27 |
| 자료의 탐색 및 정규성 검정 (6) | 2011.12.27 |
| 모수적 방법과 비모수적 방법 (6) | 2011.12.27 |
| 중심극한정리 (4) | 2011.12.27 |
Comments
오옷, 그저께 통계시간에 힘겨워하면서 배운건데 ㅋㅋ
늘 느끼는 거지만 그림이 정말 좋은거 같습니다.
이해가 쏙쏙 ㅎㅎ
좋은 글 잘 보았습니다. 도움이 많이 됐습니다.
블로그에 퍼갈게요 ^^
아 실례지만, 이 콘텐츠는 제가 작성하였지만 책으로 출간된 저작물로 출판권은 현재 출판사에게 있습니다. 저도 출판사에게 양해를 구한 뒤에 블로그에 게재하였습니다.
죄송합니다만, 블로그에 퍼가는 것은 허용되지 않습니다. 감사합니다.
교차비 의미 찾고있었는데.. 감사합니다! 잘 정리되어있네요 ㅎㅎ
설명감사합니다.
설명감사합니다.
감사합니다!!
마지막 두번째 그림의 구슬 표본1의 p = 5/16 가 맞지 않나요? 오타가 아닌가 싶습니다
아, 선생님 말씀이 맞습니다. p=5/16으로 놓고 다시 그림을 그려야겠습니다. 선생님, 정말 대단하신데요? 이렇게 꼼꼼히 공부하시면서 읽어주셔서 대단히 감사합니다. 둘러보시다가 더 지적할 부분 발견하신 것 있으면 언제든지 말씀해 주세요. 감사합니다.
인터넷으로 좋은 정보 정말 감사드립니다.
odd비에 왜 CI가 필요한가 찾아보다 발견했는데 정말 깔끔한 설명에 감탄합니다. 감사합니다.