중심극한정리

2011.12.27 21:40

많은 통계모형들은 자료가 정규분포라는 가정에 기초하여 발달되었다. 그러므로 어떤 표본이 정규분포라는 가정을 할 수 있다면 다양한 분석법을 사용할 수 있어 통계적으로 매우 유리하다. 앞에서 표본의 크기가 어느 정도 이상이면 정규분포를 따른다고 하였다. 조금 더 정확하게 표현하자면 모집단으로부터 무작위로 표본을 추출할 때 추출 횟수가 충분히 크다면 그 합 또는 평균의 확률히스토그램은 정규분포 곡선에 수렴하며, 이를 중심극한정리라고 한다. 예를 한 번 들어보자.

 

 

 

 

주머니에 '1' 1개, '2' 1개, '3' 1개, 총 3개의 공이 들어 있다고 하자. 이를 무작위로 복원추출(공을 1개 꺼내어 숫자를 기록한 다음 공을 도로 주머니에 넣고 다시 공을 1개 꺼냄)했을 때 그 숫자들의 합의 확률히스토그램을 그려보면 다음과 같다.

 

 

즉, 대칭인 자료를 무작위 복원추출하였더니 25회만 반복하여도 정규분포에 가까운 그림을 얻을 수 있었다. 그러면 한 쪽으로 치우친 자료는 어떨까?

 

 

 

 

이번에는 주머니에 '0' 9개, '1' 1개, 총 10개의 공이 들어 있다고 하자. 이를 무작위로 복원추출했을 때 합의 확률히스토그램을 그려보자.

 

 

치우친 자료의 경우에도 복원추출을 반복하였을 때 역시 정규분포의 형태를 보여주었다. 이번에는 다른 형태로 치우친 자료를 살펴보자.

 

 

 

 

 

 

주머니에 '1' 1개, '2' 1개, '9' 1개, 총 3개의 공이 들어 있을 때에도 무작위 반복 복원추출 결과를 확률히스토그램으로 그려보자.

 

 

 

이 경우에도 무작위 복원추출 결과 결국 정규분포에 가까운 그림을 보여주었다. 다만 정규분포에 도달하는 복원추출의 횟수만 다를 뿐이었다. 이렇듯 어떠한 형태의 자료도 추출 횟수가 증가한다면 그 합의 확률히스토그램은 정규분포로 수렴함을 알 수 있다.

 

정리해 보면, 모집단으로부터 무작위로 복원추출을 시행할 때 추출 횟수가 충분히 크다면 그 합 또는 평균의 확률히스토그램은 중심극한정리에 의해 정규분포 곡선에 수렴한다. 그리고 이 정리는 위의 여러 예에서 확인하였듯이 모집단의 구성에 관계없이 항상 성립한다. 다만 확률히스토그램을 정규분포곡선으로 근사시키는데 필요한 최소한의 추출 횟수는 모집단의 분포에 따라 달라진다.

 

 

중심극한정리는 왜 중요할까?

 

남녀의 해부학 성적 분포가 다음과 같은 분포를 띤다고 하자. 이 분포를 보고 남자와 여자 중 어느 집단이 성적이 높은지 쉽게 말할 수 있을까?

 

 

이제 다음과 같이 두 분포가 모두 정규분포를 띤다고 가정해 보자. 이제는 눈대중으로도 두 군의 크기를 비교하기가 한결 수월해졌다.

 

 

이렇듯 중심극한정리에 의해서 두 집단의 측정치가 정규분포를 띤다고 가정할 수 있다면 우리는 그 평균을 비교함으로써 두 집단의 차이를 쉽게 비교할 수 있다. 실제로 통계학의 많은 모형들은 자료의 분포가 정규분포라는 가정 하에 작동하는 경우가 많으므로, 자료가 정규성을 갖는지 판단하는 것은 매우 중요한 작업이 된다.

 

모집단의 분포를 알지 못하는 경우에도 표본수가 충분히 크다면 중심극한정리에 의해 표본의 분포는 정규성을 띤다고 가정할 수 있으며, 이러한 정규성 가정을 통해 다양한 확률분포를 통계 검정에 이용할 수 있다.

 

신고


티스토리 툴바