Elevation
기초통계학 (2) - 표본분포 본문
표본분포(samplign distribution)이란 통계량의 확률분포를 의미한다. 표본분포를 이용해 통계량의 정확성을 측정할 수 있으며, 통계량의 표본분포에 따라 모집단 예측에 있어 통계량을 어떻게 처리할지가 달라지기 때문에 중요한 개념이다.
표본분포는 모집단의 분포와, 표본의 추출 방식(어떻게 뽑을지)에 의해 결정된다. 모집단의 분포는 이미 결정되어 있으므로 결국 통계량을 어떻게 뽑는지에 따라 표본분포가 달라지게 된다.
표본 추출의 방식에 대하여, 단순랜덤추출(SRS)을 사용할 것이나 복원추출할 것인지, 비복원추출할 것인지에 대한 문제가 있다. 복원추출은 계산이 간결하지만 중복 표본이 발생한다는 문제가 있고, 비복원추출은 중복 문제가 없으나 계산이 복잡해진다.
가령 $N$개 중 $M$개가 당첨인 모집단에서 표본 2개($X_1$, $X_2$)를 단순랜덤추출한다고 생각해 보자. 이때 복원추출, 비복원추출 상관없이 두 시행의 확률은 $M/N$으로 동일하다(identical). 그러나 복원추출의 경우 두 시행은 독립적이나(independent), 비복원추출의 경우 그렇지 않다.
$$ P(X_1 = 1) = P(X_2 = 1) = \frac{M}{N}, P(X_2 = 1 | X_1 = 1) = \frac{M-1}{N-1} $$
그러나, 식에서 볼 수 있듯이 모집단의 크기 $N$이 $M$에 비해 충분히 크다면 $X_1$과 $X_2$는 독립에 가까워진다. 따라서 우리는 랜덤표본을 비복원추출로 정의한 뒤, 모집단의 크기가 충분히 크다는 가정 하에 확률변수들이 서로 독립이라고 이야기할 것이다.
랜덤표본의 정의는 다음과 같다.
1) 유한모집단: 단순랜덤 비복원추출로 뽑은 표본
2) 무한모집단: $X_1, X_2, \cdots , X_n$ 각각의 분포가 모집단의 분포와 동일하고, 서로 독립인 조건을 만족하는 $X_1, X_2, \cdots , X_n$
모집단의 크기가 큰 유한 모집단, 또는 무한 모집단의 랜덤 표본은 서로 독립이며, 모집단의 분포와 동일한 분포를 따른다.
이를 i.i.d.(independently and identically distributed)라 하며 통계량을 구하는 중요한 가정이 된다.
그럼 이제 본격적으로 대표적인 몇 가지 통계량에 대한 표본분포를 알아보자. 먼저 모집단의 형태가 이산형(categorical)인지 연속형인지에 따라, 이산형의 경우 단순하게는 원하는 표본의 '개수'를 통계량으로 설정할 수 있다. 이때는 유한 모집단의 경우 초기하분포, 모한 모집단의 경우 이항분포를 따르게 된다. 한편 연속형 모집단에서 가장 대표적인 통계량은 '평균'인데, 평균은 정규분포라는 표본분포를 따르게 된다.
베르누이 분포
베르누이 시행: 시행의 결과가 성공(s)/실패(f)로 2개 뿐인 시행
베르누이 확률변수: 베르누이 시행의 표본공간 $S={s, f}$에서 $X(s)=1, X(f)=0$
이러한 베르누이 확률변수의 확률분포를 베르누이 분포라 한다. 베르누이 분포의 모수는 당연히 성공 확률 $p$가 된다.
베르누이 분포의 평균과 분산은 다음과 같다.

초기하분포
특성값 1의 개수가 $D$, 0의 개수가 $N-D$인 크기 $N$의 유한모집단에서, 크기 $n$인 랜덤 표본을 뽑을 때 표본에서 1의 개수를 확률변수 $X$라 하자. 이때 $X$의 확률 분포가 초기하분포이다.

유한모집단에서의 비복원추출이기때문에 독립임을 가정할 수 없다. 따라서 $p(x)$도 조건을 만족하는 n개를 한 번에 뽑는 방식으로 계산한다.
계산이 꽤 복잡하겠지만, 결과적으로 평균과 분산은 다음과 같다고 한다.

이항분포
이항분포는 무한모집단을 전제한다. 특성값 1의 비가 p, 0의 비가 1-p인 무한모집단에서 크기 n인 랜덤 표본을 뽑을 때, 표본에서 1의 개수를 확률변수 $X$라 할 때 $X$의 확률 분포이다. 이때는 각 표본들을 뽑는 시행이 독립적이므로, 각 시행(베르누이 시행)의 곱으로 확률을 표현할 수 있다.

초기하분포가 $N \to \inf, D/N \to p$인 상황이면 이항분포와 동일해질 것이다. 일반적으로는 $n/N$(sampling fraction)이 0.05 이하인 경우 이항분포로 근사 가능하다고 본다.
한편 초기하분포와 이항분포를 비교해 보면, $E(X)$는 동일하나 이항분포의 $V(X)$는 초기하분포에 $(N-n)/(N-1)$이 추가로 붙어 있는 형태임을 확인할 수 있다. 이 값은 1보다 항상 같거나 작다.
그 의미에 대해 생각해 보면, 표본의 개수는 동일하나 모집단의 개수가 달라(유한 vs 무한), 초기하분포가 모집단에 대해 상대적으로 더 많은 정보를 갖고 있다고 볼 수 있다. 따라서 비복원추출의 과정에서 $H$는 $B$보다 분산이 줄어든 형태, 더 stable한 형태로 나타나게 된다. 그 정도를 나타내는 $(N-n)/(N-1)$은 유한 모집단 수정 계수(fpc)라 한다.
정규분포
정규분포는 연속형 무한모집단에서 나타나는 가장 대표적인 분포이다. 가우스 분포라고도 한다.
정규분포의 모수는 평균과 표준편차로 2개이다. 대칭축에서 변곡점까지의 거리가 표준편차가 된다.

정규분포는 선형변환 및 선형결합이 가능하다.

연속형 분포가 나온 김에 백분위수에 대해서도 미리 간단히 알아보자. 분포 $X$에서의 $100(1-a)$ 백분위수는 $P(X>x)=a$를 만족하는 x값을 찾으면 된다. 일상적인 정의(최소가 0, 최대가 100)와는 달리 오른쪽 꼬리의 넓이를 기준으로 함에 주의한다.
통계량과 표본분포
지금까지 정리한 표본분포들이 자료의 통계량과 어떻게 관련되어 있는지 짚고 넘어가자. 표본분포란 통계량의 확률분포이므로, 우리가 살펴볼 통계량의 종류에 따라 표본분포 역시 달라지게 된다.

이산형 모집단에 대해서는 자료 중 원하는 값의 개수($\sum{x_i}$)가 대표적인 통계량이 된다. 유한 모집단에서 추출한 표본에서 개수의 확률분포를 나타낸 분포가 초기하분포 $H$, 무한 모집단 기반 표본 내 개수의 확률분포를 나타낸 분포가 이항분포 $B$이다.
한편 연속형 모집단의 경우에는 평균($\overline{X}$)이 중요한 통계량이 될 것이다. 표본의 평균은 모집단의 정규분포 여부와 상관없이 정규분포 $N$을 따름이 알려져 있다(다음 편에 자세히 다룰 것이다).
당연히 개수나 평균 외에 (산포와 관련된) 다른 통계량에 대해서도 관련된 표본분포가 있다. 이에 대해서도 다음 편에 다뤄보도록 하겠다.
'정리 > 통계학' 카테고리의 다른 글
| 기초통계학 (6) - 이표본 가설 검정 (0) | 2025.09.09 |
|---|---|
| 기초통계학 (5) - 가설 검정(Z-test, t-test) (0) | 2025.05.10 |
| 기초통계학 (4) - 추정 (0) | 2025.05.10 |
| 기초통계학 (3) - 표본과 표본분포(Z분포, 카이제곱분포, t분포, F분포) (0) | 2025.05.05 |
| 기초통계학 (1) - 측도, 표본, 확률과 확률분포 (0) | 2025.04.28 |