Elevation
기초통계학 (8) - 이산 자료에 관한 추론 1 (모비율) 본문
지금까지는 연속형 자료들의 핵심 모수인 평균 및 분산에 관해 통계적 추론을 진행하였다. 범주형 자료로 대표되는 이산형 자료를 만났을 경우에는 어떻게 통계적 추론을 할 수 있을지 정리해 보자.
모비율의 추정 및 검정
이산형 자료의 경우 관심 모수는 무한모집단에서 특정 카테고리의 비율인 모비율(population proportion, $p$)이다. 모비율을 추정하기 위해서 표본비율(sample proportion, $\hat{p}$)을 사용하며, 이는 당연히 $n$개의 랜덤 표본 중 특정 속성의 개체 수 $X$의 비율인 $\frac{X}{n}$으로 정의된다.
표본비율의 분포를 살펴보기 위해 베르누이 분포와 이항분포의 개념을 다시 떠올려 보자. 표본을 추출하는 과정은 $Ber.(p)$에서 i.i.d.하게 $n$개를 뽑는 것이라고 할 수 있으므로, $X$는 이항분포 $B(n,p)$를 따른다. 따라서 표본비율은 다음과 같은 평균과 분산을 갖는다.
$$E(\hat{p}) = \frac{1}{n}E(X) = p, \; V(\hat{p}) = \frac{1}{n^2}V(X) = \frac{p(1-p)}{n}$$
이항분포의 정규근사를 생각해 보면, $np>5, n(1-p)>5$일 때 표본비율은 정규분포로 근사시킬 수 있다.
$$ \hat{p} \; \dot{\sim} \; N(p, \frac{p(1-p)}{n})$$
위 식을 이용하면 모비율에 관한 추정 및 검정을 진행할 수 있다. 다만 표준오차 $SE(\hat{p})=\sqrt{p(1-p)/n}$으로 추정하려는 모수 $p$가 들어있기 때문에, $p$를 $\hat{p}$로 대체하여 사용하면 된다.
모비율의 추정에서 표본 크기의 결정
실제로는 추정을 진행하기 전에, $100(1-\alpha)\%$ 신뢰구간의 길이가 $2d$ 이하이기를 원한다면 최소 몇 개의 표본을 수집해야 하는지를 사전 조사하는 것이 효율적일 것이다. 모비율에 대한 사전 정보가 있다면 통계적 추정의 식에서 간단하게 유도할 수 있다.
$$ d \geq z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}} \iff n \geq p(1-p)(\frac{z_{\alpha/2}}{d})^2 $$
$p$에 대한 사전 정보가 없다면, $p(1-p)$의 최대치 $\frac{1}{4}$를 이용하면 된다.
두 모비율의 비교
이표본의 경우도 생각해 보자. 관심모수 $p_1 - p_2$에 대한 검정통계량은 $\hat{p_1} - \hat{p_2}$인데, 표본비율은 정규분포를 따르고 정규분포는 선형결합이 가능하므로 $\hat{p_1} - \hat{p_2}$도 정규분포를 따른다고 볼 수 있다. 이후에는 이표본 문제에서 등분산 가정 / 이분산 가정으로 경우를 나눴던 것과 비슷하게, 두 모비율이 같다고 가정할 것인지 아닌지에 따라 case를 나눠 진행하면 된다. 두 모비율이 같다고 가정한다면 합동표본비율(pooled smaple proportion)을 정의하여 보다 간편하게 계산할 수 있다.
1. $H_0: p_1 - p_2 = 0$인 경우
합동표본비율 $\hat{p} = \frac{X_1 + X_2}{n_1 + n_2}$로 정의한다.
$$ Z = \frac{ \hat{p_1} - \hat{p_2} }{\sqrt{\hat{p}(1-\hat{p})(1/n_1 + 1/n_2)}}$$
2. $H_0: p_1 - p_2 = D (D \neq 0)$인 경우
$$Z = \frac{ \hat{p_1} - \hat{p_2} - D }{\sqrt{ \frac{ \hat{p_1}(1- \hat{p_1})}{n_1} + \frac{\hat{p_2}(1- \hat{p_2})}{n_2}}}$$
예시를 한번 살펴보자.
| 고혈압 환자의 건강 상태 개선을 위한 두 가지 방법이 시도되었다. 방법 A를 시도한 환자와 방법 B를 시도한 환자 중 각각 42, 40명을 랜덤추출하여 특정 기준을 바탕으로 성공/실패로 구분하였다. 방법에 따라 건강 상태 개선 성공률에 차이가 있는지를 유의수준 5%에서 검정하여라. 방법 A: 성공 13 / 실패 29 방법 B: 성공 22 / 실패 18 |
1. $H_0: p_1 - p_2 = 0 , H_1: p_1 - p_2 \neq 0$
2. $\alpha = 0.05$
3. $n_1p_1 > 5, \cdots$ 으로 CLT를 적용할 수 있고 $\hat{p_1} - \hat{p_2} \; \sim \; N(0, \frac{p(1-p)}{42} + \frac{p(1-p)}{40})$
$\hat{p}=\frac{35}{82}, \; \frac{\hat{p_1} - \hat{p_2} - 0}{\sqrt{\hat{p}(1-\hat{p})(1/42 + 1/40)}} = -2.2$
4. $|Z| \geq z_{0.025} = 1.96 \; \therefore Reject \; H_0$
'정리 > 통계학' 카테고리의 다른 글
| 기초통계학 (10) - 상관분석과 단순회귀분석 (0) | 2026.02.04 |
|---|---|
| 기초통계학 (9) - 이산 자료에 관한 추론 2 (적합도/동질성/독립성 검정) (0) | 2025.10.05 |
| 기초통계학 (7) - 모분산에 관한 추론 (0) | 2025.09.10 |
| 기초통계학 (6) - 이표본 가설 검정 (0) | 2025.09.09 |
| 기초통계학 (5) - 가설 검정(Z-test, t-test) (0) | 2025.05.10 |