Notice
Recent Posts
Recent Comments
Link
«   2026/04   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
Tags
more
Archives
Today
Total
관리 메뉴

Elevation

기초통계학 (6) - 이표본 가설 검정 본문

정리/통계학

기초통계학 (6) - 이표본 가설 검정

aste999 2025. 9. 9. 00:53

 

 

계속해서 검정을 다룬다. 이번에는 두 모집단에서 추출한 이표본(two-samples)을 비교할 때의 가설 검정에 대해 다뤄볼 것이다. 실험에서 어떠한 두 가지 방법의 결과가 유의미하게 차이가 있는지 확인하기 위하여, 이표본 검정을 사용할 수 있다.

 

 

이표본에 의한 모평균 비교

가령 두 가지 약의 효능에 차이가 있는지 비교하는 검정을 한다고 생각해 보자. 두 모집단은 서로 독립적이므로, 각각의 모집단에서 추출한 랜덤 표본인 이표본 역시 독립적이라고 볼 수 있다. 한편 우리가 확인하고 싶은 것은 두 집단의 모평균 차 $\mu_1 - \mu_2$의 통계적 유의성이므로, 검정통계량은 $\overline{X}_1-\overline{X}_2$가 된다.

 

이제 검정통계량이 무슨 표본분포를 따를지 알아보자. 서로 독립적이므로 공분산은 0이 되어 기댓값과 분산을 구할 수 있으며, 정규성 가정 하에 정규분포로 나타낼 수 있다.

 

$$E( \overline{X}_1-\overline{X}_2 ) = \mu_1 - \mu_2$$

$$Var( \overline{X}_1-\overline{X}_2 ) = Var(\overline{X}_1) + Var(\overline{X}_2) - 2Cov(\overline{X}_1, \overline{X}_2) = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}$$

$$\overline{X}_1-\overline{X}_2 \; \sim \; N(\mu_1 - \mu_2, \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2})$$

 

sample이 1개일 때 $\sigma$를 아는지 모르는지에 따라 Z-test, t-test로 검정 방법이 나뉘었던 것처럼, $\sigma_1, \sigma_2$를 어떻게 설정하는지에 따라 검정 방법이 총 3가지로 나뉘게 된다.

  • 모분산을 아는 경우: 그대로 표준화하여 Z-test 하면 된다. 다만 실제로는 모분산을 아는 경우가 드물다.
  • 이분산 가정
  • 등분산 가정

 

 

이분산 가정

두 모분산을 모두 모른다면, 각각의 표본분산을 이용해 모분산을 추정해야 한다. 이 경우 검정통계량은 당연히 t-분포를 따르게 될 것인데, 자유도를 구하기 위해 표준적인 t-분포의 형태($\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t(n-1)$)로 만들어 주어야 하기 때문에 과정이 꽤나 복잡하다. 결과적으로는 자유도가 아래와 같이 나오게 된다. 자연수가 아니라면 가장 가까운 값을 이용한다.

 

$$\frac{(\overline{X}_1-\overline{X}_2)-(\mu_1 - \mu_2))}{\sqrt{{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}}\sim t(df)$$

$$df = \frac{(S_1^2/n_1 + S_2^2/n_2)^2}{\frac{(S_1^2/n_1)^2}{n_1 - 1} + \frac{(S_2^2/n_2)}{n_2-1}}$$

 

그나마 위안이 되는 점은 $df > \min (n_1 - 1 , n_2 - 1)$임이 알려져 있어, 그 값이 충분히 크다고 판단되면 Z-분포로 근사가 가능하다는 점이다. 예시 문제를 풀어보자.

두 국가의 학생들을 대상으로 평균 수학 성적을 측정하였다. 국가 A에서는 90명을 랜덤추출하여 평균 76.4, 표준편차 8.2의 결과를 얻었고, 국가 B에서는 100명을 랜덤추출하여 평균 81.2, 표준편차 7.6의 결과를 얻었다. 두 국가의 전체 학생의 평균 수학 성적에 차이가 있는지 유의수준 1%에서 검정하시오.

 

1. $H_0: \mu_1 - \mu_2 = 0$, $H_1 : \mu_1 - \mu_2 \neq 0$

2. $\alpha = 0.01$

3. CLT에 의해 $\frac{(\overline{X}_1 - \overline{X}_2) - 0}{\sqrt{\frac{S_1^2}{90} + \frac{S_2^2}{100} }} = -4.17 \sim t(df)$이고, $t(df)$는 $Z$로 근사 가능.

4. $|T| \geq z_{0.005} = 2.57$으로 Reject $H_0$

 

 

등분산 가정

앞서 살펴본 것처럼 이분산 가정이 상당히 복잡한 관계로, 두 모분산이 알려져 있지는 않지만 같다고 가정할 수 있다면 등분산 가정을 이용할 수 있어 보다 간편해진다(이러한 가정에 근거를 부여하기 위해, 이표본의 모분산에 관해 검정해 볼 수 있다. 다음 편에서 알아볼 것이다). 공통 모분산의 추정을 위해 합동표본분산(pooled sample variance)이라는 값을 도입하는데, 이는 두 표본분산의 가중평균 형태로 볼 수 있다.

 

$$S_p^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1) S_2^2}{n_1 + n_2 - 2}$$

 

이 식은 표본분산 $S_1^2, S_2^2$과 카이제곱분포의 관계식($\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$)으로부터 유도된 것이다. 두 분포는 독립적이므로 자유도를 합쳐 전체 카이제곱분포의 자유도는 $n_1 + n_2 - 2$가 된다. 

 

$$ \frac{(n_1+n_2-2)S_p^2}{\sigma^2} \sim \chi^2(n_1+n_2-2)$$

 

$\overline{X}_1 - \overline{X}_2$와 $S_p^2$을 각각 Z분포, 카이제곱분포로 정규화시켜 t-분포의 정의($\frac{Z}{\sqrt{V/k}} \sim t(k)$)에 대입하면 최종적으로 다음과 같은 결과를 얻는다.

 

$$T = \frac{(\overline{X}_1 - \overline{X}_2)-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2} }} \sim t(n_1+n_2-2)$$

 

 

대응 비교

독립적인 두 집단에서 랜덤 표본을 추출하는 경우, 관심이 있는 변인 외에도 독립적인 수많은 변인들이 결과에 영향을 미치게 된다. 이를 방지하기 위해 다른 변인들을 통제하고, 조건이 비슷한 표본들을 하나의 쌍으로 묶어 실험을 실시할 수 있다. 이 경우 각 쌍은 조건이 비슷하므로 모집단 $X$와 $Y$는 독립이라 볼 수 없고, 대신 각 쌍들 사이에 독립이 유지된다. 이러한 방법을 대응비교(paired comparison)라 한다.

 

대응 비교의 경우 독립성 가정이 깨지므로 아까와 같은 방법을 쓸 수 없다. 그러나 각 쌍들 간에 독립이 유지되므로, $D_i:=X_i-Y_i$라는 새로운 변수를 만들어 일표본 문제로 전환하는 방식으로 더 간단하게 검정이 가능하다.