Notice
Recent Posts
Recent Comments
Link
«   2026/04   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
Tags
more
Archives
Today
Total
관리 메뉴

Elevation

기초통계학 (9) - 이산 자료에 관한 추론 2 (적합도/동질성/독립성 검정) 본문

정리/통계학

기초통계학 (9) - 이산 자료에 관한 추론 2 (적합도/동질성/독립성 검정)

aste999 2025. 10. 5. 01:16

전편에서는 범주형 자료에 대해, 모비율을 추정 혹은 검정의 대상으로 삼아 2개 이하의 집단에서 분석하는 방법을 살펴보았다. 그러나, 3개 이상의 범주형 자료에 대해 분석해야 하는 상황도 있을 것이다. 이럴 경우, 귀무가설은 모든 모수가 같다($p_1 = p_2 = p_3$)는 가설으로, 대립가설은 그렇지 않다(즉, 최소 1개의 모수는 다르다)는 가설으로 놓고 검정한다. 전체적으로 검정한 후에, 귀무가설을 기각하면 둘씩 묶어 세부 검정하는 방식으로 어떤 모수가 다른지를 찾는다.

 

'어차피 세부 검정을 진행해야 한다면, 전체 검정할 필요 없이 처음부터 둘씩 묶어서 비교하여 결론을 내면 되지 않을까'라고 생각할 수 있는데, 그렇게 진행하면 전체 결론이 맞기 위해서 세부 검정이 모두 맞아야 하기에 $(1-\alpha)^n$ 식으로 정확도가 기하급수적으로 떨어지는 문제가 발생한다. 따라서 전체 검정을 위한 새로운 방법이 필요하다.

 

먼저 몇 가지 용어를 도입하자. 범주형 자료의 특정 속성(ex. ABO혈액형의 'A형')이 실제로 관찰되는 개수를 관찰도수 $O$라 하고, 귀무가설에 의한 기댓값을 기대도수 $E=np$라 하자. $x$개의 속성을 가진 하나의 범주형 자료에 대해 다음 통계량이 카이제곱 분포를 따른다는 것이 알려져 있다.

 

$$ \sum_{i=1}^x{\frac{(O_i-E_i)^2}{E_i}} \; \sim \; \chi^2(df)$$

 

전편에서 모비율의 추정량 $\hat{p}$가 CLT에 의해 $N(p, p(1-p)/n)$을 따른다는 것을 보였듯이, $E$ 역시 $\forall E_i >5$라는 조건 하에 $N(np, np(1-p))$를 따를 것으로 쉽게 예상할 수 있다. $E$가 정규성을 만족하므로 각 속성의 편차 제곱의 평균, 즉 표본분산은 카이제곱 분포 $\chi^2(1)$를 따르고, 카이제곱 분포의 가법성에 의해 각 속성의 표본분산의 합 역시 카이제곱 분포로 나타낼 수 있는 것이다. 물론 계산으로도 보일 수 있겠지만, 이렇게만 이해하고 넘어간다.

 

 

적합도 검정

적합도 검정(goodness-of-fit test)은 여러 범주를 가진 하나의 모집단에 대한 검정이다. 표본에 대한 확률 모형을 제시하고, 실제 관측값들이 이 확률 모형을 얼마나 잘 따르는지 확인할 때 사용한다. 가령 ABO혈액형에서, 'A형:B형:O형:AB형=4:3:2:1'이라는 모형을 제시했을 때, 이것이 유효한지 검정하는 것이다. 정규성을 확인하는 정규성 검정은 '내 표본이 정규분포를 따른다'는 가설을 입증하기 위한 대표적인 적합도 검정의 예시라고 볼 수 있다.

 

실행 방법은 간단하다. $c$개 범주의 실제 관측 도수를 $O_1, \cdots, O_c$라 하면, 귀무가설이 맞다는 가정 하에 $\hat{E_i}$를 얻을 수 있을 것이므로, $\sum{\frac{(O_i - \hat{E_i})^2}{\hat{E_i}}} \; \sim \; \chi^2(c-1)$으로 검정을 수행해 주면 된다.

 

 

동질성 검정

동질성 검정(homogeneity test)은 여러 범주를 가진 여러 모집단에 대한 검정이다. '서로 다른 모집단이지만 각 범주의 모비율은 같은가?', 즉 모집단 간의 동질성을 검사한다. n개의 국가에서 ABO혈액형의 비율이 같은지를 검사한다고 보면 되겠다.

 

$r$개의 모집단 각각에 $c$개의 범주가 있을 때, $i$번째 모집단의 $j$번째 범주의 관측도수를 $O_{ij}$로 두자. 귀무가설은 각 범주의 모비율이 같다는 것이므로, $p_{1j} = p_{2j} = \cdots = p_{ij}$로 가정하고 이 값을 j번째 범주의 공통 모비율 $p_j$로 두자. 공통 모비율의 추정값 공통 표본비율은 $\hat{p_j} = O_{\bullet j}/n$으로 구하면, 추정 기대도수가 $\hat{E_{ij}} = n_i \hat{p_j}$로 표현될 수 있다. ($n$은 전체 표본 개수, $n_i$는 i번째 모집단의 표본 개수. 모집단마다 표본 개수가 다를 수 있으므로 약간은 표현이 복잡해진다.) 전체 검정은 모든 추정 기대도수의 합으로 진행하게 될 것이다.

 

$$\sum_{i=1}^r \sum_{j=1}^c \frac{(O_{ij} - \hat{E_{ij}})^2}{\hat{E_{ij}}} \; \sim \; \chi^2 ((r-1)(c-1))$$

 

동질성 검정은 전편의 '두 모비율의 비교'의 확장판이라고 볼 수 있다. 두 모비율의 비교에서는 두 모집단의 두 범주(성공/실패)에 대해 검정하여, 두 모집단의 성공률이 같다고 볼 수 있는지를 검정하였다면, 동질성 검정은 3개 이상의 모집단, 3개 이상의 속성에 대해서도 유효하다.

 

 

독립성 검정

독립성 검정(independence test)은 하나의 모집단의 두 속성에 관한 검정이다. 두 속성 각각을 여러 범주로 나눌 수 있을 때, 두 속성이 독립성을 만족하는지 검사한다. 대한민국 국민의 ABO 혈액형과, 거주 지역 간 관계를 살펴보는 식이다.

 

특성 A의 범주 $A_1, \cdots, A_r$과, 특성 B의 범주 $B_1, \cdots, B_c$로 두고 A의 i번째 범주에 속하면서 B의 j번째 범주에 속하는 모비율을 $p_{ij}$라 하면, 귀무가설은 $p_{ij} = p_{i\bullet}p_{\bullet j} \;\forall i, j$이다. 이번에는 여러 개의 모집단이 아닌 표본 크기 $n$인 하나의 모집단에 대한 검정이므로, $\hat{E_{ij}} = n \frac{O_{i\bullet}}{n} \frac{O_{\bullet j}}{n}$으로 구해야 할 것이다. $E$를 구하는 과정만 조금 다르고, 결국 구한 $E$가 카이제곱 분포를 따르는 것은 동일성 검정과 같으므로 전체 검정의 계산 과정 역시 동일하다.

 

$$\sum_{i=1}^r \sum_{j=1}^c \frac{(O_{ij} - \hat{E_{ij}})^2}{\hat{E_{ij}}} \; \sim \; \chi^2 ((r-1)(c-1))$$