Elevation
기초 통계학 (11) - 중회귀분석 본문
단순회귀분석에 이어 중회귀분석에 대해 알아본다. 중회귀분석(multiple regression)은 두 개 이상의 설명변수를 이용하는 회귀분석이다. 중회귀선형모형은 다음과 같이 식으로 표현할 수 있다. 단순회귀분석과 마찬가지로 선형성, 등분산성, 독립성, 정규성을 만족시키는 오차를 가정한다.
$$ Y = \beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k + e$$
$$ \hat{y} = E(Y) = \beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k $$
중회귀분석에서 각 계수는, 다른 설명변수들을 모두 고정시킨 상황에서 해당 설명변수가 1단위 증가했을 때, $\triangle E(Y)$를 의미한다.
중회귀분석의 평가
중회귀분석의 평가 방법 역시 크게 다르지 않다. 분산(총 변동) $SST$를 $SSR$과 $SSE$로 분해한다. 다만 이번에는 오차의 입장에서 외부 조건의 개수가 $\beta_0, \beta_1, \cdots, \beta_k$로 총 $k+1$개이므로, $SSE$의 자유도는 $n-k-1$, $SSR$의 자유도는 $k$가 된다. 이를 기존의 결정계수에서 보정하여 수정된 결정계수(adjusted R-square)가 등장한다. 결정계수는 설명변수의 유의성과는 관계없이, 임의의 설명변수를 추가하면 항상 증가하거나 기존 값을 유지한다. 따라서 수정된 결정계수는 자유도를 이용해 설명변수의 개수에 따라 적절한 페널티를 부과한다. 특정 설명변수를 추가했을 때 Adjusted R^2 값이 감소한다면, 해당 변수가 유의하지 않다는 뜻이므로 모형에서 제거할 수 있을 것이다.
$$ r^2 = \frac{SSR}{SST}$$
$$ r^2_a = 1 - \frac{SSE/(n-k-1)}{SST/(n-1)} $$
중회귀분석의 검정
중회귀분석의 검정 시 검정하려는 모수가 여러 개이므로, 이전에 살펴본 것처럼 처음부터 둘씩 묶어서 검정하면 정확도가 크게 감소하는 문제가 있다. 따라서 F-검정을 통해 전체적 검정을 수행하여 먼저 모형 전체의 유의성을 입증하고, 이후 개별 검정(t-test)을 통해 각 계수의 유의성을 검정한다. 전체적 검정의 귀무가설은 모든 회귀계수가 유의하지 않다($H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0$)는 것이고, 대립가설은 그렇지 않다는 것이다. F-검정의 과정은 자유도의 차이만 있을 뿐 단순회귀분석과 크게 다르지 않다.
$$ F = \frac {SSR / k}{SSE / (n-k-1)} = \frac{MSR}{MSE} \, \sim \, F(k, n-k-1)$$
변수 선택과 다중공선성
실제 $Y$에 대한 유의한 모형을 제작하고자 할 때는, 다양한 $X$ 중 일부를 선택하는 과정이 필요할 것이다. 변수 선택의 방법으로는 대표적으로 상수항부터 시작해 유의미한 변수부터 하나씩 넣는 전진 선택법(forward selection)과, 모든 변수를 모형에 넣어 놓고 유의하지 않은 것을 제거해 나가는 후진 선택법(backward selection) 등이 있다. 후진 선택법이 조금 더 안정적이라는 특징이 있다.
변수를 선택해야 하는 대표적 상황이 다중공선성(multicollinearity)이 나타나는 경우이다. 다중공선성은 독립변수 간 강한 선형관계가 나타나는 현상으로, 다중공선성이 나타나면 데이터가 조금만 바뀌어도 각 계수의 추정치가 크게 바뀌어 회귀계수의 해석을 어렵게 만든다. 따라서 다중공선성이 나타나는 경우, 변수를 적절히 정리해 주어야 한다. 일반적으로 전체 p-value가 유의하나 개별 계수의 p-value가 유의하지 않은 경우, VIF(variance inflation factor) 값이나 계수 간 상관관계를 확인하여 다중공선성을 체크한다.
'정리 > 통계학' 카테고리의 다른 글
| 기초통계학 (10) - 상관분석과 단순회귀분석 (0) | 2026.02.04 |
|---|---|
| 기초통계학 (9) - 이산 자료에 관한 추론 2 (적합도/동질성/독립성 검정) (0) | 2025.10.05 |
| 기초통계학 (8) - 이산 자료에 관한 추론 1 (모비율) (0) | 2025.09.18 |
| 기초통계학 (7) - 모분산에 관한 추론 (0) | 2025.09.10 |
| 기초통계학 (6) - 이표본 가설 검정 (0) | 2025.09.09 |