기초통계학 (1) - 측도, 표본, 확률과 확률분포

Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

Elevation

기초통계학 (1) - 측도, 표본, 확률과 확률분포 본문

정리/통계학

기초통계학 (1) - 측도, 표본, 확률과 확률분포

aste999 2025. 4. 28. 11:34

요즘 통계학을 배우고 있어 핵심 위주로 가볍게 정리해 본다.

통계학이란?

기본적으로 모집단(population)에서 일부에 대한 자료, 즉 표본(sample)을 수집하고 표본을 바탕으로 모집단을 예측하는 학문이다. 전체를 예측하는 데에는 전체를 측정하면 가장 좋겠지만 여러 제약으로 불가능하니 일부로 전체를 추측하는 것이다. 그래서 다음과 같은 전제가 깔려 있다.

1) 최선의 예측을 하나, 정확히 맞추는 것을 기대하지 않는다.

2) 수리 논리 등을 활용해 추론에 대한 합리성을 부여한다. 즉 왜 이렇게 추론했는지 뒷받침하여 설명한다.

3) 오차가 당연히 발생하나 오차를 통제할 수 있기를 기대한다.

측도

먼저 주어진 자료의 특성부터 잘 분석할 수 있어야 한다. 자료의 특징을 알기 위한 여러 가지 측도가 있다.

제일 중요한 평균과 표준편차의 정의가 다음과 같다.

$$\mu = \sum{c_i^*} {\frac{f_i}{N}} = \sum{xp(x)}$$

$$\sigma^2 = \frac{1}{N}\sum{ (c_i^* - \mu )^2}$$

그 외에도 분포의 중심이나 산포를 나타내기 위한 다양한 측도들이 있다. IQR의 경우 Box plot에 이용되기도 한다.

* (min, Q1, Q2, Q3, max)를 이용하고, (Q1-1.5IQR, Q3+1.5IQR)까지 fence를 지정해 그 외의 경우 outlier처리한다.

기술통계학의 영역으로 히스토그램이나 도수분포표 등 효율적으로 시각화하여 살펴보기도 한다.

$$MAD = \frac{1}{N}\sum{|c_i - Q_2|}$$

$$IQR = Q_3 - Q_1$$

표본

통계량(statistic): 표본의 대푯값으로, 통계량을 이용해서 모집단(모수)를 예측한다. 처음 들었을 때는 되게 일반적인 단어 같아 보였는데, 구체적인 의미가 있다.

추정량(estimator): 모수의 추측에 사용되는 통계량

대표적으로 표본평균, 표본표준편차 등이 있겠다. CV(변동계수)는 변수의 scale을 살펴보고 맞출 때 유용하다.

$$\overline{x} = \frac{1}{n}\sum{x_i}$$

$$s^2 = \frac{1}{n-1}\sum{(x_i - \overline{x})^2}$$

$$CV = \frac{s}{\overline{x}}\cdot 100(\%)$$

Q. 왜 표본표준편차의 계산에는 분모에 n-1이 들어갈까?

A. 직관적으로, 잘 sampling된 표본은 모집단의 미니어쳐이므로, 표본분산은 모분산을 과소 추정할 수밖에 없어 이를 보정한다.

아울러 자유도(df)의 관점에서, $s^2$의 결정에는 n개의 편차가 변수로 사용된다. 그러나 편차의 합은 0이므로 마지막 편차는 자동으로 결정되어 편차들의 df는 n-1이 된다.

확률분포

확률과 확률분포의 기초적 정의에 대해서는 어느정도 잘 알려져 있으니 가볍게 다뤄보자.

이산형 확률변수 - 확률질량함수 - 누적확률함수(cdf)

연속형 확률변수 - 확률밀도함수 - 누적분포함수

두 확률변수를 동시에 다룰 때에는 결합확률분포(joint probability distirbution)와 주변확률분포(marginal ~)를 생각한다.

이로부터 공분산과 상관계수가 나온다. 공분산의 scale 문제를 표준화하여 (-1, 1) 범위에서 나타낸 것이 상관계수이다. 두 확률변수의 선형관계만을 표현하는 것임에 주의하자.

두 확률변수가 독립일 때는 공분산과 상관계수가 0이 된다(역은 성립하지 않는다). 즉 이때는 두 확률변수를 더한 분포의 분산은 단순히 두 확률변수의 분산의 합으로 나타낼 수 있다.

'정리 > 통계학' 카테고리의 다른 글

기초통계학 (6) - 이표본 가설 검정 (0)	2025.09.09
기초통계학 (5) - 가설 검정(Z-test, t-test) (0)	2025.05.10
기초통계학 (4) - 추정 (0)	2025.05.10
기초통계학 (3) - 표본과 표본분포(Z분포, 카이제곱분포, t분포, F분포) (0)	2025.05.05
기초통계학 (2) - 표본분포 (0)	2025.04.28

'정리/통계학' Related Articles

Elevation

기초통계학 (1) - 측도, 표본, 확률과 확률분포 본문

기초통계학 (1) - 측도, 표본, 확률과 확률분포

통계학이란?

측도

표본

확률분포

'정리 > 통계학' 카테고리의 다른 글

티스토리툴바