2019. 3. 27. 14:25ㆍ수학 이론/이산수학
2019.03.27 Revised.
원본: 2017.09.10
표본분산 \(S^2\)는 \(\frac{1}{n-1}\sum_{k=1}^{n}(\bar{X}-X_k)^2\)로 정의된다. 그런데 분모의 꺼림칙한 \(n-1\)은 일반적으로 '자유도'(degree of freedom)라는 개념으로 설명하는데, 대략 "평균 \(\bar{X}\)는 이미 정해져 있으니까(?) 자유롭게 결정할 수 있는 변수의 개수는 \(n-1\)개 밖에 없어!" 같은 뉘앙스로 설명한다. 근데 이 설명이 도저히 납득이 가지 않는다.
사실 자유도를 이용한 설명은 다분히 작위적인 느낌이 든다. '자유도'라는 개념을 "자유롭게 결정할 수 있는 변수의 개수"와 같은 의미로 사용하는 경우를 본 적이 없다. 애초에 통계학적으로 의미가 있는지조차도 불분명한 양을, 심지어 계산식의 정당화를 위해 끼워넣어야 한다는 설명이 합당해 보이지 않았다.
실제로 \(S^2\)이 저렇게 정의되는 이유는 생각보다 간단하다. 저렇게 정의해야만, \(E[S^2] = \sigma^2 \)이 되기 때문이다.
일단 수식으로 증명을 해 보자.
전제.
- \(E[\bar{X}] = m, V[\bar{X}] = \sigma^2/n \)
pf)
\(Z = \sum_{k=1}^{n}(X_k - \bar{X})^2 = \sum_{k=1}^{n}X_k^2 - n\bar{X}^2\)임을 계산으로 알 수 있다.
\(E\left[\sum_{k=1}^{n}X_k^2\right] = \sum_{k=1}^{n} E[X_k^2] = \sum_{k=1}^{n} (m^2 + \sigma^2) = n(m^2 + \sigma^2)\)
\(E\left[n\bar{X}^2\right] = n(m^2 + \frac{\sigma^2}{n}) = nm^2 + \sigma^2 \)
\(\therefore E[Z] = n(m^2 + \sigma^2 ) - nm^2 - \sigma^2 = (n-1)\sigma^2 \\ \Rightarrow E[S^2] = \frac{1}{n-1}E[Z] = \sigma^2 \blacksquare \)
즉, \(S^2\)는 추출을 거듭할수록 \(\sigma^2\)에 가까워지는, 표본으로부터 얻어낼 수 있는 추정량(estimator)이다. 만약에 분모에 \(n-1\)대신 \(n\)이 들어갔다면 그 양은 \(\frac{n-1}{n}\sigma^2\)에 가까워졌을 것이고, \(\frac{n-1}{n}\)배 '편향된' 결과를 돌려줄 것이다. 즉 \(S^2\)은 \(\sigma^2\)에 대한 정확한 추정치를 제시해주는 변량인, "불편 추정량"(unbiased estimator)인 것이다. 그리고, 딱 거기까지인 것 같다..
불편 추정량은 말 그대로 편의를 위해 정해 주는 값이다. 그래서 \(S^2 = \frac{1}{n-1}\sum_{k=1}^{n}(\bar{X}-X_k)^2 \)로 정의해 주는 것을 정리, 법칙 등이 아니라 보정(Correction)이라고 부르는 것이다. 여기에 수학적 편의 이외의 의미를 끼워넣는 것은 상당히 위험해 보인다.
카이제곱 분포
사실, 잘못된 것은 자유도라는 term 자체가 아니었다. 엄밀히 말해서, \(S^2\)은 자유도 \(n-1\)의 카이제곱 분포를 따르고, 또 정말로 그 자유도가 \(n-1\)이기 때문이다. 정말 잘못된 것은 \(S^{2}\)의 자유도 \(n-1\)과 Bessel 보정 계수 \(\frac{1}{n-1}\)을 엮으려는 시도이다.
Def. \(X_{1}, X_{2}, \cdots X_{n}\)이 \(\mathcal{N}(0,1)\)을 따르는 정규모집단에서의 랜덤표본(i.i.d.)이라고 하자. 이 때, 새로운 변수 \(Z = X_{1}^{2} + X_{2}^{2} + \cdots X_{n}^{2}\)은 자유도 \(n\)의 카이제곱분포를 따른다고 하고, \(Z \sim \chi^{2}(n)\)이라고 한다.
랜덤표본 \(X_{1},X_{2},\cdots X_{n} \sim \mathcal{N}(\mu,\sigma^{2})\)이라고 하자. 이 때 \(X_{i}\)를 표준화시킨 뒤 제곱합을 계산하면 이는 \(\chi^{2}(n)\)을 따른다.
$$ \mathcal{X} = \sum_{i=1}^{n} \left(\frac{X_{i}-\mu}{\sigma}\right)^{2} \sim \chi^{2}(n) $$
\(X_{i} - \mu = X_{i} - \bar{X} + \bar{X} - \mu\)로 찢어서 계산하면 다음과 같다.
$$ \mathcal{X} = \frac{1}{\sigma^{2}}\left( \sum_{i=1}^{n}(X_{i} - \bar{X})^{2} + \sum_{i=1}^{n}(\bar{X} - \mu)^{2} + \color{red}{\sum_{i=1}^{n}2(X_{i} - \bar{X})(\bar{X}-\mu)}\right) \\ = \frac{(n-1)S^{2}}{\sigma^{2}} + n\left(\frac{\bar{X}-\mu}{\sigma}\right)^{2} + \color{red}{0} \ (\because \sum_{i} (X_{i} - X) = 0) $$
Fact 1. \(\bar{X} \sim \mathcal{N}(\mu,\frac{\sigma^{2}}{n})\)이다.
Fact 2. (Additivity of chi-sq dist.) 확률변수 \(A,B,C\)가 \(A = B + C\)를 만족하고, \(B,C\)가 독립이라고 하자. \(A \sim \chi^{2}(n), B \sim \chi^{2}(m)\)이라면 \(C \sim \chi^{2}(n-m)\)이다.
$$ \sum_{i=1}^{n} \left(\frac{X_{i}-\mu}{\sigma}\right)^{2} = \mathcal{X} = \frac{(n-1)S^{2}}{\sigma^{2}} + \left(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\right)^{2} $$
이 때 \(\mathcal{X} \sim \chi^{2}(n)\)이고, Fact 1에 의해 가장 오른쪽 항인 \(\left(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\right)^{2} \sim \mathcal{N}(0,1) = \chi^{2}(1)\)이다.
Fact 3. \(\bar{X}\)와 \(S^{2}\)은 독립이다.
Fact 3과 Fact 2에 의해, \((n-1)S^{2}/\sigma^{2}\)은 \(\chi^{2}(n-1)\)을 따른다.
여기서 뭔가 \(\bar{X}\)가 카이제곱-자유도를 가져가는 듯한 뉘앙스를 볼 수 있다.
하지만 카이제곱-자유도가 정말로 우리가 생각하는 degree of freedom이 맞을까?
Random Vector
통계학의 대답은 '맞다'인 것 같다.
Degree of Freedom은 다음과 같은 random vector들로 정의되는 vector space의 dimension으로 보자.
$$ \vec{X} = \begin{pmatrix} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \end{pmatrix} $$
이 때 어떤 hyperparameter \(\bar{X}\)가 있어서, 표본평균과 같이 행동한다고 하자.
$$ \vec{X} = \bar{X} \cdot \begin{pmatrix} 1 \\ 1 \\ \vdots \\ 1 \end{pmatrix} + \begin{pmatrix} X_{1} - \bar{X} \\ X_{2} - \bar{X} \\ \vdots \\ X_{n} - \bar{X} \end{pmatrix} $$
여기서 \(Y_{i} = X_{i} - \bar{X}\)라고 하면 \(\sum_{i} Y_{i} = 0\)의 restriction이 생기기 때문에 \(Y_{i}\)로 이루어진 vector space의 dimension은 \(n-1\)이 된다.
그리고 \(S^2\)은 \(Y_{i}\)로 이루어진 벡터의 norm에 비례하는 값이 된다는 것을 알 수 있고, 따라서 \(S^2\)을 결정하는 자유도는 \(n-1\)이다. 즉, \(S^2 = S^2 (X_{1}, X_{2}, X_{3}, \cdots , X_{n})\)이 아니라, \(S^2 = S^2(X_{1} - \bar{X}, X_{2}-\bar{X}, \cdots X_{n-1}-\bar{X}; \bar{X})\)라는 거다. 뭔가 찜찜하지만 일단은 받아들이기로 하고, 다른 글에서 보충하기로 하자.
결론
- \(S^{2}\)의 계수 \(\frac{1}{n-1}\)은 \(S^2\)을 불편추정량으로 만들어주기 위한 보정치이다.
- \(S^{2}\)은 (정확히는 \((n-1)S^{2}/\sigma^{2}\))은 자유도 \(n-1\)의 카이제곱 분포를 따르는 것이 맞다.
- 실제로 \(S^2\)은 이론적으로 자유도 \(n-1\)의 통계량이 맞다. 하지만 그것과 계수 \(\frac{1}{n-1}\)은 실질적인 연관성이 없다.
'수학 이론 > 이산수학' 카테고리의 다른 글
Pentagonal Number Theorem (3) | 2019.09.16 |
---|---|
Ore's theorem & Palmer's algorithm (0) | 2019.08.17 |
Mirsky's theorem (3) | 2018.11.04 |
LYM inequality와 Sperner's theorem (0) | 2018.07.23 |
High Girth & High Chromatic with Probabilistic method (0) | 2017.12.23 |