[일반통계학] Ch 7. 이산자료의 분석 #1 (1/1)

2019. 6. 2. 17:14통계학/2019-1 일반통계학

통계학 과목 기말고사 범위에 대해 공부한 내용을 블로그로 옮기기로 한다.

 

모비율의 추정, 가설 검정

 

사실 "이산자료의 분석"이라고 하면 뭘 어떻게 분석한다는 건지 감이 1도 오지 않는다. 결국 이 단원에서 하는 모든 짓들은 모비율을 몰라서 생기는 일이라고 보면 된다. 

어떤 확률사건(실업, 후보 선호)이 있을 때, 모비율은 곧 실업, 후보 지지과 같이 모집단 내에서 특정 속성 "P"를 가진 개체의 비율을 의미한다. 문자로는 \(p\)라고 쓰고, 당연히 모비율의 추정량은 \(\hat{p}\)라고 쓴다.

 

그럼 \(n\)개의 개체가 있을 때 속성 "P"를 가진 개체의 개수 \(X\)는 자연히 \(B(n,p)\)를 따른다.

따라서 \(\displaystyle \hat{p} = \frac{X}{n}\)은 기댓값 \(p\), 분산 \(\displaystyle \frac{p(1-p)}{n}\)를 만족시키기 때문에 \(p\)에 대한 불편추정량이 된다.

 

\(X \sim B(n,p) \approx N(np, np(1-p))\)이므로, (\(np \ge 5, n(1-p) \ge 5\)) \(\displaystyle \frac{X-np}{\sqrt{np(1-p)}} \approx N(0,1)\)이다. 

분자 분모를 \(n\)으로 나누면 \(\displaystyle \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \approx N(0,1)\)을 얻고, 이로부터 모비율에 대한 신뢰구간을 얻고 가설검정을 할 수 있...나?

사실 그렇게 녹록지가 않다. \(p\)에 대한 \(100(1-\alpha)\%\)의 신뢰구간을 쓰면

$$ \left[ \hat{p} - z_{\alpha/2}\sqrt{ \frac{p(1-p)}{n} }, \hat{p} + z_{\alpha/2}\sqrt{ \frac{p(1-p)}{n} } \right] $$

와 같이 나타나는데, \(\displaystyle \sqrt{ \frac{p(1-p)}{n} } \)가 \(p\)에 의존하기 때문에 저 식은 계산할 수 있는 식이 아니다. 그래서 다음과 같은 방법을 쓴다:

 

1. \(p \leftarrow \hat{p}, p_{\text{empirical}}\) :

추정치 \(\hat{p}\)나 경험적으로 알아낸 \(p_{\text{empirical}}\)값이 \(p\)에 충분히 가깝다고 가정하고 다음과 같이 근사 신뢰구간을 채택한다. 다만 이 경우 신뢰구간이 얼마나 실제 신뢰구간에 가까운지 알 방법이 없다.

 

$$ \left[ \hat{p} - z_{\alpha/2}\sqrt{ \frac{\hat{p}(1-\hat{p})}{n} }, \hat{p} + z_{\alpha/2}\sqrt{ \frac{\hat{p}(1-\hat{p})}{n} } \right] $$

 

2. Worst - case analysis

\(p\)값이 얼마인지는 모르겠지만, 신뢰구간의 반지름 \(\displaystyle z_{\alpha/2}\sqrt{ \frac{p(1-p)}{n} } \)는 \(p = \frac{1}{2}\)일 때 최대\( \displaystyle \left( \frac{z_{\alpha/2}}{2\sqrt{n}} \right) \)가 된다. 이를 오차한계라고 하고, 일반적으로 이 값을 \(d\) 이하로 유지하기 위해 모아야 하는 최소의 표본 수 \(n^{*}\)를 계산한다.

 

$$ \frac{ z_{\alpha/2} }{ 2\sqrt{n} } \le d \implies n \ge \left( \frac{z_{\alpha/2}}{2d} \right)^{2}$$

 

3. 가설 검정 : 고정된 모비율

1, 2와는 조금 맥락을 달리해서, 이제는 모비율 \(p\)의 값을 검정한다. 귀무가설 \(H_{0}\)가 \(p = p_{0}\)라고 하자. 대립가설은 \(p > p_{0}\), \(p < p_{0}\), \(p \neq p_{0}\)중 무엇이든 될 수 있다.

 

\(p\)에 대한 점추정량은 \(\hat{p}\)가 되고, 검정통계량은 다음과 같이 쓸 수 있다. 이때는 \(p_{0}\)값을 가설에서 설정하기 때문에, 이항분포의 정규근사 이외에 다른 근사가 필요하지 않다.

$$ \frac{\hat{p} - p_{0}}{ \sqrt{ \frac{ p_{0}(1-p_{0}) }{ n } } } \approx N(0,1)$$

 

두 모비율의 비교

모비율의 비교는 모평균 비교랑 거의 비슷하다.

\(X_{1} \sim B(n_{1}, p_{1})\), \(X_{2} \sim B(n_{2}, p_{2})\)가 서로 독립이라고 하자.

그렇다면 두 모비율의 차 \(\delta p := p_{1} - p_{2}\)의 불편추정량은 \(\delta \hat{p} := \hat{p}_{1} - \hat{p}_{2}\)가 되고,

\(p_{1}\)과 \(p_{2}\)는 독립이므로 \(\displaystyle V(\hat{p}_{1} - \hat{p}_{2}) = V(\hat{p}_{1}) + V(\hat{p}_{2}) = \frac{{p}_{1}(1-{p}_{1})}{n_{1}} + \frac{{p}_{2}(1-{p}_{2})}{n_{2}}\)가 된다.

\(\hat{p}_{1}, \hat{p}_{2}\) 모두 이항분포의 정규근사 조건 아래 정규분포를 따르기 때문에, \(\displaystyle \delta\hat{p} \sim N(\delta p, \frac{{p}_{1}(1-{p}_{1})}{n_{1}} + \frac{{p}_{2}(1-{p}_{2})}{n_{2}})\)를 만족한다.

 

따라서 \(\displaystyle \frac{ \delta\hat{p} - \delta p }{ \sqrt{\frac{{p}_{1}(1-{p}_{1})}{n_{1}} + \frac{{p}_{2}(1-{p}_{2})}{n_{2}}} } \approx N(0,1)\)가 성립하고, 이로부터 두 모비율의 차에 대한 신뢰구간을 (근사적으로) 얻을 수 있다. 앞서 이야기했던 방법 1 (근사신뢰구간), 2 (오차한계)를 모두 적용할 수 있지만 주로 1을 사용하는 듯하다. 생각해보면 모비율의 값도 아니고 차이를 정밀하게 알아내기 위해서 표본을 많이 만들 이유가 별로 없다..

 

가설 검정을 통한 두 모비율의 비교

이 방법으로는 귀무가설이 \(H_{0} : p_{1} = p_{2} = p\)이고, 대립가설이 \(p_{1} > p_{2}\), \(p_{1} \neq p_{2}\), \(p_{1} < p_{2}\)인 가설을 검정할 수 있다.

\(p_{1} = p_{2}\)일 때, 

\(\displaystyle \frac{ \delta\hat{p} - \delta p }{ \sqrt{\frac{{p}_{1}(1-{p}_{1})}{n_{1}} + \frac{{p}_{2}(1-{p}_{2})}{n_{2}}} } \approx N(0,1)\)의 검정통계량은 아래와 같이 바꿔 쓸 수 있다.

$$ \frac{ \delta\hat{p} }{\sqrt{\frac{\hat{p}(1-\hat{p})}{n_{1}} + \frac{\hat{p}(1-\hat{p})}{n_{2}}}} \approx N(0,1) $$

\(\hat{p}\)는 합동모비율추정량이라고 부르는데, 귀무가설 하에서 \(X_{1} + X_{2} \sim B(n_{1} + n_{2}, p)\)가 성립하므로 \(\displaystyle \hat{p} := \frac{X_{1} + X_{2}}{n_{1} + n_{2}}\)가 \(p\)의 추정량이 된다. \(\hat{p}_{1}\)이나 \(\hat{p}_{2}\)를 써도 되지 않냐고? \(\hat{p}\)가 더 분산이 작기 때문에 효율적인 추정량이다. 검정통계량을 잘 만들었으니 가설 검정은 어렵지 않다. 단, 여기서도 정규근사 조건 때문에 \(n_{i}\hat{p} \ge 5, n_{i}(1-\hat{p}) \ge 5\)가 성립해야 한다. 각각의 \(n_{i}p_{i}, n_{i}(1-p_{i})\)는 귀무가설 때문에 전부 \(p\)로 unify되었다. 따로 체크하지 않아도 된다.

 

범주형 자료의 동질성 검정

비교해야 할 모집단이 2개보다 많을 때 사용된다.

한 가지 예시로, \(r\)개 국가 사람들의 혈액형 분포가 동일한지 알고 싶다고 하자. 편의상 이 세상에는 \(c\)개의 혈액형이 존재한다고 가정한다.

귀무가설 \(H_{0}\)는 "모든 \(i,j\)에 대해서 \(p_{ij} = p_{j}\)가 성립한다"이다.

\(p_{ij}\)는 \(i\)번째 국가에서 혈액형 \(j\)를 가진 사람의 모비율이고, \(p_{j}\)는 모든 사람들 중 혈액형 \(j\)를 가진 사람의 모비율이다. 대립가설 \(H_{1}\)은 \(\neg H_{0}\)이며, 어떤 비율이 어떤 방향으로 엇나갔는지는 알 수 없다.

  • 국가 \(i\)에서는 \(n_{i}\)명의 사람들을 표본으로 선정한다. 전체 표본의 수는 \(\displaystyle N := \sum_{i=1}^{r} n_{i}\)이다.
  • \(i\)번째 국가에서 혈액형 \(j\)를 가진 사람의 수를 관측도수 \(O_{ij}\)라고 한다. \((j=1,2,\ldots,c)\)
  • \(\displaystyle O_{.j} := \sum_{i=1}^{r} O_{ij}\)는 전체 표본에서 혈액형 \(j\)를 가진 사람의 수다. \(\displaystyle \hat{p}_{ij} = \frac{O_{ij}}{n_{i}}, \hat{p}_{j} = \frac{O_{.j}}{N}\)임을 쉽게 알 수 있다.
  • (이상적인) 기대도수 \(E_{ij}\)는 귀무가설이 맞다면 실제로 \(i\)번째 국가에서 혈액형 \(j\)를 갖는 사람의 수를 의미한다. 즉 \(E_{ij} = n_{i}p_{j}\)가 되지만, 실제로 \(p_{j}\)를 모르기 때문에 \(\displaystyle \hat{E}_{ij} := n_{i}\hat{p}_{j} = n_{i}\frac{O_{.j}}{N}\)를 사용한다.
  • Pearson's chi-square test 로부터 다음의 검정통계량 \(\chi_{0}^{2} \approx \chi^{2}((r-1)(c-1))\)를 얻는다. 검정통계량 값이 \(\chi^{2}_{\alpha}((r-1)(c-1))\)보다 크다면 귀무가설을 기각하고, 작다면 귀무가설을 채택한다. 이항분포의 정규근사 조건에서 \(\hat{E}_{ij} \ge 5\)가 필요하다.

$$ \chi_{0}^{2} = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - \hat{E}_{ij})^{2}}{\hat{E}_{ij}} $$

 

검정통계량의 독립성 검정

앞선 동질성 검정과 계산상으로는 완전히 동일한 과정이다. 차이는 자료 수집 과정에 있는데, 동질성 검정은 우리가 아는 \(r\)개의 모집단에서 자료를 추출하여 \(c\)개의 범주로 분류한다. 하지만 독립성 검정에서는 하나의 모집단에서 자료를 추출하여 \(r\)개의 범주1, \(c\)개의 범주2로 분류한다. 그 뒤로는 용어가 조금 바뀌는 것 말고 하등 차이가 없다.

 

어떤 공항에서 \(N\)명의 사람을 대상으로 국적혈액형을 조사했다고 하자.

귀무가설 \(H_{0}\)는 "모든 \(i,j\)에 대해서 \(p_{ij} = p_{i.}p_{.j}\)가 성립한다"이다.

\(p_{ij}\)는 국적이 \(i\)이고 혈액형 \(j\)인 사람의 모비율이고, \(p_{i.}\)는 모든 사람들 중 국적 \(i\)를 가진 사람의 모비율, \(p_{.j}\)는 모든 사람들 중 혈액형 \(j\)를 가진 사람의 모비율이다. 대립가설 \(H_{1}\)은 \(\neg H_{0}\)이며, 동질성 검정과 마찬가지로 어떤 비율이 어떤 방향으로 엇나갔는지는 알 수 없다.

  • \(i\)번째 국가에서 혈액형 \(j\)를 가진 사람의 수를 관측도수 \(O_{ij}\)라고 한다. \((j=1,2,\ldots,c)\)
  • 관측도수 \(O_{ij}\)는 전체 표본에서 국적 \(i\), 혈액형 \(j\)를 가진 사람의 수다. \(\displaystyle \hat{p}_{ij} = \frac{O_{ij}}{N}\)가 성립한다.
  • \(O_{i.}\)는 전체 표본에서 국적이 \(i\)인 사람의 수이다. \(\displaystyle\hat{p}_{i.} = \frac{O_{i.}}{N}\)이다. 마찬가지로 \(O_{.j}\)도 알 수 있다.
  • (이상적인) 기대도수 \(E_{ij}\)는 귀무가설이 맞다면(즉, 국적과 혈액형이 독립이라면) 실제로 \(i\)번째 국가에서 혈액형 \(j\)를 갖는 사람의 수를 의미한다. 즉 \(E_{ij} = Np_{i.}p_{.j}\)가 되지만 실제로 \(p_{i.},p_{.j}\)를 모르기 때문에 \(\displaystyle \hat{E}_{ij} := N\hat{p}_{i.}\hat{p}_{.j} = \frac{O_{i.}O_{.j}}{N}\)를 사용한다.
  • Pearson's chi-square test 로부터 다음의 검정통계량 \(\chi_{0}^{2} \approx \chi^{2}((r-1)(c-1))\)를 얻는다. 검정통계량 값이 \(\chi^{2}_{\alpha}((r-1)(c-1))\)보다 크다면 귀무가설을 기각하고, 작다면 귀무가설을 채택한다. 이항분포의 정규근사 조건에서 \(\hat{E}_{ij} \ge 5\)가 필요하다.

$$ \chi_{0}^{2} = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - \hat{E}_{ij})^{2}}{\hat{E}_{ij}} $$

 

분포의 적합도 검정 (Goodness of fit test)

이 경우는 앞의 두 경우보다 훨씬 쉽다. 이미 각 범주에 대한 이론적인 비율\(p_{1},p_{2},\ldots,p_{c}\)가 알려져 있고, 새로 측정한 자료 \(\hat{p}_{1},\hat{p}_{2},\ldots,\hat{p}_{c}\)가 이 분포와 같은지 보는 것이다.

 

관측도수 \(O_{i}\)는 자료로부터 얻고, 기대도수 \(E_{i} = Np_{i}\)이다. 카이제곱 통계량은

$$ \chi_{0}^{2} = \sum_{i=1}^{c} \frac{(O_{i} - E_{i})^{2}}{E_{i}} \approx \chi^{2}((c-1)) $$

로부터 얻는다. 당연히 \(E_{i} \ge 5\)가 필요하다.

 

Comment

동질성 검정 등에서, \(r = c = 2\)인 경우 t-test(두 이항모집단의 모비율 비교)와 chi-square test는 동등하다. 정확히는 \(\chi_{0}^{2} = (t^{*})^{2}\)가 되기 때문에 두 모비율의 크기까지 비교해주는 t-test가 더 좋다.

실제로 \(r  > 2\)인 경우에도 \(\displaystyle \begin{pmatrix} r \\ 2 \end{pmatrix}\)번 t-test를 시행해서 동질성 검증을 구할 수도 있다. 하지만 이 경우 제 1종 오류가 테스트의 횟수만큼 누적되기 때문에 매우 lousy해진다. 그래서 chi-squared test를 사용한다.

Chi-squared test는 링크에 달린 rkm0959의 자료가 굉장히 좋다. 시간이 날 때 별도로 다뤄 볼 의향은 있다.