[일반통계학] Ch 7. 이산자료의 분석 #1 (1/1)

[일반통계학] Ch 7. 이산자료의 분석 #1 (1/1)

2019. 6. 2. 17:14ㆍ통계학/2019-1 일반통계학

통계학 과목 기말고사 범위에 대해 공부한 내용을 블로그로 옮기기로 한다.

모비율의 추정, 가설 검정

사실 "이산자료의 분석"이라고 하면 뭘 어떻게 분석한다는 건지 감이 1도 오지 않는다. 결국 이 단원에서 하는 모든 짓들은 모비율을 몰라서 생기는 일이라고 보면 된다.

어떤 확률사건(실업, 후보 선호)이 있을 때, 모비율은 곧 실업률, 후보 지지율과 같이 모집단 내에서 특정 속성 "P"를 가진 개체의 비율을 의미한다. 문자로는 $p$라고 쓰고, 당연히 모비율의 추정량은 $\hat{p}$라고 쓴다.

그럼 $n$개의 개체가 있을 때 속성 "P"를 가진 개체의 개수 $X$는 자연히 $B(n,p)$를 따른다.

따라서 $\displaystyle \hat{p} = \frac{X}{n}$은 기댓값 $p$, 분산 $\displaystyle \frac{p(1-p)}{n}$를 만족시키기 때문에 $p$에 대한 불편추정량이 된다.

$X \sim B(n,p) \approx N(np, np(1-p))$이므로, ($np \ge 5, n(1-p) \ge 5$) $\displaystyle \frac{X-np}{\sqrt{np(1-p)}} \approx N(0,1)$이다.

분자 분모를 $n$으로 나누면 $\displaystyle \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \approx N(0,1)$을 얻고, 이로부터 모비율에 대한 신뢰구간을 얻고 가설검정을 할 수 있...나?

사실 그렇게 녹록지가 않다. $p$에 대한 $100(1-\alpha)\%$의 신뢰구간을 쓰면

$$ \left[ \hat{p} - z_{\alpha/2}\sqrt{ \frac{p(1-p)}{n} }, \hat{p} + z_{\alpha/2}\sqrt{ \frac{p(1-p)}{n} } \right] $$

와 같이 나타나는데, $\displaystyle \sqrt{ \frac{p(1-p)}{n} } $가 $p$에 의존하기 때문에 저 식은 계산할 수 있는 식이 아니다. 그래서 다음과 같은 방법을 쓴다:

1. $p \leftarrow \hat{p}, p_{\text{empirical}}$ :

추정치 $\hat{p}$나 경험적으로 알아낸 $p_{\text{empirical}}$값이 $p$에 충분히 가깝다고 가정하고 다음과 같이 근사 신뢰구간을 채택한다. 다만 이 경우 신뢰구간이 얼마나 실제 신뢰구간에 가까운지 알 방법이 없다.

$$ \left[ \hat{p} - z_{\alpha/2}\sqrt{ \frac{\hat{p}(1-\hat{p})}{n} }, \hat{p} + z_{\alpha/2}\sqrt{ \frac{\hat{p}(1-\hat{p})}{n} } \right] $$

2. Worst - case analysis

$p$값이 얼마인지는 모르겠지만, 신뢰구간의 반지름 $\displaystyle z_{\alpha/2}\sqrt{ \frac{p(1-p)}{n} } $는 $p = \frac{1}{2}$일 때 최대$ \displaystyle \left( \frac{z_{\alpha/2}}{2\sqrt{n}} \right) $가 된다. 이를 오차한계라고 하고, 일반적으로 이 값을 $d$ 이하로 유지하기 위해 모아야 하는 최소의 표본 수 $n^{*}$를 계산한다.

$$ \frac{ z_{\alpha/2} }{ 2\sqrt{n} } \le d \implies n \ge \left( \frac{z_{\alpha/2}}{2d} \right)^{2}$$

3. 가설 검정 : 고정된 모비율

1, 2와는 조금 맥락을 달리해서, 이제는 모비율 $p$의 값을 검정한다. 귀무가설 $H_{0}$가 $p = p_{0}$라고 하자. 대립가설은 $p > p_{0}$, $p < p_{0}$, $p \neq p_{0}$중 무엇이든 될 수 있다.

$p$에 대한 점추정량은 $\hat{p}$가 되고, 검정통계량은 다음과 같이 쓸 수 있다. 이때는 $p_{0}$값을 가설에서 설정하기 때문에, 이항분포의 정규근사 이외에 다른 근사가 필요하지 않다.

$$ \frac{\hat{p} - p_{0}}{ \sqrt{ \frac{ p_{0}(1-p_{0}) }{ n } } } \approx N(0,1)$$

두 모비율의 비교

모비율의 비교는 모평균 비교랑 거의 비슷하다.

$X_{1} \sim B(n_{1}, p_{1})$, $X_{2} \sim B(n_{2}, p_{2})$가 서로 독립이라고 하자.

그렇다면 두 모비율의 차 $\delta p := p_{1} - p_{2}$의 불편추정량은 $\delta \hat{p} := \hat{p}_{1} - \hat{p}_{2}$가 되고,

$p_{1}$과 $p_{2}$는 독립이므로 $\displaystyle V(\hat{p}_{1} - \hat{p}_{2}) = V(\hat{p}_{1}) + V(\hat{p}_{2}) = \frac{{p}_{1}(1-{p}_{1})}{n_{1}} + \frac{{p}_{2}(1-{p}_{2})}{n_{2}}$가 된다.

$\hat{p}_{1}, \hat{p}_{2}$ 모두 이항분포의 정규근사 조건 아래 정규분포를 따르기 때문에, $\displaystyle \delta\hat{p} \sim N(\delta p, \frac{{p}_{1}(1-{p}_{1})}{n_{1}} + \frac{{p}_{2}(1-{p}_{2})}{n_{2}})$를 만족한다.

따라서 $\displaystyle \frac{ \delta\hat{p} - \delta p }{ \sqrt{\frac{{p}_{1}(1-{p}_{1})}{n_{1}} + \frac{{p}_{2}(1-{p}_{2})}{n_{2}}} } \approx N(0,1)$가 성립하고, 이로부터 두 모비율의 차에 대한 신뢰구간을 (근사적으로) 얻을 수 있다. 앞서 이야기했던 방법 1 (근사신뢰구간), 2 (오차한계)를 모두 적용할 수 있지만 주로 1을 사용하는 듯하다. 생각해보면 모비율의 값도 아니고 차이를 정밀하게 알아내기 위해서 표본을 많이 만들 이유가 별로 없다..

가설 검정을 통한 두 모비율의 비교

이 방법으로는 귀무가설이 $H_{0} : p_{1} = p_{2} = p$이고, 대립가설이 $p_{1} > p_{2}$, $p_{1} \neq p_{2}$, $p_{1} < p_{2}$인 가설을 검정할 수 있다.

$p_{1} = p_{2}$일 때,

$\displaystyle \frac{ \delta\hat{p} - \delta p }{ \sqrt{\frac{{p}_{1}(1-{p}_{1})}{n_{1}} + \frac{{p}_{2}(1-{p}_{2})}{n_{2}}} } \approx N(0,1)$의 검정통계량은 아래와 같이 바꿔 쓸 수 있다.

$$ \frac{ \delta\hat{p} }{\sqrt{\frac{\hat{p}(1-\hat{p})}{n_{1}} + \frac{\hat{p}(1-\hat{p})}{n_{2}}}} \approx N(0,1) $$

$\hat{p}$는 합동모비율추정량이라고 부르는데, 귀무가설 하에서 $X_{1} + X_{2} \sim B(n_{1} + n_{2}, p)$가 성립하므로 $\displaystyle \hat{p} := \frac{X_{1} + X_{2}}{n_{1} + n_{2}}$가 $p$의 추정량이 된다. $\hat{p}_{1}$이나 $\hat{p}_{2}$를 써도 되지 않냐고? $\hat{p}$가 더 분산이 작기 때문에 효율적인 추정량이다. 검정통계량을 잘 만들었으니 가설 검정은 어렵지 않다. 단, 여기서도 정규근사 조건 때문에 $n_{i}\hat{p} \ge 5, n_{i}(1-\hat{p}) \ge 5$가 성립해야 한다. 각각의 $n_{i}p_{i}, n_{i}(1-p_{i})$는 귀무가설 때문에 전부 $p$로 unify되었다. 따로 체크하지 않아도 된다.

범주형 자료의 동질성 검정

비교해야 할 모집단이 2개보다 많을 때 사용된다.

한 가지 예시로, $r$개 국가 사람들의 혈액형 분포가 동일한지 알고 싶다고 하자. 편의상 이 세상에는 $c$개의 혈액형이 존재한다고 가정한다.

귀무가설 $H_{0}$는 "모든 $i,j$에 대해서 $p_{ij} = p_{j}$가 성립한다"이다.

$p_{ij}$는 $i$번째 국가에서 혈액형 $j$를 가진 사람의 모비율이고, $p_{j}$는 모든 사람들 중 혈액형 $j$를 가진 사람의 모비율이다. 대립가설 $H_{1}$은 $\neg H_{0}$이며, 어떤 비율이 어떤 방향으로 엇나갔는지는 알 수 없다.

국가 $i$에서는 $n_{i}$명의 사람들을 표본으로 선정한다. 전체 표본의 수는 $\displaystyle N := \sum_{i=1}^{r} n_{i}$이다.
$i$번째 국가에서 혈액형 $j$를 가진 사람의 수를 관측도수 $O_{ij}$라고 한다. $(j=1,2,\ldots,c)$
$\displaystyle O_{.j} := \sum_{i=1}^{r} O_{ij}$는 전체 표본에서 혈액형 $j$를 가진 사람의 수다. $\displaystyle \hat{p}_{ij} = \frac{O_{ij}}{n_{i}}, \hat{p}_{j} = \frac{O_{.j}}{N}$임을 쉽게 알 수 있다.
(이상적인) 기대도수 $E_{ij}$는 귀무가설이 맞다면 실제로 $i$번째 국가에서 혈액형 $j$를 갖는 사람의 수를 의미한다. 즉 $E_{ij} = n_{i}p_{j}$가 되지만, 실제로 $p_{j}$를 모르기 때문에 $\displaystyle \hat{E}_{ij} := n_{i}\hat{p}_{j} = n_{i}\frac{O_{.j}}{N}$를 사용한다.
Pearson's chi-square test 로부터 다음의 검정통계량 $\chi_{0}^{2} \approx \chi^{2}((r-1)(c-1))$를 얻는다. 검정통계량 값이 $\chi^{2}_{\alpha}((r-1)(c-1))$보다 크다면 귀무가설을 기각하고, 작다면 귀무가설을 채택한다. 이항분포의 정규근사 조건에서 $\hat{E}_{ij} \ge 5$가 필요하다.

$$ \chi_{0}^{2} = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - \hat{E}_{ij})^{2}}{\hat{E}_{ij}} $$

검정통계량의 독립성 검정

앞선 동질성 검정과 계산상으로는 완전히 동일한 과정이다. 차이는 자료 수집 과정에 있는데, 동질성 검정은 우리가 아는 $r$개의 모집단에서 자료를 추출하여 $c$개의 범주로 분류한다. 하지만 독립성 검정에서는 하나의 모집단에서 자료를 추출하여 $r$개의 범주1, $c$개의 범주2로 분류한다. 그 뒤로는 용어가 조금 바뀌는 것 말고 하등 차이가 없다.

어떤 공항에서 $N$명의 사람을 대상으로 국적과 혈액형을 조사했다고 하자.

귀무가설 $H_{0}$는 "모든 $i,j$에 대해서 $p_{ij} = p_{i.}p_{.j}$가 성립한다"이다.

$p_{ij}$는 국적이 $i$이고 혈액형 $j$인 사람의 모비율이고, $p_{i.}$는 모든 사람들 중 국적 $i$를 가진 사람의 모비율, $p_{.j}$는 모든 사람들 중 혈액형 $j$를 가진 사람의 모비율이다. 대립가설 $H_{1}$은 $\neg H_{0}$이며, 동질성 검정과 마찬가지로 어떤 비율이 어떤 방향으로 엇나갔는지는 알 수 없다.

$i$번째 국가에서 혈액형 $j$를 가진 사람의 수를 관측도수 $O_{ij}$라고 한다. $(j=1,2,\ldots,c)$
관측도수 $O_{ij}$는 전체 표본에서 국적 $i$, 혈액형 $j$를 가진 사람의 수다. $\displaystyle \hat{p}_{ij} = \frac{O_{ij}}{N}$가 성립한다.
$O_{i.}$는 전체 표본에서 국적이 $i$인 사람의 수이다. $\displaystyle\hat{p}_{i.} = \frac{O_{i.}}{N}$이다. 마찬가지로 $O_{.j}$도 알 수 있다.
(이상적인) 기대도수 $E_{ij}$는 귀무가설이 맞다면(즉, 국적과 혈액형이 독립이라면) 실제로 $i$번째 국가에서 혈액형 $j$를 갖는 사람의 수를 의미한다. 즉 $E_{ij} = Np_{i.}p_{.j}$가 되지만 실제로 $p_{i.},p_{.j}$를 모르기 때문에 $\displaystyle \hat{E}_{ij} := N\hat{p}_{i.}\hat{p}_{.j} = \frac{O_{i.}O_{.j}}{N}$를 사용한다.
Pearson's chi-square test 로부터 다음의 검정통계량 $\chi_{0}^{2} \approx \chi^{2}((r-1)(c-1))$를 얻는다. 검정통계량 값이 $\chi^{2}_{\alpha}((r-1)(c-1))$보다 크다면 귀무가설을 기각하고, 작다면 귀무가설을 채택한다. 이항분포의 정규근사 조건에서 $\hat{E}_{ij} \ge 5$가 필요하다.

$$ \chi_{0}^{2} = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - \hat{E}_{ij})^{2}}{\hat{E}_{ij}} $$

분포의 적합도 검정 (Goodness of fit test)

이 경우는 앞의 두 경우보다 훨씬 쉽다. 이미 각 범주에 대한 이론적인 비율$p_{1},p_{2},\ldots,p_{c}$가 알려져 있고, 새로 측정한 자료 $\hat{p}_{1},\hat{p}_{2},\ldots,\hat{p}_{c}$가 이 분포와 같은지 보는 것이다.

관측도수 $O_{i}$는 자료로부터 얻고, 기대도수 $E_{i} = Np_{i}$이다. 카이제곱 통계량은

$$ \chi_{0}^{2} = \sum_{i=1}^{c} \frac{(O_{i} - E_{i})^{2}}{E_{i}} \approx \chi^{2}((c-1)) $$

로부터 얻는다. 당연히 $E_{i} \ge 5$가 필요하다.

Comment

동질성 검정 등에서, $r = c = 2$인 경우 t-test(두 이항모집단의 모비율 비교)와 chi-square test는 동등하다. 정확히는 $\chi_{0}^{2} = (t^{*})^{2}$가 되기 때문에 두 모비율의 크기까지 비교해주는 t-test가 더 좋다.

실제로 $r > 2$인 경우에도 $\displaystyle \begin{pmatrix} r \\ 2 \end{pmatrix}$번 t-test를 시행해서 동질성 검증을 구할 수도 있다. 하지만 이 경우 제 1종 오류가 테스트의 횟수만큼 누적되기 때문에 매우 lousy해진다. 그래서 chi-squared test를 사용한다.

Chi-squared test는 링크에 달린 rkm0959의 자료가 굉장히 좋다. 시간이 날 때 별도로 다뤄 볼 의향은 있다.

저작자표시 (새창열림)

레프네 약방