본문 바로가기

블로그/Statistics & Math

[기초 통계] 08. 모비율 검정(One sample case)

 

오류나 틀린 부분이 있을 경우 언제든지 댓글 혹은 메일로 남겨주세요 😄

 

One sample case

우선 하나의 집단에서 샘플을 뽑아 모집단 비율을 추론하는 one sample case 예를 들어보자.

 

예를들어, 새누리당과 민주당 후보 중 누가 대통령 후보가 될까? 라는 예시가 있다고 하자. 이것은 선택지가 2개인 범주이며, 대통령 선거 투표자는 두 후보 중 하나를 선택할 것이다.

 

우리는 출구조사로 투표자와 후보에 대한 투표수의 비율로 모집단의 비율을 추정할 것이다.

 

\begin{equation}
\hat{p}=\frac{x}{n}
\end{equation}

 

여기서 n은 샘플의 수이며, x는 샘플에서 특정 정당을 지지하는 수이다.

2022년 새누리당 후보와 민주당 후보의 출구조사 결과를 가지고 선출될 가능성을 추정해보자.

 

귀무가설은 "두 범주의 비율의 차이가 없다"이다. 두 범주의 비율의 차이가 없다는 것은 각 범주당 가지는 비율이 0.5라는 것이다. 따라서 다음과 같은 귀무가설을 설정할 수 있다.

 

H0 : p=0.5

 

모집단의 비율을 추정하기 위해 출구조사로 얻은 샘플로 비율값을 계산한다.

765명의 샘플 중 새누리당 지지하는 수는 407명으로 나타났으며, 샘플의 확률 P_hat은 407/765 = 0.532이다.

 

One Sample case에서는 모비율 추정을 아래와 같은 통계량을 통해 진행한다.

*Sampling distribution은 normal distribution임

 

- Z-검정 통계량

\begin{equation}
\text { Z-검정 }=\frac{\hat{p}-p}{\sqrt{p(1-p) / n}}
\end{equation}

 

- 신뢰구간

\begin{equation}
\left[\hat{p}-Z_{C v} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p}+Z_{C v} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]
\end{equation}

 

이제 06. 가설검정과 오류에서 배운 가설검증의 과정에 따라 One sample Case 모비율 추정에 대한 가설검증을 해보자.

https://fenzhan.tistory.com/14

 

[기초 통계] 06. 가설검증과 오류

오류나 틀린 부분이 있을 경우 언제든지 댓글 혹은 메일로 남겨주세요 😄 가설 검정 가설이란 무엇인가? 가설은 모집단에 대한 진술을 의미함. 우리는 보통 모집단이 너무 크기 때문에 전수조

fenzhan.tistory.com

 

1단계: 가설 세우기

\begin{equation}
\begin{aligned}
&\text { Ho: } p=.5 \\
&\text { H1: } p>.5
\end{aligned}
\end{equation}

 

내가 출구조사로 얻은 0.532가 0.5(차이 없음)와 설정한 유의수준하에서 정말로 차이가 있을까?

 

2단계: 유의 수준 선택

5% 유의 수준에서 검정

 

3단계: 검정 통계량 계산

\begin{equation}
Z=\frac{\hat{p}-p}{\sqrt{p(1-p) / n}}=\frac{.532-.5}{\sqrt{.5(1-.5) / 765}}=1.7716
\end{equation}

 

4단계: 5% 유의 수준의 Z-critical value와 비교하여, 가설 채택 여부를 판별

Two-tail일 경우, Z-critial Value는 1.96

2단계에서 계산한 검정 통계량인 Z-score인 1.7716은 기각역에 속하지 않기 때문에, (=p 값이 0.05보다 크다) 귀무가설을 기각할 수 없다.

즉, 두 비율이 다르다는 유의미한 통계적 증거가 발견이 되지 않았음. 따라서 5%의 유의수준 하에서 새누리당 후보가 승리한다고 할 수 없다.

 

 

5단계: 모비율 P에 대한 신뢰 구간 추정

\begin{equation}
\left[\hat{p}-Z_{C v} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p}+Z_{C v} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]
\end{equation}

 

\begin{equation}
\left[\begin{array}{c}
\left.0.532-1.96 \sqrt{\frac{0.532(1-0.532)}{765}}, 0.532+1.96 \sqrt{\frac{0.532(1-0.532)}{765}}\right] \\
{[0.532-0.0354,0.532+0.0354]=[0.4966,0.5674]}
\end{array}\right.
\end{equation}

 

 [0.4966,0.5674], 약 7% 비율 이내에 실제 모비율이 존재할 것이라고 95% 확신한다. 

One sample 표본크기 추정

위에서 추정한 신뢰구간에서  [0.4966,0.5674], 약 7% 비율 이내에 실제 모비율이 존재할 것이라고 95% 확신한다라고 했다.

하지만 여론조사기관에서는 일반적으로 95% 신뢰수준을 가지고 3%이내로 모비율의 신뢰구간을 추정하려고 하는데, 그 이유는 무엇일까?

 

\begin{equation}
\left[\hat{p}-Z_{C v} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p}+Z_{C v} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]
\end{equation}

 

위 식을 보면, 신뢰구간의 폭은 \begin{equation}Z_{C v} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\end{equation} 으로 결정되는데, 이를 B로 두고 n(표본의 크기)에 대해서 풀면,

 

\begin{equation}
\mathbf{n}=\left[\frac{z_{c v} \sqrt{\hat{p}(1-\hat{p})}}{B}\right]^{2}
\end{equation}

 

*여기서 p^hat=0.5을 주로 사용하는데, 이미 조사된 과거 데이터가 없을때는 p^(1−p^)의 값이 p^hat=0.5일때 가장 크기 때문에 보수적인 값을 얻을 수 있기 때문이다.

95%의 신뢰수준에서 B(허용범위)를 3% 이내로 모비율을 추정하기 위해 이를 계산을 하게 되면 약

\begin{equation}
n=\left[\frac{1.96 \sqrt{0.5(1-0.5)}}{0.03}\right] 2=1,068
\end{equation}

 

 의 값이 나오되는데 이는, 1068명의 샘플이 필요하다로 해석할 수 있으며,

 

여론조사기관에서 만약 1%이내로 추정하고자 한다면 n이 1068보다 약 9배의 샘플수가 필요하게 된다.

 

\begin{equation}
n=\left[\frac{1.96 \sqrt{0.5(1-0.5)}}{0.01}\right] 2=9,604
\end{equation}

따라서 샘플을 수집하기 위한 비용이 증가하게 되고, 허용범위 3%는 비용과 정확성 간의 적정한 타협의 결과라고 생각할 수 있다.