본문 바로가기

블로그/Statistics & Math

[기초 통계] 05. 구간추정과 신뢰구간

 

오류나 틀린 부분이 있을 경우 언제든지 댓글 혹은 메일로 남겨주세요 😄

 

점추정

점추정은 알지 못하는 모집단의 모수에 대한 정보를 알아내기 위해, 모집단의 표본으로부터 도출한 하나의 값으로 모집단의 모수를 추정하는 것을 의미함.

  • 예를 들어, 하버드 입학생의 평균 SAT 점수를 50명을 무작위로 추출하여, 계산하였을 때 500이 나옴.
  • 이때 이 500으로 하버드 입학생 전체의 SAT 점수를 추정하는 것을 점추정이라고 함

하지만 이렇게 점추정을 하는 것은 많은 정보량을 갖고 있지 않고, 실제 모집단의 평균값과는 차이를 보일 수 있음. 따라서 우리는 신뢰구간을 구하여 구간추정을 할 것임

  • 하버드 입학생의 평균 SAT 점수는 490점에서 550점 사이에 있을 가능성이 95%라는 식으로 표현

구간추정

구간 추정 예시

표본의 크기가 충분히 클 경우, 표본분포의 평균은 모집단의 평균과 같고, 정규분포를 따른다는 것을 앞에서 정리하였음.

>https://fenzhan.tistory.com/12

 

[기초 통계] 04. 표본 분포와 특징

전수조사 하버드 입학생의 SAT 점수 평균에 관심이 있다고 하자 여기서 모집단이란 하버드 대학에 입학한 모든 학생들의 SAT 점수일 것임. 하버드 학생 200명을 랜덤하게 뽑아서, 이 학생들의 SAT

fenzhan.tistory.com

 

따라서 우리는, 정규분포의 특징을 통해 표본분포의 95%는 모평균을 중심으로 양쪽으로 1.96배의 표준편차 내에 존재한다는 것을 알 수 있음.

>https://fenzhan.tistory.com/11

 

그런데 우리는 여기서 모평균을 모른다는 문제가 있음. 따라서 Sampling하여 추출한 표본 평균을 이용해야 하는데 이때, +-1.96배 표준오차의 중심을 모평균이 아니라, 우리가 추출한 표본의 평균 x̄ 를 중심으로 생각해보자

그림을 잘 못그립니다.

이렇게 +-1.96배 표준오차의 중심을 x̄ 로 바꾸어서 구간을 구하게 되면, 해당 구간에 모평균이 포함될 수 있음(위의 그림에서는 모평균 u가 x̄ 중심 +-1.96배 표준오차 구간에 포함, 포함이. 실제로 포함이 안될 수도 있음 )

 

아래의 그림과 같이 계속해서 샘플링을 진행하여 표본 추출을 진행했을때 만들어지는 구간에 모평균이 95번의 빈도수로 1.96표준오차 구간에 포함된다는 의미로 해석할 수 있음. (앞으로 95% 신뢰구간이라고 표현하겠음)

출처: minitab

 

위에서 +-1.96배 표준오차의 중심을 x̄ 로 바꾸어서 구간을 구한다고 하였다. 그럼 구간을 구하는 식은 어떻게 유도하는가?

정규분포의 특징 : 95%(0.95)는 평균을 중심으로 양쪽으로 1.96배의 표준편차 내에 존재” 에서 부터 시작하자. 여기서 Z는 앞에서 설명한 Z-score이며, σ는 0.05%라고 두자 (Zσ/2=1.96)

 

우리는 추출한 표본을 중심으로 95%에 해당하는 분포의 구간을 다음과 같이 구할 수 있음.

$$
\begin{aligned}
&P\left(-z_{\alpha / 2} \leq Z \leq z_{\alpha / 2}\right)=1-\alpha \\
&P\left(-z_{\alpha / 2} \leq \frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \leq z_{\alpha / 2}\right)=1-\alpha \\
&P\left(-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \leq \bar{X}-\mu \leq z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)=1-\alpha \\
&P\left(-\bar{X}-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \leq-\mu \leq-\bar{X}+z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)=1-\alpha \\
&P\left(\overline{\bar{X}}-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)=1-\alpha
\end{aligned}
$$

예시

하버드 생 하루 일주일 공부 시간을 조사하는데 표준편차가 6시간이라고 알려짐.

학생 50명을 추출하였을 때, 표본평균이 25시간이었다. 하버드 생의 일주일 공부 시간에 대한 99% 신뢰구간을 추정하라.
$$
\begin{aligned}
&\bar{X}=25 \\
&Z_{a / 2}=Z_{(1-099) / 2}=Z_{0.005}=2.575 \\
&\bar{X} \pm Z_{a / 2} \frac{\sigma}{\sqrt{n}}=25 \pm 2.575 \times \frac{6}{\sqrt{50}} \\
&L C L=22.815 \text { and UCL }=27.185
\end{aligned}
$$

구간의 너비

  • 위의 예시에서 구한 구간의 넓이가 0시간부터 100시간이라고 해보자. 그렇다면 유용한 정보를 제공하지 못함.
  • 이렇게 구간의 너비가 너무 넓다면, 추정하는데 의미가 없음.
  • 그렇다면 구간의 너비를 결정하는 요인은 무엇일까?
  • 구간의 너비는 (1) 신뢰수준(confidence level, alpha level) (2) 표준편차(standard deviation) (3) 표본크기(sample size)의 함수로 표현할 수 있음
    $$
    z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}
    $$

표본 크기

위에서 말한것 처럼 구간의 너비는 (1) 신뢰수준(confidence level, alpha level) (2) 표준편차(standard deviation) (3) 표본크기(sample size)의 함수로 표현할 수 있음.

=> 따라서 표본크기를 설정하면 신뢰구간의 너비를 통제할 수 있을 것이다. 따라서 목표 너비를 미리 설정하면 그에 따른 표본 크기를 계산할 수 있음.


\begin{gathered}
\bar{x} \pm Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}=\bar{x} \pm W \\
Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}=W \\
Z_{\alpha / 2}^{2} \frac{\sigma^{2}}{n}=W^{2} \\
n=\left[\frac{Z_{\alpha / 2} \sigma}{W}\right]^{2}
\end{gathered}

 

하지만, 여기서 해당 식에서 표본 크기를 결정하기 위해서는 표준편차를 알고 있어야 하기 때문에 현실 세계에 반영하기에는 한계점이 있다.

T 분포

  • 대부분의 경우, 모집단의 표준편차는 알려져 있지 않음. 따라서 표본의 표준편차를 이용한다.
  • 이때 활용하는 분포가 t분포임. t분포는 정규분포와 카이제곱분포를 이용해서 정의됨 따라서 정규분포 모집단을 가정함. 하지만 표본이 어느정도 클 경우, 정규분포가 아닌 경우에도 t분포를 활용할 수 있음(t분포의 robustness)

    본 포스팅에서는 이러한 t분포의 정의보단, 이를 어떻게 적용하는지 집중하기로 함

  • 활용방법은 Z-검정을 했을때와 똑같다. 다만 여기서 자유도라는 개념이 등장하는데, 자유도는 표본에서 -1를 빼준다만 알고 있자.
  • 하버드 학생들의 평균 주 공부시간을 조사하고자 함. 83명의 표본을 선정해서 주 공부시간을 계산했고, 이때 평균은 15.02고 표준편차는 68.98임. 이때, 전체 하버드 학생의 평균 1주 공부시간에 대한 95% 신뢰구간을 추정하시오.
    $$
    \bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} \quad \text { d.f. }=n-1
    $$

T 분포를 활용한 신뢰구간

  • 하버드 학생들의 평균 주 공부시간을 조사하고자 함. 83명의 표본을 선정해서 주 공부시간을 계산했고, 이때 평균은 15.02고 표준편차는 68.98임. 이때, 전체 하버드 학생의 평균 1주 공부시간에 대한 95% 신뢰구간을 추정하시오.

    $$
    \begin{gathered}
    \bar{x}=15.02 \quad s^{2}=68.98 \\
    s=\sqrt{68.98}=8.31 \\
    n=83 \\
    \bar{x} \pm \frac{t a}{2} \frac{s}{\sqrt{n}}=15.0172 \pm 1.9893 \frac{8.3054}{\sqrt{83}}=[13.2037,16.8307]
    \end{gathered}
    $$
  • 이때, T-value는 어떻게 보나? T-value는 수학자/통계학자들이 열심히 구해 놓았다. 가져다 쓰자.

T-table 출처: http://www.ttable.org/

 

df = n-1. 즉 82이기 때문에 이때, two tail(양측 검증)에서 95%에 해당하는 1.9893을 찾아서 위의 식에 곱해주면 된다.
=> 양측 검증, 단측 검증은 가설검증 시간에 배워보자

(참고) T-value 값은 다음 사이트에서 확인

https://www.tutorialspoint.com/statistics/t_distribution_table.htm

신뢰구간과 정확도

$$
\bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} \quad \text { d.f. }=n-1
$$

신뢰구간을 좁히는 것은 조금 더 정확하게 대상을 추정할 수 있기 때문에 더 바람직하다. 그럼 어떻게 신뢰구간을 좁힐까?

신뢰구간을 구하는 식에서 신뢰구간의 너비에 영향을 주는 것은 n값과 t critical value인 것을 알 수 있음.

따라서 신뢰구간을 좁히려면 2가지 방법이 존재함.

  • n의 개수를 높임
  • t critical value값을 줄임(유의 수준을 변경 5%->10%)