[기초 통계] 05. 구간추정과 신뢰구간

오류나 틀린 부분이 있을 경우 언제든지 댓글 혹은 메일로 남겨주세요 😄

점추정

점추정은 알지 못하는 모집단의 모수에 대한 정보를 알아내기 위해, 모집단의 표본으로부터 도출한 하나의 값으로 모집단의 모수를 추정하는 것을 의미함.

예를 들어, 하버드 입학생의 평균 SAT 점수를 50명을 무작위로 추출하여, 계산하였을 때 500이 나옴.
이때 이 500으로 하버드 입학생 전체의 SAT 점수를 추정하는 것을 점추정이라고 함

하지만 이렇게 점추정을 하는 것은 많은 정보량을 갖고 있지 않고, 실제 모집단의 평균값과는 차이를 보일 수 있음. 따라서 우리는 신뢰구간을 구하여 구간추정을 할 것임

하버드 입학생의 평균 SAT 점수는 490점에서 550점 사이에 있을 가능성이 95%라는 식으로 표현

구간추정

표본의 크기가 충분히 클 경우, 표본분포의 평균은 모집단의 평균과 같고, 정규분포를 따른다는 것을 앞에서 정리하였음.

>https://fenzhan.tistory.com/12

[기초 통계] 04. 표본 분포와 특징

전수조사 하버드 입학생의 SAT 점수 평균에 관심이 있다고 하자 여기서 모집단이란 하버드 대학에 입학한 모든 학생들의 SAT 점수일 것임. 하버드 학생 200명을 랜덤하게 뽑아서, 이 학생들의 SAT

fenzhan.tistory.com

따라서 우리는, 정규분포의 특징을 통해 표본분포의 95%는 모평균을 중심으로 양쪽으로 1.96배의 표준편차 내에 존재한다는 것을 알 수 있음.

>https://fenzhan.tistory.com/11

그런데 우리는 여기서 모평균을 모른다는 문제가 있음. 따라서 Sampling하여 추출한 표본 평균을 이용해야 하는데 이때, +-1.96배 표준오차의 중심을 모평균이 아니라, 우리가 추출한 표본의 평균 x̄ 를 중심으로 생각해보자

이렇게 +-1.96배 표준오차의 중심을 x̄ 로 바꾸어서 구간을 구하게 되면, 해당 구간에 모평균이 포함될 수 있음(위의 그림에서는 모평균 u가 x̄ 중심 +-1.96배 표준오차 구간에 포함, 포함이. 실제로 포함이 안될 수도 있음 )

아래의 그림과 같이 계속해서 샘플링을 진행하여 표본 추출을 진행했을때 만들어지는 구간에 모평균이 95번의 빈도수로 1.96표준오차 구간에 포함된다는 의미로 해석할 수 있음. (앞으로 95% 신뢰구간이라고 표현하겠음)

위에서 +-1.96배 표준오차의 중심을 x̄ 로 바꾸어서 구간을 구한다고 하였다. 그럼 구간을 구하는 식은 어떻게 유도하는가?

정규분포의 특징 : 95%(0.95)는 평균을 중심으로 양쪽으로 1.96배의 표준편차 내에 존재” 에서 부터 시작하자. 여기서 Z는 앞에서 설명한 Z-score이며, σ는 0.05%라고 두자 (Zσ/2=1.96)

우리는 추출한 표본을 중심으로 95%에 해당하는 분포의 구간을 다음과 같이 구할 수 있음.

$$
\begin{aligned}
&P\left(-z_{\alpha / 2} \leq Z \leq z_{\alpha / 2}\right)=1-\alpha \\
&P\left(-z_{\alpha / 2} \leq \frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \leq z_{\alpha / 2}\right)=1-\alpha \\
&P\left(-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \leq \bar{X}-\mu \leq z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)=1-\alpha \\
&P\left(-\bar{X}-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \leq-\mu \leq-\bar{X}+z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)=1-\alpha \\
&P\left(\overline{\bar{X}}-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)=1-\alpha
\end{aligned}
$$

예시

하버드 생 하루 일주일 공부 시간을 조사하는데 표준편차가 6시간이라고 알려짐.

학생 50명을 추출하였을 때, 표본평균이 25시간이었다. 하버드 생의 일주일 공부 시간에 대한 99% 신뢰구간을 추정하라.
$$
\begin{aligned}
&\bar{X}=25 \\
&Z_{a / 2}=Z_{(1-099) / 2}=Z_{0.005}=2.575 \\
&\bar{X} \pm Z_{a / 2} \frac{\sigma}{\sqrt{n}}=25 \pm 2.575 \times \frac{6}{\sqrt{50}} \\
&L C L=22.815 \text { and UCL }=27.185
\end{aligned}
$$

구간의 너비

위의 예시에서 구한 구간의 넓이가 0시간부터 100시간이라고 해보자. 그렇다면 유용한 정보를 제공하지 못함.
이렇게 구간의 너비가 너무 넓다면, 추정하는데 의미가 없음.
그렇다면 구간의 너비를 결정하는 요인은 무엇일까?
구간의 너비는 (1) 신뢰수준(confidence level, alpha level) (2) 표준편차(standard deviation) (3) 표본크기(sample size)의 함수로 표현할 수 있음
$$
z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}
$$

표본 크기

위에서 말한것 처럼 구간의 너비는 (1) 신뢰수준(confidence level, alpha level) (2) 표준편차(standard deviation) (3) 표본크기(sample size)의 함수로 표현할 수 있음.

=> 따라서 표본크기를 설정하면 신뢰구간의 너비를 통제할 수 있을 것이다. 따라서 목표 너비를 미리 설정하면 그에 따른 표본 크기를 계산할 수 있음.

\begin{gathered}
\bar{x} \pm Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}=\bar{x} \pm W \\
Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}=W \\
Z_{\alpha / 2}^{2} \frac{\sigma^{2}}{n}=W^{2} \\
n=\left[\frac{Z_{\alpha / 2} \sigma}{W}\right]^{2}
\end{gathered}

하지만, 여기서 해당 식에서 표본 크기를 결정하기 위해서는 표준편차를 알고 있어야 하기 때문에 현실 세계에 반영하기에는 한계점이 있다.

T 분포

대부분의 경우, 모집단의 표준편차는 알려져 있지 않음. 따라서 표본의 표준편차를 이용한다.
이때 활용하는 분포가 t분포임. t분포는 정규분포와 카이제곱분포를 이용해서 정의됨 따라서 정규분포 모집단을 가정함. 하지만 표본이 어느정도 클 경우, 정규분포가 아닌 경우에도 t분포를 활용할 수 있음(t분포의 robustness)

본 포스팅에서는 이러한 t분포의 정의보단, 이를 어떻게 적용하는지 집중하기로 함
활용방법은 Z-검정을 했을때와 똑같다. 다만 여기서 자유도라는 개념이 등장하는데, 자유도는 표본에서 -1를 빼준다만 알고 있자.
하버드 학생들의 평균 주 공부시간을 조사하고자 함. 83명의 표본을 선정해서 주 공부시간을 계산했고, 이때 평균은 15.02고 표준편차는 68.98임. 이때, 전체 하버드 학생의 평균 1주 공부시간에 대한 95% 신뢰구간을 추정하시오.
$$
\bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} \quad \text { d.f. }=n-1
$$

T 분포를 활용한 신뢰구간

하버드 학생들의 평균 주 공부시간을 조사하고자 함. 83명의 표본을 선정해서 주 공부시간을 계산했고, 이때 평균은 15.02고 표준편차는 68.98임. 이때, 전체 하버드 학생의 평균 1주 공부시간에 대한 95% 신뢰구간을 추정하시오.

$$
\begin{gathered}
\bar{x}=15.02 \quad s^{2}=68.98 \\
s=\sqrt{68.98}=8.31 \\
n=83 \\
\bar{x} \pm \frac{t a}{2} \frac{s}{\sqrt{n}}=15.0172 \pm 1.9893 \frac{8.3054}{\sqrt{83}}=[13.2037,16.8307]
\end{gathered}
$$
이때, T-value는 어떻게 보나? T-value는 수학자/통계학자들이 열심히 구해 놓았다. 가져다 쓰자.

df = n-1. 즉 82이기 때문에 이때, two tail(양측 검증)에서 95%에 해당하는 1.9893을 찾아서 위의 식에 곱해주면 된다.
=> 양측 검증, 단측 검증은 가설검증 시간에 배워보자

(참고) T-value 값은 다음 사이트에서 확인

https://www.tutorialspoint.com/statistics/t_distribution_table.htm

신뢰구간과 정확도

$$
\bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} \quad \text { d.f. }=n-1
$$

신뢰구간을 좁히는 것은 조금 더 정확하게 대상을 추정할 수 있기 때문에 더 바람직하다. 그럼 어떻게 신뢰구간을 좁힐까?

신뢰구간을 구하는 식에서 신뢰구간의 너비에 영향을 주는 것은 n값과 t critical value인 것을 알 수 있음.

따라서 신뢰구간을 좁히려면 2가지 방법이 존재함.

n의 개수를 높임
t critical value값을 줄임(유의 수준을 변경 5%->10%)

'블로그 > Statistics & Math' 카테고리의 다른 글

[기초 통계] 07. 두 집단 비교에 대한 추론 (0)	2022.06.01
[기초 통계] 06. 가설검증과 오류 (0)	2022.06.01
[기초 통계] 04. 표본 분포와 특징 (0)	2022.06.01
[기초 통계] 03. 확률 분포와 정규분포 (0)	2022.06.01
[기초 통계] 02. 중심화 경향과 Z-score (0)	2022.05.30

데이터 공방 數據工坊

[기초 통계] 05. 구간추정과 신뢰구간

점추정

구간추정

예시

구간의 너비

표본 크기

T 분포

T 분포를 활용한 신뢰구간

신뢰구간과 정확도

'블로그 > Statistics & Math' 카테고리의 다른 글

티스토리툴바

[기초 통계] 05. 구간추정과 신뢰구간

점추정

구간추정

예시

구간의 너비

표본 크기

T 분포

T 분포를 활용한 신뢰구간

신뢰구간과 정확도

'블로그 > Statistics & Math' 카테고리의 다른 글

'블로그/Statistics & Math' Related Articles

티스토리툴바