오류나 틀린 부분이 있을 경우 언제든지 댓글 혹은 메일로 남겨주세요 😄
점추정
점추정은 알지 못하는 모집단의 모수에 대한 정보를 알아내기 위해, 모집단의 표본으로부터 도출한 하나의 값으로 모집단의 모수를 추정하는 것을 의미함.
- 예를 들어, 하버드 입학생의 평균 SAT 점수를 50명을 무작위로 추출하여, 계산하였을 때 500이 나옴.
- 이때 이 500으로 하버드 입학생 전체의 SAT 점수를 추정하는 것을 점추정이라고 함
하지만 이렇게 점추정을 하는 것은 많은 정보량을 갖고 있지 않고, 실제 모집단의 평균값과는 차이를 보일 수 있음. 따라서 우리는 신뢰구간을 구하여 구간추정을 할 것임
- 하버드 입학생의 평균 SAT 점수는 490점에서 550점 사이에 있을 가능성이 95%라는 식으로 표현
구간추정
표본의 크기가 충분히 클 경우, 표본분포의 평균은 모집단의 평균과 같고, 정규분포를 따른다는 것을 앞에서 정리하였음.
>https://fenzhan.tistory.com/12
따라서 우리는, 정규분포의 특징을 통해 표본분포의 95%는 모평균을 중심으로 양쪽으로 1.96배의 표준편차 내에 존재한다는 것을 알 수 있음.
>https://fenzhan.tistory.com/11
그런데 우리는 여기서 모평균을 모른다는 문제가 있음. 따라서 Sampling하여 추출한 표본 평균을 이용해야 하는데 이때, +-1.96배 표준오차의 중심을 모평균이 아니라, 우리가 추출한 표본의 평균 x̄ 를 중심으로 생각해보자
이렇게 +-1.96배 표준오차의 중심을 x̄ 로 바꾸어서 구간을 구하게 되면, 해당 구간에 모평균이 포함될 수 있음(위의 그림에서는 모평균 u가 x̄ 중심 +-1.96배 표준오차 구간에 포함, 포함이. 실제로 포함이 안될 수도 있음 )
아래의 그림과 같이 계속해서 샘플링을 진행하여 표본 추출을 진행했을때 만들어지는 구간에 모평균이 95번의 빈도수로 1.96표준오차 구간에 포함된다는 의미로 해석할 수 있음. (앞으로 95% 신뢰구간이라고 표현하겠음)
위에서 +-1.96배 표준오차의 중심을 x̄ 로 바꾸어서 구간을 구한다고 하였다. 그럼 구간을 구하는 식은 어떻게 유도하는가?
정규분포의 특징 : 95%(0.95)는 평균을 중심으로 양쪽으로 1.96배의 표준편차 내에 존재” 에서 부터 시작하자. 여기서 Z는 앞에서 설명한 Z-score이며, σ는 0.05%라고 두자 (Zσ/2=1.96)
우리는 추출한 표본을 중심으로 95%에 해당하는 분포의 구간을 다음과 같이 구할 수 있음.
$$
\begin{aligned}
&P\left(-z_{\alpha / 2} \leq Z \leq z_{\alpha / 2}\right)=1-\alpha \\
&P\left(-z_{\alpha / 2} \leq \frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \leq z_{\alpha / 2}\right)=1-\alpha \\
&P\left(-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \leq \bar{X}-\mu \leq z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)=1-\alpha \\
&P\left(-\bar{X}-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \leq-\mu \leq-\bar{X}+z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)=1-\alpha \\
&P\left(\overline{\bar{X}}-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)=1-\alpha
\end{aligned}
$$
예시
하버드 생 하루 일주일 공부 시간을 조사하는데 표준편차가 6시간이라고 알려짐.
학생 50명을 추출하였을 때, 표본평균이 25시간이었다. 하버드 생의 일주일 공부 시간에 대한 99% 신뢰구간을 추정하라.
$$
\begin{aligned}
&\bar{X}=25 \\
&Z_{a / 2}=Z_{(1-099) / 2}=Z_{0.005}=2.575 \\
&\bar{X} \pm Z_{a / 2} \frac{\sigma}{\sqrt{n}}=25 \pm 2.575 \times \frac{6}{\sqrt{50}} \\
&L C L=22.815 \text { and UCL }=27.185
\end{aligned}
$$
구간의 너비
- 위의 예시에서 구한 구간의 넓이가 0시간부터 100시간이라고 해보자. 그렇다면 유용한 정보를 제공하지 못함.
- 이렇게 구간의 너비가 너무 넓다면, 추정하는데 의미가 없음.
- 그렇다면 구간의 너비를 결정하는 요인은 무엇일까?
- 구간의 너비는 (1) 신뢰수준(confidence level, alpha level) (2) 표준편차(standard deviation) (3) 표본크기(sample size)의 함수로 표현할 수 있음
$$
z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}
$$
표본 크기
위에서 말한것 처럼 구간의 너비는 (1) 신뢰수준(confidence level, alpha level) (2) 표준편차(standard deviation) (3) 표본크기(sample size)의 함수로 표현할 수 있음.
=> 따라서 표본크기를 설정하면 신뢰구간의 너비를 통제할 수 있을 것이다. 따라서 목표 너비를 미리 설정하면 그에 따른 표본 크기를 계산할 수 있음.
\begin{gathered}
\bar{x} \pm Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}=\bar{x} \pm W \\
Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}=W \\
Z_{\alpha / 2}^{2} \frac{\sigma^{2}}{n}=W^{2} \\
n=\left[\frac{Z_{\alpha / 2} \sigma}{W}\right]^{2}
\end{gathered}
하지만, 여기서 해당 식에서 표본 크기를 결정하기 위해서는 표준편차를 알고 있어야 하기 때문에 현실 세계에 반영하기에는 한계점이 있다.
T 분포
- 대부분의 경우, 모집단의 표준편차는 알려져 있지 않음. 따라서 표본의 표준편차를 이용한다.
- 이때 활용하는 분포가 t분포임. t분포는 정규분포와 카이제곱분포를 이용해서 정의됨 따라서 정규분포 모집단을 가정함. 하지만 표본이 어느정도 클 경우, 정규분포가 아닌 경우에도 t분포를 활용할 수 있음(t분포의 robustness)
본 포스팅에서는 이러한 t분포의 정의보단, 이를 어떻게 적용하는지 집중하기로 함 - 활용방법은 Z-검정을 했을때와 똑같다. 다만 여기서 자유도라는 개념이 등장하는데, 자유도는 표본에서 -1를 빼준다만 알고 있자.
- 하버드 학생들의 평균 주 공부시간을 조사하고자 함. 83명의 표본을 선정해서 주 공부시간을 계산했고, 이때 평균은 15.02고 표준편차는 68.98임. 이때, 전체 하버드 학생의 평균 1주 공부시간에 대한 95% 신뢰구간을 추정하시오.
$$
\bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} \quad \text { d.f. }=n-1
$$
T 분포를 활용한 신뢰구간
- 하버드 학생들의 평균 주 공부시간을 조사하고자 함. 83명의 표본을 선정해서 주 공부시간을 계산했고, 이때 평균은 15.02고 표준편차는 68.98임. 이때, 전체 하버드 학생의 평균 1주 공부시간에 대한 95% 신뢰구간을 추정하시오.
$$
\begin{gathered}
\bar{x}=15.02 \quad s^{2}=68.98 \\
s=\sqrt{68.98}=8.31 \\
n=83 \\
\bar{x} \pm \frac{t a}{2} \frac{s}{\sqrt{n}}=15.0172 \pm 1.9893 \frac{8.3054}{\sqrt{83}}=[13.2037,16.8307]
\end{gathered}
$$ - 이때, T-value는 어떻게 보나? T-value는 수학자/통계학자들이 열심히 구해 놓았다. 가져다 쓰자.
df = n-1. 즉 82이기 때문에 이때, two tail(양측 검증)에서 95%에 해당하는 1.9893을 찾아서 위의 식에 곱해주면 된다.
=> 양측 검증, 단측 검증은 가설검증 시간에 배워보자
(참고) T-value 값은 다음 사이트에서 확인
https://www.tutorialspoint.com/statistics/t_distribution_table.htm
신뢰구간과 정확도
$$
\bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} \quad \text { d.f. }=n-1
$$
신뢰구간을 좁히는 것은 조금 더 정확하게 대상을 추정할 수 있기 때문에 더 바람직하다. 그럼 어떻게 신뢰구간을 좁힐까?
신뢰구간을 구하는 식에서 신뢰구간의 너비에 영향을 주는 것은 n값과 t critical value인 것을 알 수 있음.
따라서 신뢰구간을 좁히려면 2가지 방법이 존재함.
- n의 개수를 높임
- t critical value값을 줄임(유의 수준을 변경 5%->10%)
'블로그 > Statistics & Math' 카테고리의 다른 글
[기초 통계] 07. 두 집단 비교에 대한 추론 (0) | 2022.06.01 |
---|---|
[기초 통계] 06. 가설검증과 오류 (0) | 2022.06.01 |
[기초 통계] 04. 표본 분포와 특징 (0) | 2022.06.01 |
[기초 통계] 03. 확률 분포와 정규분포 (0) | 2022.06.01 |
[기초 통계] 02. 중심화 경향과 Z-score (0) | 2022.05.30 |