전수조사
- 하버드 입학생의 SAT 점수 평균에 관심이 있다고 하자
- 여기서 모집단이란 하버드 대학에 입학한 모든 학생들의 SAT 점수일 것임.
- 하버드 학생 200명을 랜덤하게 뽑아서, 이 학생들의 SAT 점수의 평균을 계산해보니, 535점이라고하자. 다시 한 번 200명을 뽑아서 계산해보면 400점, 500점 등 표본을 뽑을 때마다 다른 평균값이 나올 가능성이 높을 것이다. 그렇다면 모집단의 정확한 점수를 알기 위해서는 모든 하버드 입학생들을 전수조사하면 될것이다!
- 하지만 전수조사는 과다한 비용과 시간이 듦. 전수조사를 하지 않고 모집단의 평균값을 대략적으로 알 수 있는 방법은 없을까?
표본오차
- 우리는 모집단의 평균을 알아보기 위해서, 전수조사를 하지 않고 하나의 표본을 뽑아서 모집단의 평균을 추정함
- 여기서 모집단의 평균과 표본의 평균 간에는 우연히 같을 수도 있지만 차이가 발생할 수도 있다. 이렇게 우리가 알고 싶은 모집단의 평균과 표본의 평균에는 차이가 발생할 텐데, 이러한 차이를 표본오차(Sampling error)라고 함.
표본분포
- 모집단으로부터 200명의 샘플 하나를 선택했다고 가정하자.
Sample점수Sample1 500 Sample2 520 Sample3 550 … … - 이렇게 200명으로 만들 수 있는 모든 종류의 샘플을 만들었다고 가정해보자. 이렇게 만들어진 각 샘플의 평균값의 분포(500,520,550…)들로 이루어진 이론상의 분포를 표본분포(Sampling distribution)이라고 함.
- 이러한 표본분포는 샘플의 크기가 n=>30일때,다음과 같은 특징을 가지고 있음
- (1)표본분포의 평균은 표본이 추출되는 모집단의 평균과 같음
- (2)모집단과 관계없이,표본분포는 정규분포를 따름
- (3)모집단의 표준편차가 α라면, 표본분포의 분산(Variance)은 σ2/n임
=> 여기서 n(샘플의 수)가 감소하면 표본분포의 분산과 표준오차는 커지는 것을 알 수 있음. 만약 n이 모집단이면, 표준오차는 0, 분산도 0가 될 것임. 그럼 반대로, n의 수가 커지면 평균으로 모이는 분포를 보일 것이다.
출처: https://bookdown.org/mathemedicine/Stat_book/normal-distribution.html# - 이러한 가정이 만족하게 하는 것이 중심극한정리인데, 이러한 중심극한정리는 통계의 추론에 있어서 정말 중요한 이론이며 앞으로 나올 모든 추론 통계에서 활용할 예정임
'블로그 > Statistics & Math' 카테고리의 다른 글
[기초 통계] 06. 가설검증과 오류 (0) | 2022.06.01 |
---|---|
[기초 통계] 05. 구간추정과 신뢰구간 (0) | 2022.06.01 |
[기초 통계] 03. 확률 분포와 정규분포 (0) | 2022.06.01 |
[기초 통계] 02. 중심화 경향과 Z-score (0) | 2022.05.30 |
[기초 통계] 01. 통계 기초 용어와 척도 (0) | 2022.05.22 |