Kolmogorov-Smirnov Test에서는 sample size(n)이 40보다 적으면, Small Sample이며, 40보다 크거나 같으면 Large Sample K-S One Sample Test이다. 샘플 사이즈에 따라서, 임계치인 Critical value가 달라지기 때문에 구분할 필요가 있다.
예시) 하버드에 다니는 10명의 학생에게 하루에 몇 분이나 공부를 하냐고 물어보았을 때, 다음과 같이 대답을 했다고 하자.
학생1
학생2
학생3
학생4
학생5
학생6
학생7
학생8
학생9
학생10
108
112
117
130
111
131
113
113
105
128
다음과 같은 데이터를 수집했다고 했을때, 해당 데이터가 평균이 120이고, 표준편차가 10인 정규분포에서 왔다고 할 수 있을까?(각 데이터는 IID 가정)
다음과 같은 예시에 대한 가설검정을 수행해보자. 가설을 검정하는 방법은 06장에서 소개한 방법과 똑같다.
01. 가설 설정
Null Hypothesis는 관측된 누적 확률 분포가 검증하고자 하는 통계적 분포(정규분포, 균등 분포 등)과 같다로 두고, 대립 가설은 두 분포가 다르다로 설정한다.
\begin{equation} \begin{aligned} D &=\max \left|F_{0}(X)-F_{n}(X)\right| \\ &=0.3580 \end{aligned} \end{equation}
04. 결론
여기서 샘플의 개수 n이 40보다 작기 때문에, Small sample K-S test이다.
Critical Values of One-Sample Kolmogorov-Smirnov Test Statistic D
Alpha
n
0.20
0.10
0.05
0.02
0.01
1
0.900
0.950
0.975
0.990
0.995
2
0.684
0.776
0.842
0.900
0.929
3
0.565
0.636
0.708
0.785
0.829
4
0.493
0.656
0.624
0.689
0.734
5
0.447
0.509
0.563
0.627
0.669
6
0.410
0.468
0.519
0.577
0.617
7
0.381
0.436
0.483
0.538
0.576
8
0.358
0.410
0.454
0.507
0.542
9
0.339
0.387
0.430
0.480
0.513
10
0.323
0.369
0.409
0.457
0.489
n=10 일때, 5% 유의 수준에서 D의 Critical Values는 0.409이다. 우리가 얻은 검정 통계량에서 D의 값은 0.3580이 나왔기 때문에, 귀무가설을 기각할 수 없음. 따라서 해당 데이터는 5% 유의 수준하에서 정규분포에서 나왔다라고 결론내릴 수 있다.