One-way ANOVA는 3개 이상의 그룹에 모평균 간 차이가 있는지를 검정하는 방법이다.
이때, 귀무가설 H0은 "모평균들 간에는 차이가 없다"이며, 대립가설 Ha는 "적어도 두 모평균이 다르다" 이다.
One-way ANOVA는 Variance의 분석을 통해 모평균 간의 차이가 있는지 검정하며, 예시를 들어보자.
수학 학습 방법 중에 A 학습 방법, B,C, D 학습 방법이 있다고 하자. 이때, 우리는 4가지 수학 학습 방법의 차이에 따른 수학점수의 차이를 보고 싶다.
이때 학습 방법이 종속변수에 영향을 주는 독립변수이라고 할 수 있으며, 각 처리(treatment, 학습 방법)에 따라 나타나는 집단 간의 수학점수 평균이 종속변수가 될 것이다.
아래 표를 보자
독립변수 : 수학 학습 방법(A,B,C,D)
종속변수 : 수학 점수
학습 방법 A | 학습 방법 B | 학습 방법 C | 학습 방법 D | |
점수 | 26.5 | 31.2 | 27.9 | 30.8 |
28.7 | 28.3 | 25.1 | 29.6 | |
25.1 | 30.8 | 28.5 | 32.4 | |
29.1 | 27.9 | 24.2 | 31.7 | |
27.2 | 29.6 | 26.5 | 32.8 | |
평균 | 27.32 | 29.56 | 26.44 | 31.46 |
총 평균:28.7 =(27.32+29.56+26.44+31.46) / 4 |
학습 방법 A,B,C,D에 따른 수학 점수와 위와 같다고 하자. 그럼 각 학습 방법에 따른 평균의 차이가 유의미하게 존재하는가?
우리는 여기서 중요한 통계 개념을 잡고 갈 것이다.
바로 "변동"이라는 친구이다.
이 "변동"이라는 친구는 ANOVA 분석뿐만 아니라 이후에 다룰 회귀 분석에서도 전반적으로 다루게 될 개념이기 때문에 잘 알아보도록 하자.
본 포스팅에서 다룰 변동은 총 3개의 변동이다.
(1) 총변동(SST, TSS in 회귀모델)
(2) 설명되지 않은 변동(SSW, SSE in 회귀모델)
(3) 설명된 변동 (SSB, SSR in 회귀모델)
(1) 총변동(SST)
\begin{equation}
\text { SST }=\sum i \sum j\left(X_{i j}-\overline{\bar{X}}\right)^{2}
\end{equation}
모든 관측치들이 평균으로 부터 얼마나 떨어져 있는가?
수식을 보면 총 변동은 각 수학 점수를 총 평균과 뺀 것을 제곱하여 모두 합한 값이다. 즉, 측정값과 총 평균과의 편차 제곱의 합이며, 이를 총변동(SST)라고 한다.
위 식을 통해 우리 표에 나오는 값을 통해 아래와 같이 구할 수 있을 것이다.
\begin{equation}
\text { SST }=[26.5-28.7]^{2}+[28.7-28.7]^{2}+\cdots[31.7-28.7]^{2}+[32.8-28.7]^{2}=115.93
\end{equation}
(2) 설명되지 않은 변동(SSW)
이름으로 부터 알 수 있듯이, 설명이 안된 것들이다. 같은 학습 방법(예를 들어, A 학습방법)을 적용했는데, 개별 학생들의 수학 점수가 다르다.
학습 방법 A |
26.5 |
28.7 |
25.1 |
29.1 |
27.2 |
평균: 27.32 |
즉, 각각의 수학 점수의 차이는 독립변수인 학습 방법 A,B,C,D에서 오는 수학 점수의 차이가 아니라 동일한 학습 방법 내 차이로 인한 변동(에러)이기 때문에 설명되지 않은 변동이라고 이해할 수 있다. 우리는 이것을 하나의 그룹(학습 방법 A) 내에서의 변동이며, 모집단을 샘플링하는 과정에서 오는 무작위 오차(Random sampling error)로 인한 변동으로 생각한다.
수식으로는 아래와 같이 표현한다.
\begin{equation}
\mathbf{S S W}=\sum i \sum j\left(X_{i j}-\bar{X}_{j}\right)^{2}
\end{equation}
위 식을 통해 표에 나오는 값을 통해 SSW를 구하면 아래와 같다.
\begin{equation}
(26.5-27.32)^{2}+(28.7-27.32)^{2}+\ldots(32.8-31.46)^{2}=10.68+8.57+13.2+6.6=39.08
\end{equation}
(3) 설명된 변동(SSB)
독립변수가 학습 방법 A,B,C,D이기 때문에, 각 학습 방법에서 부터 오는 변동이 있을 것이다. 즉, 학습 방법 A를 받은 학생의 수학점수와 학습 방법 B를 받은 학생들의 수학점수는 "학습 방법"에서 오는 차이가 있을 것이라고 생각할 수 있다.
아래의 수식에서 볼 수 있는것과 같이, 각 학습 방법에서 오는 평균과 총 평균의 편차의 제곱합이다.
\begin{equation}
\mathbf{S S B}=\sum N_{i}(\bar{X}-\overline{\bar{X}})^{2}
\end{equation}
아래와 같이 구할 수 있다.
\begin{equation}
\mathrm{SSB}=5[27.32-28.7]^{2}+5[29.56-28.7]^{2}+5[26.44-28.7]^{2}+5[31.46-28.7]^{2}=76.85
\end{equation}
위 3가지를 이해하면, One-way ANOVA에 대한 이해는 끝났다.
왜냐? one-way ANOVA 에서는 학습 방법의 차이 때문에 나타나는 변동의 크기가 Random sampling error 로 인한 변동보다 큰 지를 분석하는 것이며, 이를 F-test를 통해 검정해 집단 간 평균이 다른지 판단하기 때문이다.
그렇기 때문에, 각 Sum of square를 자유도로 나누어 준 것을 바탕으로 F- test를 진행하여 귀무가설의 기각여부를 판단하면 one-way ANOVA 분석을 수행한 것이다.
아래 ANOVA Table을 확인해보자.
ANOVA Table
DF | Sum of square | 분산(Sum of square / 자유도) | F-Test | |
학습 방법의 차이로 설명된 변동 | 그룹의 크기-1 (g-1) |
SSB = 76.85 | MSB=SSB / (4-1) | (그룹 간 변동의 크기 ) / (그룹 내 변동의 크기) MSB/MSW =(76.85 / 3) / (39.08/16) = F-value = 10.49 |
동일한 학습 방법 내 차이로 인한 변동, 오차 | 총 관측치- 그룹의 크기(N-g) | SSW = 39.08 | MSW=SSW / (20-4) | |
합 | N-1 | SST | SST / N-1 |
F 검정은 F-critical value 값보다 F 값이 크면 귀무가설을 기각한다고 앞에서 설명했다.
https://fenzhan.tistory.com/15
[기초 통계] 07. 두 집단 비교에 대한 추론
앞에서 우리는 하나의 집단에 대한 모집단의 평균을 검증하기 위해 신뢰구간을 구하고, 가설검증을 해보았다. -> (one-sample-test) 이제는 2개의 집단이 존재하고, 집단의 평균이 통계적으로 유의미
fenzhan.tistory.com
(그룹 간 변동의 크기 ) / (그룹 내 변동의 크기)를 구했을 때 F-value를 10.49가 나오며, 이를 F-critical value와 비교하여 귀무 가설의 기각여부를 판단하자.
자유도가 (3,16)이며, 5% Significance level 설정하였을 때 F-critical value의 값은 3.24임. 따라서 해당 귀무가설을 기각할 유의미한 증거가 있다.
F-critical value = (3, 16)= 3.24 < 10.49
귀무가설 H0 "모평균들 간에는 차이가 없다"를 기각하고, 대립가설 Ha는 "적어도 두 모평균이 다르다" 를 채택한다. 즉, 수학 학습 방법(A,B,C,D)으로 인해 적어도 두 그룹은 모평균이 다르다.
'블로그 > Statistics & Math' 카테고리의 다른 글
[Time Series] 시계열 그래프와 추세, 자기 상관, 백색 잡음 (0) | 2024.01.22 |
---|---|
[Time Series] Preface to this read-along (1) | 2024.01.22 |
[비모수 통계] KS test (Kolmogorov–Smirnov test) 방법 (0) | 2022.06.30 |
[기초 통계] 08. 모비율 검정(One sample case) (0) | 2022.06.29 |
[기초 통계] 07. 두 집단 비교에 대한 추론 (0) | 2022.06.01 |