본문 바로가기

블로그/Statistics & Math

[ANOVA] One-way ANOVA, ANOVA table

One-way ANOVA는 3개 이상의 그룹에 모평균 간 차이가 있는지를 검정하는 방법이다.

이때, 귀무가설 H0은 "모평균들 간에는 차이가 없다"이며, 대립가설 Ha는 "적어도 두 모평균이 다르다" 이다.

One-way ANOVA는 Variance의 분석을 통해 모평균 간의 차이가 있는지 검정하며, 예시를 들어보자.

 

수학 학습 방법 중에 A 학습 방법, B,C, D 학습 방법이 있다고 하자. 이때, 우리는 4가지 수학 학습 방법의 차이에 따른 수학점수의 차이를 보고 싶다.

 

이때 학습 방법이 종속변수에 영향을 주는 독립변수이라고 할 수 있으며,  각 처리(treatment, 학습 방법)에 따라 나타나는 집단 간의 수학점수 평균이 종속변수가 될 것이다. 

 

아래 표를 보자

 

독립변수 : 수학 학습 방법(A,B,C,D)

종속변수 : 수학 점수

  학습 방법  A 학습 방법 B 학습 방법 C 학습 방법 D
점수 26.5 31.2 27.9 30.8
  28.7 28.3 25.1 29.6
  25.1 30.8 28.5 32.4
  29.1 27.9 24.2 31.7
  27.2 29.6 26.5 32.8
평균 27.32 29.56 26.44 31.46
총 평균:28.7
=(27.32+29.56+26.44+31.46) / 4
       

학습 방법 A,B,C,D에 따른 수학 점수와 위와 같다고 하자. 그럼 각 학습 방법에 따른 평균의 차이가 유의미하게 존재하는가?

 

우리는 여기서 중요한 통계 개념을 잡고 갈 것이다. 

바로 "변동"이라는 친구이다.

 

이 "변동"이라는 친구는 ANOVA 분석뿐만 아니라 이후에 다룰 회귀 분석에서도 전반적으로 다루게 될 개념이기 때문에 잘 알아보도록 하자.

 

본 포스팅에서 다룰 변동은 총 3개의 변동이다. 

(1) 총변동(SST, TSS in 회귀모델)

(2) 설명되지 않은 변동(SSW, SSE in 회귀모델)

(3) 설명된 변동 (SSB, SSR in 회귀모델)

 

(1) 총변동(SST)

\begin{equation}
\text { SST }=\sum i \sum j\left(X_{i j}-\overline{\bar{X}}\right)^{2}
\end{equation}

 

모든 관측치들이 평균으로 부터 얼마나 떨어져 있는가?

 

수식을 보면 총 변동은 각 수학 점수를 총 평균과 뺀 것을 제곱하여 모두 합한 값이다. 즉, 측정값과 총 평균과의 편차 제곱의 합이며, 이를 총변동(SST)라고 한다.

 

위 식을 통해 우리 표에 나오는 값을 통해 아래와 같이 구할 수 있을 것이다.

 

\begin{equation}
\text { SST }=[26.5-28.7]^{2}+[28.7-28.7]^{2}+\cdots[31.7-28.7]^{2}+[32.8-28.7]^{2}=115.93
\end{equation}

 

(2) 설명되지 않은 변동(SSW)

이름으로 부터 알 수 있듯이, 설명이 안된 것들이다. 같은 학습 방법(예를 들어, A 학습방법)을 적용했는데, 개별 학생들의 수학 점수가 다르다.

학습 방법  A
26.5
28.7
25.1
29.1
27.2
평균: 27.32

 

즉, 각각의 수학 점수의 차이는 독립변수인 학습 방법 A,B,C,D에서 오는 수학 점수의 차이가 아니라 동일한 학습 방법 내 차이로 인한 변동(에러)이기 때문에 설명되지 않은 변동이라고 이해할 수 있다. 우리는 이것을 하나의 그룹(학습 방법 A) 내에서의 변동이며, 모집단을 샘플링하는 과정에서 오는 무작위 오차(Random sampling error)로 인한 변동으로 생각한다. 

 

수식으로는 아래와 같이 표현한다.

 

\begin{equation}
\mathbf{S S W}=\sum i \sum j\left(X_{i j}-\bar{X}_{j}\right)^{2}
\end{equation}

 

위 식을 통해 표에 나오는 값을 통해 SSW를 구하면 아래와 같다.

 

\begin{equation}
(26.5-27.32)^{2}+(28.7-27.32)^{2}+\ldots(32.8-31.46)^{2}=10.68+8.57+13.2+6.6=39.08
\end{equation}

 

(3) 설명된 변동(SSB)

 

독립변수가 학습 방법 A,B,C,D이기 때문에,  각 학습 방법에서 부터 오는 변동이 있을 것이다.  즉, 학습 방법 A를 받은 학생의 수학점수와 학습 방법 B를 받은 학생들의 수학점수는 "학습 방법"에서 오는 차이가 있을 것이라고 생각할 수 있다.

아래의 수식에서 볼 수 있는것과 같이, 각 학습 방법에서 오는 평균과 총 평균의 편차의 제곱합이다.

 

\begin{equation}
\mathbf{S S B}=\sum N_{i}(\bar{X}-\overline{\bar{X}})^{2}
\end{equation}

 

아래와 같이 구할 수 있다.

 

\begin{equation}
\mathrm{SSB}=5[27.32-28.7]^{2}+5[29.56-28.7]^{2}+5[26.44-28.7]^{2}+5[31.46-28.7]^{2}=76.85
\end{equation}

 

위 3가지를 이해하면, One-way ANOVA에 대한 이해는 끝났다.

왜냐? one-way ANOVA 에서는 학습 방법의 차이 때문에 나타나는 변동의 크기가 Random sampling error 로 인한 변동보다 큰 지를 분석하는 것이며, 이를 F-test를 통해 검정해 집단 간 평균이 다른지 판단하기 때문이다.

그렇기 때문에, 각 Sum of square를 자유도로 나누어 준 것을 바탕으로 F- test를 진행하여 귀무가설의 기각여부를 판단하면 one-way ANOVA 분석을 수행한 것이다.

 

아래 ANOVA Table을 확인해보자.

 

ANOVA Table

  DF Sum of square 분산(Sum of square / 자유도) F-Test
학습 방법의 차이로 설명된 변동 그룹의 크기-1
(g-1)
SSB = 76.85 MSB=SSB / (4-1) (그룹 간 변동의 크기 ) / (그룹 내 변동의 크기)

MSB/MSW
=(76.85 / 3)
/ (39.08/16)
= F-value 
= 10.49
동일한 학습 방법 내 차이로 인한 변동, 오차 총 관측치- 그룹의 크기(N-g) SSW = 39.08 MSW=SSW / (20-4)
N-1 SST SST / N-1

F 검정은 F-critical value 값보다 F 값이 크면 귀무가설을 기각한다고 앞에서 설명했다.

 

https://fenzhan.tistory.com/15

 

[기초 통계] 07. 두 집단 비교에 대한 추론

앞에서 우리는 하나의 집단에 대한 모집단의 평균을 검증하기 위해 신뢰구간을 구하고, 가설검증을 해보았다. -> (one-sample-test) 이제는 2개의 집단이 존재하고, 집단의 평균이 통계적으로 유의미

fenzhan.tistory.com

 

(그룹 간 변동의 크기 ) / (그룹 내 변동의 크기)를 구했을 때 F-value를 10.49가 나오며, 이를 F-critical value와 비교하여 귀무 가설의 기각여부를 판단하자.

 

자유도가 (3,16)이며, 5% Significance level 설정하였을 때 F-critical value의 값은 3.24임. 따라서 해당 귀무가설을 기각할 유의미한 증거가 있다. 

 

F-critical value = (3, 16)= 3.24 < 10.49

 

귀무가설 H0  "모평균들 간에는 차이가 없다"를 기각하고, 대립가설 Ha는 "적어도 두 모평균이 다르다" 를 채택한다. 즉, 수학 학습 방법(A,B,C,D)으로 인해 적어도 두 그룹은 모평균이 다르다.