본문 바로가기

블로그/Statistics & Math

[기초 통계] 02. 중심화 경향과 Z-score

오류나 틀린 부분이 있을 경우 언제든지 댓글 혹은 메일로 남겨주세요 😄

 

중심화 경향

  • 자료가 주로 어떤 값에 모여 있는지를 나타내는 통계를 중심화 경향이라고 함
  • 실무에서 어떠한 관측치의 대표적인 성질을 파악하기 위해 산술평균, 중앙값,최빈값을 자주 이용함.
    • 평균(mean): 산술평균
    • 최빈값(mode): 가장 큰 빈도수를 가진 관측치
    • 중앙값(median): 데이터를 가장 작은 수치에서 가장 큰 수까지 나열한 후, 가운데 위치한 숫자가 중앙값
      • 만약, 관측된 데이터의 분포가 한쪽으로 쏠려 있을 경우, 중앙값이 해당 분포의 중심경향을 잘 나타낸다고 할 수 있음
      • 예를 들어, 월급이 100,120,130,140,1500 이라면, 사장님의 월급인 1500 는 흔히 말하는 이상치(outlier)이기 때문에 평균과 중앙값을 계산했을 때, 큰 차이가 발생함
      • 평균 = 398, 중앙값 = 130

Skewness

  • 위에서 예를 들은 월급과 같이, 관측된 데이터 분포가 어느 한쪽으로 쏠려 있는 정도를 말하며, 이를 수치로 나타낼 수 있음 

$$
\text { Skewness }=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}}{\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right)^{3 / 2}}
$$

Skewness

분산도

  • 위에서 중심에 얼마나 모여 있는지를 파악하는 중심화 경향의 대표적인 예시를 살펴봄. 그렇다면 데이터 분포들이 가운데를 중심으로 양 옆으로 얼마나 퍼져 있는가는 어떻게 측정하는가? 다양한 측정 방법이 존재함
    • 1) Range: (최대값 - 최소값) +1 을 통해 데이터 분포의 범위를 파악, 값을 계산하기 매우 편하지만 이상치(outliar)에 영향을 크게 받음
    • 2) Average deviation
      $$
      \text { Ave. Dev }=\frac{\sum(x-\mu)}{N}
      $$
*Average deviation에서 편차(관측치 - 관측치의 평균)의 합은 항상 0이다. 따라서, 위 식은 항상 0을 가지게 됨
  • 3) Population Variance
  • Average deviation에서 편차를 제곱하고 전체 샘플수로 나누어주어서, 데이터의 퍼짐의 정도를 수치화한 지표
    여기서 Sample Variance는 n-1로 나누어주는데, n-1로 나누어 주는 것이 표본분산이 불편추정량이 되도록 정의하기 위해서임. (자유도 개념은 나중에)
    $$
    \text { Population Variance }=\sigma^{2}=\frac{\sum(x-\mu)^{2}}{N}
    $$
    $$
    \text { Sample Variance }=s^{2}=\frac{\sum(x-\bar{x})^{2}}{n-1}
    $$
  • 4) Standard deviation
    Average deviation의 편차의 합은 0이기 때문에, 제곱을 통해 Variance를 얻었다. 이를 원래 Scale로 돌려놓기 위해서 Root를 씌워주면, Standard deviation임.
    => 즉,  Standard deviation를 통해 어떤 데이터가 평균을 중심으로 얼마나 떨어져 있는지를 수치화 할 수 있음
  • 예를 들어, 어떤 특정 데이터가 표준편차가 크다라고 하면, 그 데이터가 평균에서 부터 많이 떨어져 있다로 해석할 수 있음.
    $$
    \text { Population Standard Deviation }=\sigma=\sqrt{\sigma^{2}}=\sqrt{\frac{\sum(x-\mu)^{2}}{N}}
    $$
    $$
    \text { Sample Standard Deviation }=s=\sqrt{s^{2}}=\sqrt{\frac{\sum(x-\bar{x})^{2}}{n-1}}
    $$
  • 위에 서술한 방식 말고, 분산도를 정의하는 더 많은 방식이 존재하지만, 이 노트에서는 다음만 정의하도록 함.

Z-score

  • 이제 관측치를 대표하는 중심화 경향과, 분산도를 알아봤으니, 서로 다른 관측치의 분포를 가지고 있는 점수를 비교하는 방법을 알아보자.
    • 상식적으로, 서로 다른 관측치로 부터 얻은 분포라면 다른 중심화 경향과 분산도를 가질 것이다. 그럼 우리는 어떻게 두 개의 분포를 비교할까? 이를 비교하기 위해 간단하게 두 분포를 똑같이 비교할 수 있도록 같은 수치의 범위 안으로 scaling 시키면 될 것이다. 이때 활용하는 것이 Z-score(Standard score)이다.

      $$
      \text { Standard score }=\frac{(\text { raw scores }-\text { mean })}{(\text { standard deviation })}
      $$
  • 그렇다면, 이 z-score가 의미하는 것은 무엇일까? 자료가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 보여주는 것이다.
  • 만약 이 값이 음의 값을 갖는다면 평균 아래에 놓인 관측치라는 것을 의미하며, 0의 값을 가지면 그것은 평균을 의미한다. 
    ex. Z-score = -1(평균으로 부터 -1 표준편차 떨어짐 )
  • 두 분포에서 나온 관측치가 Z-score(1)= -1, Z-score(2) - 0.5를 가진다. 그렇다면, 첫번째 관측치가 평균으로 부터 두번째 관측치보다 더 평균 아래에 놓여 있다는 것을 파악할 수 있다.