오류나 틀린 부분이 있을 경우 언제든지 댓글 혹은 메일로 남겨주세요 😄
중심화 경향
- 자료가 주로 어떤 값에 모여 있는지를 나타내는 통계를 중심화 경향이라고 함
- 실무에서 어떠한 관측치의 대표적인 성질을 파악하기 위해 산술평균, 중앙값,최빈값을 자주 이용함.
- 평균(mean): 산술평균
- 최빈값(mode): 가장 큰 빈도수를 가진 관측치
- 중앙값(median): 데이터를 가장 작은 수치에서 가장 큰 수까지 나열한 후, 가운데 위치한 숫자가 중앙값
- 만약, 관측된 데이터의 분포가 한쪽으로 쏠려 있을 경우, 중앙값이 해당 분포의 중심경향을 잘 나타낸다고 할 수 있음
- 예를 들어, 월급이 100,120,130,140,1500 이라면, 사장님의 월급인 1500 는 흔히 말하는 이상치(outlier)이기 때문에 평균과 중앙값을 계산했을 때, 큰 차이가 발생함
- 평균 = 398, 중앙값 = 130
Skewness
- 위에서 예를 들은 월급과 같이, 관측된 데이터 분포가 어느 한쪽으로 쏠려 있는 정도를 말하며, 이를 수치로 나타낼 수 있음
$$
\text { Skewness }=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}}{\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right)^{3 / 2}}
$$
분산도
- 위에서 중심에 얼마나 모여 있는지를 파악하는 중심화 경향의 대표적인 예시를 살펴봄. 그렇다면 데이터 분포들이 가운데를 중심으로 양 옆으로 얼마나 퍼져 있는가는 어떻게 측정하는가? 다양한 측정 방법이 존재함
- 1) Range: (최대값 - 최소값) +1 을 통해 데이터 분포의 범위를 파악, 값을 계산하기 매우 편하지만 이상치(outliar)에 영향을 크게 받음
- 2) Average deviation
$$
\text { Ave. Dev }=\frac{\sum(x-\mu)}{N}
$$
*Average deviation에서 편차(관측치 - 관측치의 평균)의 합은 항상 0이다. 따라서, 위 식은 항상 0을 가지게 됨
- 3) Population Variance
- Average deviation에서 편차를 제곱하고 전체 샘플수로 나누어주어서, 데이터의 퍼짐의 정도를 수치화한 지표
여기서 Sample Variance는 n-1로 나누어주는데, n-1로 나누어 주는 것이 표본분산이 불편추정량이 되도록 정의하기 위해서임. (자유도 개념은 나중에)
$$
\text { Population Variance }=\sigma^{2}=\frac{\sum(x-\mu)^{2}}{N}
$$
$$
\text { Sample Variance }=s^{2}=\frac{\sum(x-\bar{x})^{2}}{n-1}
$$
- 4) Standard deviation
Average deviation의 편차의 합은 0이기 때문에, 제곱을 통해 Variance를 얻었다. 이를 원래 Scale로 돌려놓기 위해서 Root를 씌워주면, Standard deviation임.
=> 즉, Standard deviation를 통해 어떤 데이터가 평균을 중심으로 얼마나 떨어져 있는지를 수치화 할 수 있음 - 예를 들어, 어떤 특정 데이터가 표준편차가 크다라고 하면, 그 데이터가 평균에서 부터 많이 떨어져 있다로 해석할 수 있음.
$$
\text { Population Standard Deviation }=\sigma=\sqrt{\sigma^{2}}=\sqrt{\frac{\sum(x-\mu)^{2}}{N}}
$$
$$
\text { Sample Standard Deviation }=s=\sqrt{s^{2}}=\sqrt{\frac{\sum(x-\bar{x})^{2}}{n-1}}
$$
- 위에 서술한 방식 말고, 분산도를 정의하는 더 많은 방식이 존재하지만, 이 노트에서는 다음만 정의하도록 함.
Z-score
- 이제 관측치를 대표하는 중심화 경향과, 분산도를 알아봤으니, 서로 다른 관측치의 분포를 가지고 있는 점수를 비교하는 방법을 알아보자.
- 상식적으로, 서로 다른 관측치로 부터 얻은 분포라면 다른 중심화 경향과 분산도를 가질 것이다. 그럼 우리는 어떻게 두 개의 분포를 비교할까? 이를 비교하기 위해 간단하게 두 분포를 똑같이 비교할 수 있도록 같은 수치의 범위 안으로 scaling 시키면 될 것이다. 이때 활용하는 것이 Z-score(Standard score)이다.
$$
\text { Standard score }=\frac{(\text { raw scores }-\text { mean })}{(\text { standard deviation })}
$$
- 상식적으로, 서로 다른 관측치로 부터 얻은 분포라면 다른 중심화 경향과 분산도를 가질 것이다. 그럼 우리는 어떻게 두 개의 분포를 비교할까? 이를 비교하기 위해 간단하게 두 분포를 똑같이 비교할 수 있도록 같은 수치의 범위 안으로 scaling 시키면 될 것이다. 이때 활용하는 것이 Z-score(Standard score)이다.
- 그렇다면, 이 z-score가 의미하는 것은 무엇일까? 자료가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 보여주는 것이다.
- 만약 이 값이 음의 값을 갖는다면 평균 아래에 놓인 관측치라는 것을 의미하며, 0의 값을 가지면 그것은 평균을 의미한다.
ex. Z-score = -1(평균으로 부터 -1 표준편차 떨어짐 ) - 두 분포에서 나온 관측치가 Z-score(1)= -1, Z-score(2) - 0.5를 가진다. 그렇다면, 첫번째 관측치가 평균으로 부터 두번째 관측치보다 더 평균 아래에 놓여 있다는 것을 파악할 수 있다.
'블로그 > Statistics & Math' 카테고리의 다른 글
[기초 통계] 06. 가설검증과 오류 (0) | 2022.06.01 |
---|---|
[기초 통계] 05. 구간추정과 신뢰구간 (0) | 2022.06.01 |
[기초 통계] 04. 표본 분포와 특징 (0) | 2022.06.01 |
[기초 통계] 03. 확률 분포와 정규분포 (0) | 2022.06.01 |
[기초 통계] 01. 통계 기초 용어와 척도 (0) | 2022.05.22 |