본문 바로가기

블로그/Statistics & Math

[Time Series] Preface to this read-along

예측 될 수 있는 것이란?

 

어떤 사건이나 수량의 예측가능성은 몇 가지 요인에 의존한다.

1. 영향을 주는 요인을 얼마나 잘 이해할 수 있는지

2. 사용할 수 있는 데이터가 얼마나 많은지

3. 예측이 우리가 예측하려는 것에 영향을 줄 수 있는 여부

 

예를 들어, 전기 수요 예측의 경우 전기 수요가 기온에 영향을 받는 것을 알고 있으며, 날씨에 대한 충분한 데이터가 있기 때문에 정확하게 예측할 수 있다. 하지만 환율 예측의 경우, 데이터는 많지만 환율에 영향을 주는 요인을 잘 모르고, 전 날의 환율은 다음날의 환율에 영향을 미치기 때문에(efficient market hypothesis), 동전 던지기와 비슷한 예측을 할 수 있다.

따라서, 주가 예측(Stock Forcasting)과 같은 작업은 전날의 주가를 다음날의 예측값으로 두었을 때, 학습을 통한 딥러닝 모델보다 성능이 좋기도 한다. 따라서, 전날의 주가를 baseline으로 두기도 한다.

 

따라서, 예측에 있어서 핵심적인 과정은 정확한 예측이 가능한 때가 언제인지, 예측이 의미가 없을 때가 언제인지 아는 것이다.

 

좋은 예측 모델은 모든 것을 예측하는 것이 아닌(Overfitting), 변화하는 방식 즉, 패턴을 발견할 수 있다.

 

어떤 것을 예측하는 것인가?

1. 모든 생산 라인에 대한 것인가? 생산 그룹에 관한 것인가? 

2. 모든 판매점에 대한 것인가? 지역별 판매점 그룹? 판매량 전체?

 

예측 범위는 무엇인가? 혹은 얼마나 자주 예측 작업을 할 것인가?

한 달, 6개월, 10년 앞 예측이 필요한가?

 

데이터는 존재하는가?

특히, 파라미터 수가 많은 딥러닝의 경우 충분한 데이터가 있어야 학습이 가능하다. 그렇지 않으면, data augmentation을 고려한다.

https://arxiv.org/abs/2002.12478

 

Time Series Data Augmentation for Deep Learning: A Survey

Deep learning performs remarkably well on many time series analysis tasks recently. The superior performance of deep neural networks relies heavily on a large number of training data to avoid overfitting. However, the labeled data of many real-world time s

arxiv.org

 

가끔 오래된 데이터에는 시스템에 구조적인 변화가 생겨서 현재 예측하려는 모델에는 도움이 없을 수도 있다.

이때는 가장 최근의 데이터만 선택해서 사용하거나, 이러한 구조적인 변화를 반영할 수 있는 예측 모델을 만드는 것이 중요하다.

Forecasting: Principles and Pratice