시계열 예측(Time-Series Forecasting) 논문에서는 데이터, 모델의 입력/출력, 평가지표 등을 표현할 때 통일된 기호와 수식을 주로 사용합니다.
여기서는 가장 많이 등장하는 기본적인 표기법들을 소개해보도록 하겠습니다.
시계열 데이터 표현
- 단변량 시계열 (Univariate Time Series)
$$ \textbf{y} = \left\{ y_1, y_2, ..., y_T \right\} $$
- $T$: 전체 시계열 길이
- $y_t$: 시점 $t$에서의 관측값 (스칼라)
단변량 시계열이란 1개의 변수로 이루어진 시계열 데이터를 의미하며 시계열 예측 모델은 단변량 또는 다변량 데이터를 입력으로 받는다.
- 다변량 시계열 (Multivariate Time Series)
$$ \textbf{Y} = \left\{ \textbf{y}_1, \textbf{y}_2, ..., \textbf{y}_T \right\},\; \textbf{y}_t \in \mathbb{R}^D$$
- $D$: 변수의 수 (feature dimension)
- $\textbf{y}_t$: 시점 $t$의 다변량 벡터
다변량 시계열이란 2개 이상의 변수로 이루어진 시계열 데이터를 의미한다.
시계열 예측 모델의 문제 정의와 입출력
과거 $L$ 길이의 시계열 데이터를 이용해, 미래 $H$ 길이의 시계열 데이터를 예측하는 문제.
- 입력 데이터(Input, sequence): 모델에 입력으로 사용되는 데이터를 의미하며 L 길이를 가진다.
$$\mathbf{X} = \{\mathbf{y}_{t-L+1}, \mathbf{y}_{t-L+2}, \dots, \mathbf{y}_t\}$$
- 출력(output, prediction): 모델이 최종적으로 출력하는 예측값을 의미하며 H 길이를 가진다.
$$\hat{\mathbf{Y}} = \{\hat{\mathbf{y}}_{t+1}, \hat{\mathbf{y}}_{t+2}, \dots, \hat{\mathbf{y}}_{t+H}\}$$
- 실제값(target): 예측값과 비교할 실제값을 의미한다.
$$\mathbf{Y} = \{\mathbf{y}_{t+1}, \mathbf{y}_{t+2}, \dots, \mathbf{y}_{t+H}\}$$
모델 함수 표현
모델 $f_\theta(\cdot)$를 통해 과거 데이터를 입력 받아 미래를 예측
$$\hat{\mathbf{Y}} = f_\theta(\mathbf{X})$$
평가지표(Evaluation Metrics)
예측값과 실제값의 차이를 측정하는 대표적인 지표
- MSE(Mean Squared Error)
$$\mathrm{MSE} = \frac{1}{H} \sum_{h=1}^{H} \left( y_{t+h} - \hat{y}_{t+h} \right)^2$$
예측값과 실제값의 제곱 오차를 의미하며 평가지표로 사용되기도 하지만 시계열 예측에서 주로 사용하는 Loss이기도 하다.
- MAE(Mean Absolute Error)
$$\mathrm{MAE} = \frac{1}{H} \sum_{h=1}^{H} \left| y_{t+h} - \hat{y}_{t+h} \right|$$
예측값과 실제값의 절대값 오차를 의미하며 주로 평가지표로 사용한다.
이외에도 다양한 내용들이 있지만 위 내용들만 잘 이해하셔도 시계열 예측 논문을 읽을 때 큰 어려움이 없으실 겁니다.
꼭 참고하셔서 제 블로그의 논문 리뷰를 읽으시거나 논문을 읽으실 때 도움이 되시길 바랍니다.
'Time-Series Forecasting' 카테고리의 다른 글
[논문 리뷰] Pyraformer: Low-Complexity Pyramidal Attention for Long-Range Time Series Modeling and Forecasting (2) | 2025.05.27 |
---|---|
Time-Series Forecasting(시계열 예측)이란? (1) | 2025.05.26 |