본문 바로가기
Time-Series Forecasting

시계열 예측 논문에서 자주 사용하는 기본 Notation 정리

by Lee Jungwoo 2025. 5. 27.

시계열 예측(Time-Series Forecasting) 논문에서는 데이터, 모델의 입력/출력, 평가지표 등을 표현할 때 통일된 기호와 수식을 주로 사용합니다.

여기서는 가장 많이 등장하는 기본적인 표기법들을 소개해보도록 하겠습니다.


시계열 데이터 표현

  • 단변량 시계열 (Univariate Time Series)

$$ \textbf{y} = \left\{ y_1, y_2, ..., y_T \right\} $$

  • $T$: 전체 시계열 길이
  • $y_t$: 시점 $t$에서의 관측값 (스칼라)

단변량 시계열이란 1개의 변수로 이루어진 시계열 데이터를 의미하며 시계열 예측 모델은 단변량 또는 다변량 데이터를 입력으로 받는다.

 

  • 다변량 시계열 (Multivariate Time Series)

$$ \textbf{Y} = \left\{ \textbf{y}_1, \textbf{y}_2, ..., \textbf{y}_T \right\},\; \textbf{y}_t \in \mathbb{R}^D$$

  • $D$: 변수의 수 (feature dimension)
  • $\textbf{y}_t$: 시점 $t$의 다변량 벡터

다변량 시계열이란 2개 이상의 변수로 이루어진 시계열 데이터를 의미한다.

 

시계열 예측 모델의 문제 정의와 입출력

과거 $L$ 길이의 시계열 데이터를 이용해, 미래 $H$ 길이의 시계열 데이터를 예측하는 문제.

  • 입력 데이터(Input, sequence): 모델에 입력으로 사용되는 데이터를 의미하며 L 길이를 가진다.

$$\mathbf{X} = \{\mathbf{y}_{t-L+1}, \mathbf{y}_{t-L+2}, \dots, \mathbf{y}_t\}$$

  • 출력(output, prediction): 모델이 최종적으로 출력하는 예측값을 의미하며 H 길이를 가진다.

$$\hat{\mathbf{Y}} = \{\hat{\mathbf{y}}_{t+1}, \hat{\mathbf{y}}_{t+2}, \dots, \hat{\mathbf{y}}_{t+H}\}$$

  • 실제값(target): 예측값과 비교할 실제값을 의미한다.

$$\mathbf{Y} = \{\mathbf{y}_{t+1}, \mathbf{y}_{t+2}, \dots, \mathbf{y}_{t+H}\}$$

 

모델 함수 표현

모델 $f_\theta(\cdot)$를 통해 과거 데이터를 입력 받아 미래를 예측

$$\hat{\mathbf{Y}} = f_\theta(\mathbf{X})$$

 

평가지표(Evaluation Metrics)

예측값과 실제값의 차이를 측정하는 대표적인 지표

  • MSE(Mean Squared Error)

$$\mathrm{MSE} = \frac{1}{H} \sum_{h=1}^{H} \left( y_{t+h} - \hat{y}_{t+h} \right)^2$$

예측값과 실제값의 제곱 오차를 의미하며 평가지표로 사용되기도 하지만 시계열 예측에서 주로 사용하는 Loss이기도 하다.

  • MAE(Mean Absolute Error)

$$\mathrm{MAE} = \frac{1}{H} \sum_{h=1}^{H} \left| y_{t+h} - \hat{y}_{t+h} \right|$$

예측값과 실제값의 절대값 오차를 의미하며 주로 평가지표로 사용한다.

 


이외에도 다양한 내용들이 있지만 위 내용들만 잘 이해하셔도 시계열 예측 논문을 읽을 때 큰 어려움이 없으실 겁니다.
꼭 참고하셔서 제 블로그의 논문 리뷰를 읽으시거나 논문을 읽으실 때 도움이 되시길 바랍니다.