반응형

정상성

1. 평균이 일정하다.
2. 분산이 시점에 의존하지 않는다.
3. 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.
시계열 모형

자기회귀모형 (Autoregressive model)

현 시점의 자료 $Z_t$가 p시간 이전까지의 자료들로 설명이 되는 모형이다.
$Z_t = \phi_1Z_{t-1} + \phi_2Z_{t-2}+...+\phi_pZ_{t-p}+a_t$
이러한 모형을 p차 자기회귀모형 AR(p)라 한다.

이동평균모형 (Moving Average model)

현 시점의 자료가 유한개의 노이즈의 선형결합으로 주어진다. 즉, 정상성을 만족한다. $Z_t = a_t - \theta_1a_{t-1}-\theta_2a_{t-2}+...$

자기회귀누적이동평균모형 (Autoregressive Integrated Moving Average model)

 차분이나 변환을 통해 위의 모형들로 정상화할 수 없는 비정상 시계열모형을 나타낸다. $ARIMA(p,d,q)$로 세개의 차수를 이용하여 나타내며 각각 p는 AR모형, q는 MA모형 과의 관계를 나타내며, d는 ARIMA에서 ARMA로 정상화할 때 몇 번 차분 했는지를 나타낸다.
 q=0 인 경우, d번 차분하면 AR(p) 모형, 즉, 현시점의 자료가 p시점 전까지의 자료들로 설명이 되는 p차 자기회귀모형이 된다. 분해시계열 시계열에 영향을 주는 요인을 시계열에서 분리해 분석하는 방법이다.

 

1. 추세요인
시간에 따른 전체적인 변화의 경향성이 있는 경우로, 꼭 선형적일 필요는 없다.
2. 계절요인
고정된 주기(요일, 월, 계절 등)에 따라 자료가 변화하는 경우 계절요인이 있다고 한다.
3. 순환요인
명백한 이유가 없이 알려지지 않은 주기를 가지고 변화하는 경우 순환요인이 있다고 한다.
4. 불규칙요인
위 세가지의 요인으로 설명 할 수 없는 회귀분석에서 오차에 해당하는 요인을 불규칙 요인이라 한다.

 

실습

(a) 아스완 댐에서 측정한 나일강의 연간 유입량 (b) 영국의 월별 폐질환 사망자

 (a)의 경우, 계절성을 보이지 않으며, 정상성 역시 만족하지 못한다.(평균이 계속 변화한다.) 반면, (b)의 경우, 매년 일정한 주기별로 사망자 수가 변화하는 계절성을 보인다.

ARIMA 모형

(a) 나일강 유입량 데이터의 1차 차분

 위의 그래프는 나일강 유입량의 차분($Z'_t := Z_t-Z_{t-1}$) 데이터이다. 차분하는 것은 추세요인이나 계절요인을 없애거나 줄이는데 도움이 될 수 있다. $Z_t$ 와는 달리 어느정도 정상성을 보이는(평균이 0으로 일정한) 것을 알 수 있다. 

자기상관함수와 편자기상관함수

 자기상관함수 $\rho_k$의 정의는 아래와 같다.
$\rho_k := corr(Z_t,Z_{t-k})$
 즉, 현재의 자료가 k 이전 시점의 자료와 얼마나 상관되어 있는가를 나타낸다. 또한 편자기상관함수의 경우, $\phi_{kk}$의 정의는 아래와 같으며,

$\phi_{kk} := corr(e_{t},e_{t-k})$

여기서 e_{t}는 $Z_{t-1}$부터 $Z_{t-k}$까지의 데이터들로 $Z_t$에 대하여 선형회귀분석을 한 결과이고, $e_{t-k}$는 $Z_{t-k}$만으로 $Z_t$에 대하여 회귀분석한 결과를 나타내며, 편자기상관함수는 결국 $Z_{t-1}, ... Z_{t-k-1}$을 제외하고 오직 $Z_{t-k}$만으로 $Z_t$값을 얼마나 설명할 수 있는지를 나타낸다.

(a) $Z'_t$ 의 자기상관함수 그래프 (b) 편자기상관함수

 위의 그래프를 보면 lag=0 일때는 자기자신과 자기자신의 상관관계이므로 당연히 1이 되고, lag=1, 8 일때, ACF의 값($\rho_{k=1,8}$)이 유의수준 이상의 값을 보여주는데, 이는 $Z_t$가 $Z_{t-1}, Z_{t-8}$ 과 상관관계가 있음을 의미한다. ACF 그래프는 평균이동모형의 차수를 알아내는데에 도움이 될수 있는데, q 값 이후 급격히 0에 가까워지는 것은 MA(q) 모형의 특징이다.

 또한, 편자기상관함수의 경우, lag가 커짐에 따라 서서히 0으로 떨어지는 경향성을 보여주는데, 이는 자기회귀 모형의 특징이다. AR(p) 모형의 경우, PACF 값이 p값 이후 급격히 0으로 감소한다. 

 

 

 

Reference

1. 데이터 분석 전문가 가이드, 한국데이터진흥원

2. https://freshrimpsushi.tistory.com/1209

3.https://datascienceschool.net/view-notebook/8030f5931c1b4cf68a46c2a194b3a1c6/

반응형

'이론, 자격증 > ADsP' 카테고리의 다른 글

ADsP 1과목 데이터의 이해  (0) 2020.02.17

+ Recent posts