정상성
1. 평균이 일정하다.
2. 분산이 시점에 의존하지 않는다.
3. 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.
시계열 모형
자기회귀모형 (Autoregressive model)
현 시점의 자료 Zt가 p시간 이전까지의 자료들로 설명이 되는 모형이다.
Zt=ϕ1Zt−1+ϕ2Zt−2+...+ϕpZt−p+at
이러한 모형을 p차 자기회귀모형 AR(p)라 한다.
이동평균모형 (Moving Average model)
현 시점의 자료가 유한개의 노이즈의 선형결합으로 주어진다. 즉, 정상성을 만족한다. Zt=at−θ1at−1−θ2at−2+...
자기회귀누적이동평균모형 (Autoregressive Integrated Moving Average model)
차분이나 변환을 통해 위의 모형들로 정상화할 수 없는 비정상 시계열모형을 나타낸다. ARIMA(p,d,q)로 세개의 차수를 이용하여 나타내며 각각 p는 AR모형, q는 MA모형 과의 관계를 나타내며, d는 ARIMA에서 ARMA로 정상화할 때 몇 번 차분 했는지를 나타낸다.
q=0 인 경우, d번 차분하면 AR(p) 모형, 즉, 현시점의 자료가 p시점 전까지의 자료들로 설명이 되는 p차 자기회귀모형이 된다. 분해시계열 시계열에 영향을 주는 요인을 시계열에서 분리해 분석하는 방법이다.
1. 추세요인
시간에 따른 전체적인 변화의 경향성이 있는 경우로, 꼭 선형적일 필요는 없다.
2. 계절요인
고정된 주기(요일, 월, 계절 등)에 따라 자료가 변화하는 경우 계절요인이 있다고 한다.
3. 순환요인
명백한 이유가 없이 알려지지 않은 주기를 가지고 변화하는 경우 순환요인이 있다고 한다.
4. 불규칙요인
위 세가지의 요인으로 설명 할 수 없는 회귀분석에서 오차에 해당하는 요인을 불규칙 요인이라 한다.
실습


(a)의 경우, 계절성을 보이지 않으며, 정상성 역시 만족하지 못한다.(평균이 계속 변화한다.) 반면, (b)의 경우, 매년 일정한 주기별로 사망자 수가 변화하는 계절성을 보인다.
ARIMA 모형

위의 그래프는 나일강 유입량의 차분(Z′t:=Zt−Zt−1) 데이터이다. 차분하는 것은 추세요인이나 계절요인을 없애거나 줄이는데 도움이 될 수 있다. Zt 와는 달리 어느정도 정상성을 보이는(평균이 0으로 일정한) 것을 알 수 있다.
자기상관함수와 편자기상관함수
자기상관함수 ρk의 정의는 아래와 같다.
ρk:=corr(Zt,Zt−k)
즉, 현재의 자료가 k 이전 시점의 자료와 얼마나 상관되어 있는가를 나타낸다. 또한 편자기상관함수의 경우, ϕkk의 정의는 아래와 같으며,
ϕkk:=corr(et,et−k)
여기서 e_{t}는 Zt−1부터 Zt−k까지의 데이터들로 Zt에 대하여 선형회귀분석을 한 결과이고, et−k는 Zt−k만으로 Zt에 대하여 회귀분석한 결과를 나타내며, 편자기상관함수는 결국 Zt−1,...Zt−k−1을 제외하고 오직 Zt−k만으로 Zt값을 얼마나 설명할 수 있는지를 나타낸다.


위의 그래프를 보면 lag=0 일때는 자기자신과 자기자신의 상관관계이므로 당연히 1이 되고, lag=1, 8 일때, ACF의 값(ρk=1,8)이 유의수준 이상의 값을 보여주는데, 이는 Zt가 Zt−1,Zt−8 과 상관관계가 있음을 의미한다. ACF 그래프는 평균이동모형의 차수를 알아내는데에 도움이 될수 있는데, q 값 이후 급격히 0에 가까워지는 것은 MA(q) 모형의 특징이다.
또한, 편자기상관함수의 경우, lag가 커짐에 따라 서서히 0으로 떨어지는 경향성을 보여주는데, 이는 자기회귀 모형의 특징이다. AR(p) 모형의 경우, PACF 값이 p값 이후 급격히 0으로 감소한다.
Reference
1. 데이터 분석 전문가 가이드, 한국데이터진흥원
2. https://freshrimpsushi.tistory.com/1209
3.https://datascienceschool.net/view-notebook/8030f5931c1b4cf68a46c2a194b3a1c6/
'이론, 자격증 > ADsP' 카테고리의 다른 글
ADsP 1과목 데이터의 이해 (0) | 2020.02.17 |
---|