본문 바로가기
취미/자격증

[데이터분석 전문가/준전문가] 과목 4 - 1장 - R 기초와 데이터 마트 4

by Physics 2020. 11. 20.
728x90

제 4 절 시계열 예측


1. 정상성

시계열자료: 시간의 흐름에 따라서 관측된 데이터 (Time-series Data) 
  - 시계열 분석을 하기 위해선, 정상성*(stationary)를 만족해야함 
  * 정상성: 시점에 상관없이 시계열의 특성이 일정함을 의미하며 아래의 특징을 만족해야 한다. 아래의 특징을 하나라도 만족하지 않는 경우에는 비정상 시계열이라 부르며, 대부분 시계열 자료는 비정상 시계열이라 부른다. 
  (a) 평균이 일정 
  (b) 분산이 시점에 의존하지 않음 
  (c) 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.  
• 주어진 시계열 자료가 정상성을 만족하는지 판단하는 과정 
 (1) 그림을 통해 자료의 이상점(outlier)과 개입(intervention)을 살핌 

   - 이상점: 해당 이상점을 제거 
   - 개입: 회귀분석을 수행
 (2) 정상성 만족 여부와 개략적인 추세 유무를 관찰 
• 시간에 대해 평균이 일정하지 않는 경우: 차분(Difference)를 통해서 비정상 시계열을 정상 시계열로 바꿈 
• 시간에 대해 분산이 일정하지 않는 경우: 변환(Transformation)을 통해서 정상 시계열로 바꿈 

2. 시계열 모형 

시계열 모형 설명
자기회귀 모형
(AR 모형
Autoregressive model) 


  
현 시점의 자료가 p 시점 전의 유한 개의 과거 자료로 설명될 수 있는 자료 
• AR(p) 모형이라고도 불림 
ex) 만약, 현 시점의 시계열 자료가 과거 1 시점 이전의 자료에만 영향을 받는 경우: AR(1) 모형
• 자기회귀모형은 현 시점의 시계열 자료에 몇 번째 전 자료까지 영향을 주는지 알아내는 데에 있음. 
• 자기회귀모형인지 판단하기 위한 함수: 자기상관함수(ACF)과 부분자기상관함수(PACF) 
   - 자기회귀모형에서 자기상관함수는 시차가 증가함에 따라 감소함
   - AR(p)모형에 대해, 부분자기상관함수는 p+1 시차 이후에 급격히 감소하여 절단된 형태

이동평균모형
MA 모형
• 현 시점의 자료를 유한 개의 백색 잡음의 선형결합으로 표현함 
• 항상 정상성을 만족하기에, 정상성에 대한 가정을 할 필요가 없음 
• MA(1) 모형: 같은 시점의 백색 잡음과 이전 시점의 백색잡음의 선형결합으로 구성 
• MA모형인지 판단하기 위한 함수: 자기상관함수(ACF)과 부분자기상관함수(PACF) 
   - MA(p) 모형에 대해, 자기상관함수는 p+1 시차 이후에 절단된 형태  
   - 부분자기상관함수는 시차에 대해 점차 감소하는 형태 
자기회귀누적
이동평균모형
(ARIMA 모형)
• 많은 시계열 자료가 ARIMA 모형을 따름
• 기본적으로 비정상 시계열 모형
   - 차분이나 변환을 통해, AR, MA, ARMA 모형으로 정상화할 수 있음 
• ARIMA(p,d,q) 모형
   - p: AR 모형과 관련이 있는 모수 
   - q: MA 모형과 관련이 있는 차수 
   - d: ARIMA에서 ARMA로 정상화할 때, 몇번 차분을 했는지를 의미 
• d = 0 인 경우, ARMA(p,q) 모형이라 불리며, 정상성을 만족 
• p = 0 인 경우, IMA(d,q) 모형
   - d 번 차분을 하면 MA(q) 모형이 됨 
• q = 0 인 경우, ARI(q,d) 모형 
   - d 번 차분을 하면, AR(p) 모형을 따르게 됨 
분해 시계열 • 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하느 방법 
• 주로 회귀분석적인 방법을 사용함 
• 시계열을 구성하는 4가지 요소 
(1) 추세 요인 (Trend Factor)
  - 자료의 그림을 그렸을 때, 나타나는 특정한 추세 요인 
(2) 계절 요인 (Seasonal Factor) 
  - 요일, 월, 각 분기 등 고정된 주기에 따라 자료가 변화하는 경우
(3) 순환 요인 (Cyclical Factor) 
  - 알려지지 않은 주기를 가지고 자료가 변화하는 경우 
  - 경계적 요인이나 자연적인 이가가 없이 알려지지 않은 주기를 가지고 변화하는 자료 
(4) 불규칙 요인 (Irregular Factor) 
  - 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인 

3. 실습

• 시계열 자료 형식: ts 
• 일반 데이터 셋을 시계열 자료 형식으로 변환하는 경우, ts 함수를 사용하면 됨 
• 자기상관함수: acf()
• 부분자기상관함수: pacf()

시계열 모형 R에서 사용되는 함수
자기회귀누적
이동평균모형
(ARIMA 모형)
diff 함수를 사용하여 차분(difference)함 
• forecast 패키지에 있는 auto.arima(): ARIMA 모형을 결정
• forecast(Nile.arima, h = 10)
  - 미래의 10개년도에 대한 예측
분해 시계열 • R에서 decompose 함수를 사용하면, 시계열 자료를 4가지 요인으로 분해할 수 있음 

 

728x90

댓글