자기 회귀 통합 이동 평균

Autoregressive integrated moving average

통계계량학, 특히 시계열 분석에서 자기 회귀 통합 이동 평균(ARIMA) 모델은 자기 회귀 이동 평균(ARMA) 모델의 일반화다. 이 두 모델은 모두 시계열 데이터에 적합하여 데이터를 더 잘 이해하거나 시계열의 미래 포인트를 예측한다(예측). ARIMA 모델은 데이터가 평균(분산/자동 이동성은 아님)의 관점에서 비역동성의 증거를 보여주는 경우에 적용되며, 여기서 초기 차이점 단계(모델의 "통합" 부분에 대응)를 한 번 이상 적용하여 평균함수의 비역동성(즉, 추세)[1]을 제거할 수 있다. 계절성이 시계열로 표시되면 계절 차이를[2] 적용하여 계절 성분을 제거할 수 있다. 월드의 분해 정리에 따르면 [3][4][5]ARMA 모델은 이론적으로 정규(예: 순전히 비결정론적인[5]) 광의 정지 시간 시리즈를 설명하기에 충분하므로, 우리는 ARMA 모델을 사용하기 전에, 예를 들어 차이점을 이용하여 정지 상태를 비정전 시간 시리즈로 만들도록 동기를 부여한다.[6] 시계열이 예측 가능한 하위 프로세스(순수 사인 또는 복합 값 지수 프로세스[4])를 포함하는 경우, 예측 가능한 구성요소는 계절 차이점에 의해 제거되도록 ARIMA 프레임워크에서 0이 아닌 주기적(즉 계절적) 구성요소로 처리된다.

ARIMA의 AR 부분은 관심의 진화하는 변수가 그 자체의 지연된 값(즉, 이전)에 따라 후퇴한다는 것을 나타낸다. MA 부분은 회귀오차가 실제로 과거 여러 시기에 동시적으로 발생한 오차항들의 선형 결합임을 나타낸다.[7] I("통합"의 경우)는 데이터 값이 해당 값과 이전 값 사이의 차이로 대체되었음을 나타낸다(그리고 이 차이점 처리 과정이 두 번 이상 수행되었을 수 있음). 이러한 각 형상의 목적은 모형이 데이터를 가능한 한 잘 적합시키도록 하는 것이다.

비계절 ARIMA 모델은 일반적으로 ARIMA(p,d,q)로 표시되며 여기서 모수 p,d,q는 비음수 정수, p는 자기 회귀 모델의 순서(시차 수), d는 차이점화 정도(데이터가 과거 값을 뺀 횟수), q는 이동 평균 모델의 순서다. 계절 ARIMA 모델은 일반적으로 ARIMA(p,d,q)(P,D,Q)m로 표시되며, 여기서 m은 각 계절의 기간 수를 가리키며, 대문자 P,D,Q는 ARIMA 모델의 계절 부분에 대한 자기 회귀, 차이점 및 이동 평균 항을 가리킨다.[8][2]

세 항 중 두 항이 0인 경우, 모델을 설명하는 약자에서 "AR", "I" 또는 "MA"를 삭제하여 0이 아닌 파라미터를 기반으로 모델을 참조할 수 있다. 예: ( 0 ) AR(1), 1, 0 ) I(1)이고 (0 {)은 MA(1)이다.

ARIMA 모델은 Box-Jenkins 접근법에 따라 추정할 수 있다.

정의

시계열 데이터 Xt 정수 색인이고 Xt 실제 숫자인 경우 ,) 모델은

또는 에 의해 동등하게

여기서 (는) 지연 연산자, i (는) 모델의 자기 회귀 부분의 매개변수, i{\ 은 이동 평균 부분의 매개변수,parameters t {\ 오차항이다. 오차항 은 일반적으로 평균이 0인 정규 분포에서 추출한 독립적이고 동일한 분포의 변수로 가정된다.

이제 다항식 - = 1 ) 에 다중성 d단위 루트1-가 있다고 합시다. 그러면 다음과 같이 다시 쓸 수 있다.

ARIMA(p,d,q) 프로세스는 이 다항식 인자화 특성을 p=p'-d로 표현하며, 다음과 같이 정의된다.

따라서 d 단위 루트를 갖는 자기 회귀 다항식을 갖는 ARMA(p+d,q) 공정의 특정 사례로 생각할 수 있다. (이 때문에 d > 0을 가진 ARIMA 모델에 의해 정확히 기술되는 공정은 광의 정지 상태일 수 없다.)

위의 내용은 다음과 같이 일반화할 수 있다.

이것은 드리프트 - i 을(를) 갖는 ARIMA(p,d,q) 프로세스를 정의한다

기타 특수 양식

자기 회귀 다항식의 인자를 위와 같은 인자로 명시적으로 식별하는 것은 다른 경우로 확장될 수 있으며, 첫째는 이동 평균 다항식에 적용하고 둘째는 다른 특수 인자를 포함할 수 있다. 예를 들어 모형에( - s) {\을 갖는 것은 기간 s의 비가역적 계절성을 모형에 포함하는 한 가지 방법이다. 이 인자는 기간 의 변화로 데이터를 다시 추출하는 효과가 있다. 또 다른 예로는 기간 2의 (비역적) 계절성을 포함하는 (- L + ) [clarification needed]가 있다 첫 번째 유형의 요인의 효과는 각 계절의 가치가 시간에 따라 별도로 드리프트되도록 하는 반면, 인접한 계절의 두 번째 유형의 값은 함께 이동한다.[clarification needed]

ARIMA 모델에서 적절한 요인의 식별과 명세는 추정할 전체 매개변수 수의 감소를 허용하는 동시에 논리와 경험이 제시해야 하는 행동 유형 모델에 부과할 수 있기 때문에 모델링에서 중요한 단계가 될 수 있다.

차이점 정리

고정 시계열의 속성은 시계열이 관측되는 시간에 따라 달라지지 않는다. 특히 넓은 의미의 정지 시간 시리즈의 경우 평균과 분산/자동 분산도는 시간이 지남에 따라 일정하게 유지된다. 통계에서의 차이점 분류는 평균적 의미(비정규적 추세를 제거하기 위해)에서 정지하도록 하기 위해 비정전적 시계열에 적용되는 변환이지만, 분산 또는 자기 분산성의 비정전성과는 아무런 관련이 없다. 마찬가지로 계절별 차이점을 계절별 시계열에 적용하여 계절별 성분을 제거한다. 신호 처리, 특히 푸리에 스펙트럼 분석 이론의 관점에서 추세는 비정전적 시계열의 스펙트럼에서 저주파 부분인 반면 계절은 그것의 스펙트럼에서 주기 주파수 부분인 것이다. 따라서 차이점화는 하이패스(, 로우 스톱) 필터와 계절적 차이를 빗 필터로 각각 작용하여 (시간영역에 직접 있는 것이 아니라) 스펙트럼 영역의 저주파 추세와 주기적 주파수 계절을 억제한다.[6] 이러한 관점은 차이점과 계절적 차이점의 철학, 수학, 힘, 단점을 설명한다.

데이터를 차이하기 위해 연속된 관측치 간의 차이를 계산한다. 수학적으로, 이것은 다음과 같이 보여진다.

차이점은 시계열 수준의 변화를 제거하여 추세와 계절성을 없애고 결과적으로 시계열의 평균을 안정시킨다.[6]

정지된 시계열을 얻기 위해 데이터를 두 번째로 차이해야 하는 경우가 있을 수 있으며, 이를 두 번째 순서 차이점이라고 한다.

또 다른 차이점 데이터 방법은 계절 차이점 분류인데, 관측치와 해당 관측치 사이의 차이를 계산하는 것이 포함된다(예: 1년). 이는 다음과 같이 표시된다.

차이점 데이터는 ARMA 모델의 추정에 사용된다.

잘 알려진 일부 특별한 경우는 자연적으로 발생하거나 다른 인기 예측 모델과 수학적으로 동등하다. 예를 들면 다음과 같다.

  • (0, 1, 0) 모델(또는 I(1) 모델)은 t= - + 에 의해 주어지며, 이는 단순히 무작위 보행일 뿐이다.
  • 있는(, ) t= c + X t - 1 + t displaystyle X_{t}=}+\는 표류된 임의의 보행이다.
  • ARIMA(0, 0, 0) 모델은 백색 노이즈 모델이다.
  • ARIMA(0, 1, 2) 모델은 감쇠 홀트의 모델이다.
  • 상수가 없는 ARIMA(0, 1, 1) 모델은 기본 지수 평활 모델이다.[9]
  • An ARIMA(0, 2, 2) model is given by — which is equivalent to Holt's linear method with additive errors, or double expon내분 [9]평활

순서 선택

순서 p와 q는 샘플 자기 상관 함수(ACF), 편 자기 상관 함수(PACF) 및/또는 확장 자기 상관 함수(EACF) 방법을 사용하여 결정할 수 있다.[10]

다른 대안으로는 AIC, BIC 등이 있다.[10] 비계절 ARIMA 모델의 순서를 결정하기 위해 유용한 기준은 AKAIke 정보 기준(AIC)이다. 라고 쓰여 있다.

여기서 L은 데이터의 우도, p는 자기 회귀 부분의 순서, q는 이동 평균 부분의 순서다. k는 ARIMA 모델의 절편을 나타낸다. AIC의 경우 k = 1이면 ARIMA 모델(c ≠ 0)에 절편이 있고, k = 0이면 ARIMA 모델(c = 0)에 절편이 없다.

ARIMA 모델에 대해 수정된 AIC는 다음과 같이 기록할 수 있다.

BIC(Bayesian Information Criteria)는 다음과 같이 쓸 수 있다.

목표는 좋은 모델에 대한 AIC, AICc 또는 BIC 값을 최소화하는 것이다. 조사 중인 모델의 범위에 대한 이러한 기준 중 하나의 값이 낮을수록 모형이 데이터에 더 잘 적합할 것이다. AIC와 BIC는 완전히 다른 두 목적으로 사용된다. AIC가 상황의 현실을 향해 모델들을 대략적으로 접근하려고 하는 반면, BIC는 완벽한 적합성을 찾으려고 노력한다. BIC 접근방식은 실생활의 복잡한 데이터에 완벽히 들어맞지 않기 때문에 종종 비판을 받지만, 그것은 AIC보다 더 많은 매개변수를 가진 모델에 더 많은 불이익을 주기 때문에 여전히 선택에 유용한 방법이다.

AICC는 ARIMA 모델을 동일한 차이점 순서와 비교하는 데만 사용할 수 있다. 차이점 순서가 다른 ARIMA의 경우 RMSE를 모델 비교에 사용할 수 있다.

계수 추정

ARIMA 모형을 사용한 예측

ARIMA 모델은 두 모델의 "캐스케이드"로 볼 수 있다. 첫 번째는 비역장적이다.

두 번째는 광폭 정지 상태일 때:

이제 자기 회귀 예측 방법의 일반화를 사용하여 프로세스 에 대한 예측을 할 수 있다

예측 간격

ARIMA 모형에 대한 예측 구간(예측 신뢰 구간)은 잔차가 상관 관계가 없고 정규 분포를 따른다는 가정에 기초한다. 이러한 가정 중 어느 하나라도 유지되지 않으면 예측 구간이 부정확할 수 있다. 이러한 이유로 연구자들은 예측 구간을 생성하기 전에 가정을 확인하기 위해 잔차의 ACF와 히스토그램을 표시한다.

95% forecast interval: , where is the variance of

= 매개 변수와 순서에 관계없이 모든 ARIMA 모델에 대해 T+ =

ARIMA(0,0,q)의 경우 = e + i= i- i.

[필요하다]

일반적으로 ARIMA 모델의 예측 간격은 예측 지평선이 증가함에 따라 증가한다.

변형 및 확장

ARIMA 모델에는 여러 가지 변형이 일반적으로 사용된다. 다중 시계열을 사용할 경우 를 벡터로 생각할 수 있으며 VARIMA 모델이 적절할 수 있다. 때로는 모델에서 계절적 효과가 의심되기도 한다. 이 경우 모델의 AR 또는 MA 부분의 순서를 늘리는 것보다 일반적으로 SARIMA(계절 ARIMA) 모델을 사용하는 것이 더 좋다고 간주된다.[11] 시계열의 장기 의존성이 의심되는 경우, d 매개변수는 자기 회귀 부분 통합 이동 평균 모델에서 정수가 아닌 값을 가질 수 있으며, 이를 FARIMA(Practal ARIMA 또는 ARFIMA) 모델이라고도 한다.

소프트웨어 구현

Box-Jenkins 매개변수 최적화처럼 방법론을 적용하는 다양한 패키지를 통해 ARIMA 모델에 적합한 매개변수를 찾을 수 있다.

  • EViews: 광범위한 ARIMA 및 SARIMA 기능을 가지고 있다.
  • Julia: TimeModels 패키지에[12] ARIMA 구현 포함
  • Mathematica: ARIMAProcess 함수를 포함한다.
  • MATLAB: Econometrics ToolboxARIMA 모델ARIMA 오류가 있는 회귀 분석을 포함한다.
  • NCSS: 다음과 같은 몇 가지 절차를 포함한다. ARIMA 적합성 [13][14][15]및 예측성
  • Python: "statsmodels" 패키지에는 시계열 분석 모델 – 일변량 시계열 분석: AR, ARIMA – 벡터 자기 회귀 모델, VAR 및 구조 VAR – 시계열 분석을 위한 기술 통계량 및 프로세스 모델이 포함되어 있다.
  • R: 표준 R 통계 패키지는 "시간 시리즈의 ARIMA 모델링"에 설명되어 있는 아리마 함수를 포함한다. , ,) 부분, 함수는 계절적 요인, 절편 용어 및 외생 변수(xreg, "외부 리제스터"라 함)도 포함한다. Time Series의 CRAN 태스크 뷰는 더 많은 링크가 있는 참조다. R "예측" 패키지는 다음과 같이 지정된 시계열에 대해 ARIMA 모델을 자동으로 선택할 수 있다. auto.arima() 기능 및 계절 및 비 계절 ARIMA 모델도 시뮬레이션할 수 있다. simulate.Arima() 기능을 [16]발휘하다
  • Ruby: "Statsample-timesies" 보석은 ARIMA 모델과 Kalman Filtering을 포함한 시계열 분석에 사용된다.
  • 자바스크립트: "아리마" 패키지에는 시계열 분석 및 예측 모델(ARIMA, SARIMA, SARIMAX, AutoARIMA)이 포함되어 있음
  • C: "ctsa" 패키지에는 ARIMA, SARIMA, SARIMAX, AutoARIMA 및 시계열 분석의 여러 방법이 포함된다.
  • SAFE TOOLBOXes: ARIMA 모델링ARIMA 오류가 있는 회귀 분석을 포함한다.
  • SAS: Econometric and Time Series Analysis 시스템: SAS/ETS에 광범위한 ARIMA 처리를 포함한다.
  • IBM SPSS: ARIMA 모델링을 Statistics and Modeler 통계 패키지에 포함. 기본 Expert Modeler 기능은 계절 및 비 계절적 자기 회귀(p), 통합(d) 및 이동 평균(q) 설정과 7가지 지수 평활 모델을 평가한다. Expert Modeler는 또한 목표 시계열 데이터를 제곱근 또는 자연 로그로 변환할 수 있다. 사용자는 Expert Modeler를 ARIMA 모델로 제한하거나, Expert Modeler 없이 수동으로 ARIMA 비시즌 및 계절 p, d, q 설정을 입력할 수도 있다. 7가지 유형의 특이치에 대해 자동 특이치 감지를 사용할 수 있으며, 이 기능을 선택하면 검출된 특이치가 시계열 모델에 수용된다.
  • SAP: SAPSAP ERP에 포함된 APO-FCS 패키지를[17] 통해 Box-Jenkins 방법론을 사용하여 ARIMA 모델을 생성하고 장착할 수 있다.
  • SQL Server Analysis Services: Microsoft에서 ARIMA를 데이터 마이닝 알고리즘으로 포함.
  • Stata는 Stata 9를 기준으로 ARIMA 모델링(그 아리마 명령 사용)을 포함한다.
  • StatSim: 예측 웹 앱에 ARIMA 모델을 포함.
  • Teradata Vantage는 기계 학습 엔진의 일부로 ARIMA 기능을 가지고 있다.
  • TOL(시간 지향 언어)은 ARIMA 모델(사리마, ARIMAX 및 DSARIMAX 변종 포함)을 모델링하도록 설계되었다 [1].
  • 스칼라: 스파크 타임리스 라이브러리에는 스칼라, 자바, 파이썬을 위한 ARIMA 구현이 포함되어 있다. 구현은 Apache Spark에서 실행되도록 설계되었다.
  • PostgreSQL/MadLib: 시계열 분석/ARIMA.
  • X-12-ARIMA: 미국 인구조사국 출신

참고 항목

참조

  1. ^ Stationparity 및 Differencing에 대한 자세한 내용은 https://www.otexts.org/fpp/8/1을 참조하십시오.
  2. ^ a b Hyndman, Rob J; Athanasopoulos, George. 8.9 Seasonal ARIMA models. Forecasting: principles and practice. oTexts. Retrieved 19 May 2015.
  3. ^ Hamilton, James (1994). Time Series Analysis. Princeton University Press. ISBN 9780691042893.
  4. ^ a b Papoulis, Athanasios (2002). Probability, Random Variables, and Stochastic processes. Tata McGraw-Hill Education.
  5. ^ a b Triacca, Umberto (19 Feb 2021). "The Wold Decomposition Theorem" (PDF).{{cite web}}: CS1 maint : url-status (링크)
  6. ^ a b c Wang, Shixiong; Li, Chongshou; Lim, Andrew (2019-12-18). "Why Are the ARIMA and SARIMA not Sufficient". arXiv:1904.07632 [stat.AP].
  7. ^ Box, George E. P. (2015). Time Series Analysis: Forecasting and Control. WILEY. ISBN 978-1-118-67502-1.
  8. ^ "Notation for ARIMA Models". Time Series Forecasting System. SAS Institute. Retrieved 19 May 2015.
  9. ^ a b "Introduction to ARIMA models". people.duke.edu. Retrieved 2016-06-05.
  10. ^ a b Missouri State University. "Model Specification, Time Series Analysis" (PDF).
  11. ^ Swain, S; et al. (2018). "Development of an ARIMA Model for Monthly Rainfall Forecasting over Khordha District, Odisha, India". Recent Findings in Intelligent Computing Techniques. Recent Findings in Intelligent Computing Techniques (Advances in Intelligent Systems and Computing. Advances in Intelligent Systems and Computing. Vol. 708. pp. 325–331). doi:10.1007/978-981-10-8636-6_34. ISBN 978-981-10-8635-9.
  12. ^ TimeModels.jl www.github.com
  13. ^ NCSS의 ARIMA,
  14. ^ NCSS의 자동 ARMA,
  15. ^ NCSS에서의 자기 상관 및 편 자기 상관
  16. ^ 8.7 ARIMA modelling in R OTexts. www.otexts.org. Retrieved 2016-05-12.
  17. ^ "Box Jenkins model". SAP. Retrieved 8 March 2013.

추가 읽기

외부 링크