선형 추세 추정
Linear trend estimation![]() |
선형 추세 추정은 데이터의 해석을 돕기 위한 통계 기법이다. 예를 들어 일련의 공정 측정을 시퀀스 또는 시계열로 취급하는 경우 추세 추정을 사용하여 측정값을 발생 시간과 연관시켜 데이터의 경향에 대한 진술을 만들고 정당화할 수 있다. 그런 다음 이 모델을 사용하여 관측된 데이터의 동작을 설명하지 않고 설명할 수 있다.
특히, 측정값이 무작위 행동과 통계적으로 구별되는 증가 또는 감소 추세를 보이는지 결정하는 것이 유용할 수 있다. 몇몇 예들은 겨울에서 여름까지 주어진 장소에서의 일 평균 기온의 추세를 결정하고, 지난 100년 동안의 지구 온도 시리즈의 추세를 결정하는 것이다. 후자의 경우, 동질성의 문제가 중요하다(예를 들어, 시리즈가 그 길이에 걸쳐 동등하게 신뢰할 수 있는지에 관한 것).
추세 적합: 최소 제곱
일련의 데이터와 그러한 데이터의 어떤 종류의 모델을 생산하고자 하는 욕구가 주어진다면, 적합을 위해 선택할 수 있는 다양한 기능들이 있다. 데이터에 대한 사전 이해가 없는 경우 가장 간단한 함수는 y축에 데이터 값이 있는 직선과 x축에 시간(t = 1, 2, 3, ...)이 있는 것이다.
일단 직선으로 맞추기로 결정되면 방법은 다양하지만 가장 일반적인 선택은 최소한의 직선으로 맞추는 것이다. 이 방법은 데이터 시리즈 y의 오차 제곱 합계를 최소화한다.
시간 및 시간 t에 대해 관측된 데이터 값 y y_}의 세트가 주어진 경우, b{\의 값이 선택되어 다음 작업을 수행할 수 있다.
최소화한다. 여기서 + b는 추세선이기 때문에 추세선으로부터의 편차 제곱의 합은 최소화되고 있는 것이다. 이것은 단순한 선형 회귀의 경우이기 때문에 항상 폐쇄적인 형태로 이루어질 수 있다.
이 글의 나머지 부분에 대해, "추세"는 이것이 일반적인 관습이기 때문에 최소 제곱 선의 기울기를 의미한다.
랜덤 데이터의 추세
실제 데이터의 추세를 고려하기 전에 무작위 데이터의 추세를 파악하는 것이 유용하다.
공정한 주사위가 떨어지거나 컴퓨터가 만들어낸 사이비 무작위 숫자 등 무작위로 알려진 시리즈를 분석하여 데이터를 통해 추세선이 적합된다면 정확히 0으로 추정된 추세의 가능성은 무시할 수 있다. 그러나 그 추세는 작을 것으로 예상된다. 관심 있는 데이터 시리즈의 관측된 분산과 동일한 소음의 특정 분산을 사용하는 시뮬레이션과 특정 길이(예: 100,000점)에서 개별 관측 시리즈가 생성되는 경우 그러한 시뮬레이션 시리즈(예: 100,000 시리즈)가 대량으로 생성될 수 있다. 이 10만 시리즈를 개별적으로 분석하여 각 시리즈에서 추정된 추세를 계산할 수 있으며, 이러한 결과는 그러한 무작위 데이터에서 예상되는 추정 추세의 분포를 확립한다(도표 참조). 그러한 분포는 병리학적 경우를 제외하고 중심 한계 정리에 따라 정상적일 것이다. 이제 통계적 확실성 수준 S가 선택될 수 있다 – 95% 신뢰가 일반적이다; 99%는 더 엄격하고 90%는 느슨하다 – 그리고 다음 질문을 받을 수 있다: -V와 +V 사이의 추세를 S%로 만드는 경계선 추세 값 V는 무엇인가?
위의 절차는 순열 테스트로 대체할 수 있다. 이를 위해, 10만 개의 생성된 시리즈 세트는 관측된 데이터 시리즈를 무작위로 섞어서 만든 10만 시리즈로 대체될 것이다. 분명히 그러한 구성된 시리즈는 추세 없는 것이 될 것이다. 따라서 이러한 시리즈는 시뮬레이션 데이터를 사용하여 경계선 추세 값 V와 -V를 생성하는 데 사용될 수 있다.
위의 논의에서 경향의 분포는 시뮬레이션에 의해 많은 수의 시험에서 계산되었다. 간단한 경우(일반적으로 분포된 무작위 노이즈가 고전적임) 추세 분포는 시뮬레이션 없이 정확하게 계산할 수 있다.
범위(-V, V)는 실제 데이터에서 추정된 추세가 실제로 제로 추세를 갖는 데이터 시리즈에서 왔을 가능성이 낮은지 여부를 결정하는 데 사용할 수 있다. 회귀 모수의 추정치 a가 이 범위를 벗어나면, 그러한 결과는 예를 들어 신뢰 값 S=95%를 사용한 경우 20개 중 1개만 참 제로 추세가 존재하는 경우에만 발생할 수 있었다. 이 경우, 우리는 확실성 S에서 참된 기초 트롤이라는 귀무 가설을 기각한다고 말할 수 있다.끝은 0이다.
그러나, 우리가 선택한 S의 값이 무엇이든, 그 다음에는 정말로 무작위 시리즈에 대한 주어진 분수인 1 - S가 중요한 추세를 갖도록 선언될 것이라는 점에 유의하십시오. 반대로, 실제로 0이 아닌 추세를 보이는 시리즈 중 특정 부분은 추세를 갖는 것으로 선언되지 않을 것이다.
트렌드로서의 데이터 + 노이즈
일련의 데이터를 분석하기 위해 추세 + 노이즈로 나타낼 수 있다고 가정한다.
서 및 은 (는) 알 수 없는 상수이고 은는) 랜덤하게 분포된 오류다. 오류가 역학적이지 않다는 귀무 가설을 거부할 수 있다면 역학적이지 않은 시리즈t {y }을(를) 추세 역학이라고 한다. 최소 제곱법은 오차가 정규 분포와 함께 독립적으로 분포된다고 가정한다. 그렇지 않은 경우, 알려지지 않은 모수 a와 b에 대한 가설 검정이 부정확할 수 있다. 의분포가 모두 동일한 경우 가장 간단하지만, 그렇지 않은 경우(일부 더 높은 분산을 갖는 경우, 해당 데이터 점이 효과적으로 덜 확실하다는 의미) 이 경우 최소 제곱 피팅 동안 각 점을 해당 점의 분산의 역순으로 가중치 지정하여 고려할 수 있다.
분석해야 할 시계열만 존재하는 대부분의 경우 e의분산은 추정된 매개 변수 값 b{\을(를) 얻기 위한 추세를 적합시켜 예측 값을 허용함으로써 추정한다.
데이터 데이터를 역추적)에서 빼서 e {\를 역추적 데이터로 남겨두고 e s의 분산을 추정하는 유일한 방법인 경우가 많다. s
일단 시리즈물의 "소음"을 알게 되면, 트렌드인 이가) 0과 다르지 않다는 귀무 가설을 만들어 추세의 중요성을 평가할 수 있다. 분산이 알려진 랜덤 데이터의 추세에 대한 위에서 논의한 결과, 랜덤(트렌드리스) 데이터에서 예상할 수 있는 계산된 추세의 분포를 알게 되었다. 추정된 추세인 이가) 특정 유의 수준 임계 값보다 크면 추정된 추세는 해당 유의 수준에서는 0과 유의하게 다른 것으로 간주되며, 근거 추세가 0이라는 귀무 가설은 기각된다.
선형 추세선의 사용은 비판의 대상이 되어 왔으며, 모델 추정에 선형 추세선이 사용되지 않도록 대체 접근법을 모색하게 되었다. 대안적 접근법 중 하나는 단위 뿌리 시험과 계량학 연구의 공동 통합 기법을 포함한다.
시간과 같은 선형 추세 변수와 연관된 추정 계수는 하나의 시간 단위에 걸쳐 알 수 없거나 알려져 있지만 측정할 수 없는 다수의 요인이 종속 변수에 미치는 영향을 측정한 것으로 해석된다. 엄밀히 말하면, 그 해석은 추정 기간에만 적용된다. 그 시간대를 벗어나면, 그 측정할 수 없는 요소들이 질적으로나 양적으로 어떻게 작용하는지 알 수 없다. 더욱이 시간 추세의 선형성은 많은 의문을 제기한다.
(i) 왜 선형이어야 하는가?
(ii) 추세가 비선형적인 경우, 어떤 조건에서 추세의 포함이 모델에 포함된 다른 모수의 추정치에 대한 통계적 유의성뿐만 아니라 규모에 영향을 미치는가?
(iii) 모형에 선형 시간 추세를 포함시키는 것은 시간에 따른 종속 변수의 경향의 변동의 존재를 가정하는 것을 배제한다. 이것은 반드시 특정한 맥락에서 유효한가?
(iv) 그리고 근본적인 원인 변수 자체가 시간 연장이기 때문에 모형에 거짓 관계가 존재하는가?
수학자, 통계학자, 계량학자, 경제학자들의 연구 결과가 그러한 질문에 대한 응답으로 발표되었다. 예를 들어, 회귀 모델에 선형 시간에 따른 변화의 의미에 대한 자세한 기록 카메론(2005년);[1]그레인저, 엥글과 많은 다른 econometricians 정상성, 단위 뿌리 시험, co-integration과 관련 문제에(어떤 이 지역에서의 요약서는 로얄 Swedis가 정보 paper[2]에서 발견될 수 없다 주어진다.hAca과학의 demy (2003); 그리고 Ho-Trieu & Tucker (1990)는 로그 시간 추세를 기록했으며, 선형 시간 추세가 사이클의 특별한 경우임을 나타내는 결과를 나타냈다.
예제: 노이즈가 많은 시계열
시끄러운 시계열에서 추세를 보는 것은 더 어렵다. 예를 들어, 실제 시리즈가 모두 0, 1, 2, 3이고 표준 편차 E의 일부 독립적 정규 분포 "소음" e를 더한 경우, 그리고 우리는 50 길이의 샘플 시리즈를 가지고 있다면, E = 0.1의 추세는 명백할 것이고, E = 100이면 추세는 아마도 보일 것이다, 그러나 E = 10000이면 추세는 소음 속에 묻힐 것이다.
구체적인 예를 들어 IPCC가 제시한 과거 140년의 지구 표면 온도 기록:[3] 연간 변동은 약 0.2°C이며, 140년 동안의 추세는 약 0.6°C이며, 95% 신뢰 한계는 0.2°C(우연, 연간 변동과 거의 동일한 값)이다. 따라서 이 추세는 통계적으로 0과 다르다. 그러나 다른 곳에서 지적한 바와 같이 이 시계열은 최소 제곱이 유효하기 위해 필요한 가정에 부합하지 않는다.
적합도(r-제곱) 및 추세
최소 제곱 적합 공정은 값 – r-제곱(r2) – 1 - 종속 변수의 분산에 대한 잔차 분산 비율을 뺀 값을 생성한다. 적합 추세선으로 설명되는 데이터의 분산 비율을 나타낸다. 이 값은 추세선의 통계적 유의성(그래프 참조)과 관련이 없으며 추세의 통계적 유의성은 t-통계학적 유의성에 의해 결정된다. 종종 시리즈를 필터링하면 r이2 증가하는 반면 적합된 추세에는 거의 차이가 없다.
실제 데이터에는 더 복잡한 모델이 필요할 수 있음
지금까지 데이터는 트렌드 + 노이즈로 구성되며, 각 데이터 지점의 노이즈가 독립적이고 동일하게 분포된 랜덤 변수 및 정규 분포를 갖는 것으로 가정되어 왔다. 실제 데이터(예: 기후 데이터)는 이러한 기준을 충족하지 못할 수 있다. 이것은 데이터 시리즈에서 최대 정보를 추출하기 위해 통계를 분석할 수 있는 용이성에 엄청난 차이를 만들기 때문에 중요하다. 독립 변수와 상관관계가 있는 다른 비선형 효과(주기적 영향 등)가 있는 경우 추세의 최소 제곱 추정치는 유효하지 않다. 또한 결과 직선 추세보다 편차가 현저히 큰 경우, 출발점과 종료점의 선택이 결과를 크게 바꿀 수 있다. 즉, 모델은 수학적으로 잘못 지정되어 있다. 통계적 추론(추세 존재에 대한 검정, 추세에 대한 신뢰 구간 등)은 다음과 같이 표준 가정으로부터의 이탈이 적절히 설명되지 않는 한 유효하지 않다.
- 의존성: 자기 회귀 이동 평균 모델을 사용하여 자기 상관 시계열을 모델링할 수 있다.
- 일정하지 않은 분산: 가장 단순한 경우 가중 최소 제곱을 사용할 수 있다.
- 오차에 대한 비정규 분포: 가장 단순한 경우 일반화된 선형 모형을 적용할 수 있다.
- 단위 루트: 다양한 단위 루트 테스트를 통해 차이점을 식별하면서 데이터의 차이를 1차(또는 2차)로 취한다.[4]
R에서 데이터의 선형 추세는 '예측' 패키지의 'tslm' 함수를 사용하여 추정할 수 있다.
임상 데이터의 추세
의학 및 생물의학 연구는 세 가지 다른 질병과 같은 데이터 집합의 연관성을 확인하려고 한다. 그러나 데이터는 시간(예: 기준선에서 1개월, 2개월까지 약물의 효과의 변화)에 따라 연결되거나 연구자 및/또는 연구자 및/또는 피험자에 의해 결정되거나 결정되지 않을 수 있는 외부 요인(예: 통증 없음, 가벼운 통증, 중간 통증, 심한 통증)에 의해 연결될 수 있다. 이러한 경우 효과 검정 통계량(예: 콜레스테롤 수준에 대한 스타틴의 영향, 통증 정도에 대한 진통제 또는 측정 가능한 지수에 대한 약물의 용량 증가)이 효과가 발생함에 따라 직접 순서로 변경될 것으로 예상할 수 있다. 스타틴 처방 전후의 평균 콜레스테롤 수치가 기준치의 5.6mmol/L에서 한 달에는 3.4mmol/L로, 두 달에는 3.7mmol/L로 떨어진다고 가정해 보자. 충분한 검정력을 고려하면, 분산 분석은 1개월과 2개월에 상당한 하락을 발견할 가능성이 높지만, 그 하락은 선형적이지 않다. 또한, 후두부 시험이 필요할 수 있다. 대체 테스트는 데이터의 특성에 따라 반복 측정(2방향) 분산 분석 또는 프리드먼 테스트가 될 수 있다. 그럼에도 불구하고, 그룹이 순서가 정해져 있기 때문에 표준 분산 분석은 부적절하다. 콜레스테롤이 5.4에서 4.1에서 3.7로 떨어지면 명확한 선형 추세가 나타난다. 뉴클레오티드 XX, XY, YY의 SNP가 사실상 Y가 없는 추세라고 주장할 수 있는 알레르/유전자형 주파수의 효과에 동일한 원리를 적용할 수 있다.
선형 추세 추정의 수학은 다른 정보를 제공하는 표준 분산 분석의 변형이며, 연구자들이 그들의 검정 통계량에 추세 효과를 가정하고 있다면 가장 적절한 검정이 될 것이다. 한 예로 [1]이(가) 10세까지(최대 60~69세) 정렬된 6개 대상 그룹의 혈청 트립신 수준을 들 수 있다. 트립신(ng/mL) 수준은 128, 152, 194, 207, 215, 218의 직접 선형 추세에서 상승한다. 놀랄 것도 없이, '표준' 분산 분석은 p < 0.0001을 제공하는 반면, 선형 추세 추정은 p = 0.00006을 나타낸다. 우발적으로, 연령은 자연적으로 연속적으로 가변적인 지수인 만큼, 그것은 수십 년으로 분류되어서는 안 되며, 상관관계가 추구하는 연령과 혈청 트립신의 효과(원시 데이터가 이용 가능하다고 가정함)를 합리적으로 주장할 수 있다. 다른 그룹의 4개 시점에서 측정한 물질의 추가 예: 평균 [SD](1) 1.6 [0.56], (2) 1.94 [0.75], (3) 2.22 [0.66], (4) 2.40 [0.79], 이것은 명백한 추세다. 분산 분석은 전체 분산이 평균을 초과하기 때문에 p = 0.091을 제공하는 반면, 선형 추세 추정은 p = 0.012를 제공한다. 단, 동일한 개인의 4개 시점에서 데이터를 수집한 경우 선형 추세 추정이 부적절하며, 이원(반복적 측정) 분산 분석이 적용된다.
참고 항목
메모들
- ^ "Making Regression More Useful II: Dummies and Trends" (PDF). Retrieved June 17, 2012.
- ^ "The Royal Swedish Academy of Sciences" (PDF). 8 October 2003. Retrieved June 17, 2012.
- ^ "IPCC Third Assessment Report – Climate Change 2001 – Complete online versions". Archived from the original on November 20, 2009. Retrieved June 17, 2012.
- ^ Forecasting: principles and practice. 20 September 2014. Retrieved May 17, 2015.
참조
- Bianchi, M.; Boyle, M.; Hollingsworth, D. (1999). "A comparison of methods for trend estimation". Applied Economics Letters. 6 (2): 103–109. doi:10.1080/135048599353726.
- Cameron, S. (2005). "Making Regression Analysis More Useful, II". Econometrics. Maidenhead: McGraw Hill Higher Education. pp. 171–198. ISBN 0077104285.
- Chatfield, C. (1993). "Calculating Interval Forecasts". Journal of Business and Economic Statistics. 11 (2): 121–135. doi:10.1080/07350015.1993.10509938.
- Ho-Trieu, N. L.; Tucker, J. (1990). "Another note on the use of a logarithmic time trend". Review of Marketing and Agricultural Economics. 58 (1): 89–90. DOI:10.22004/ag.econ.12288
- Kungl. Vetenskapsakademien (The Royal Swedish Academy of Sciences) (2003). "Time-series econometrics: Cointegration and autoregressive conditional heteroskedasticity". Advanced Information on the Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel.
- Arianos, S.; Carbone, A.; Turk, C. (2011). "Self-similarity of high-order moving averages". Physical Review E. 84 (4): 046113. doi:10.1103/physreve.84.046113. PMID 22181233.