다항식 회귀 분석
Polynomial regression다음에 대한 시리즈 일부 |
회귀분석 |
---|
모델 |
추정 |
배경 |
통계에서 다항식 회귀 분석은 독립 변수 x와 종속 변수 y의 관계를 x의 n차 다항식으로 모델링하는 회귀 분석의 한 형태다. 다항식 회귀 분석은 x의 값과 E(y)로 표시된 y의 해당 조건부 평균 사이의 비선형 관계를 적합시킨다. 다항식 회귀 분석이 데이터에 비선형 모형을 적합시키지만 통계적 추정 문제로서 회귀 함수 E(y x)가 데이터에서 추정된 알 수 없는 모수에 선형이라는 점에서 선형이다. 이러한 이유로 다항식 회귀는 다중 선형 회귀의 특수한 경우로 간주된다.
"baseline" 변수의 다항식 확장에 따른 설명(독립적) 변수를 고차 항이라고 한다. 이러한 변수는 분류 설정에도 사용된다.[1]
역사
다항식 회귀 모형은 일반적으로 최소 제곱법을 사용하여 적합된다. 최소 제곱법은 Gauss-Markov 정리의 조건에서 계수의 편향되지 않은 추정기의 분산을 최소화한다. 최소 제곱법은 1805년에 레전드레가, 1809년에 가우스가 발표했다. 다항식 회귀 분석을 위한 실험의 첫 번째 설계는 게르곤느의 1815년 논문에서 나타났다.[2][3] 20세기에 다항식 회귀는 회귀분석의 발전에 중요한 역할을 하였으며, 설계와 추론 문제를 더욱 강조하였다.[4] 보다 최근에는 다항식 모델의 사용이 다른 방법으로 보완되어 일부 문제 등급에 대한 이점을 가지고 있다.[citation needed]
정의 및 예제
회귀 분석의 목적은 독립 변수(또는 독립 변수의 벡터) x의 값 측면에서 종속 변수 y의 기대값을 모형화하는 것이다. 단순 선형 회귀 분석에서 모형
여기서 ε은 스칼라 변수 x에서 평균 0이 조건화된 관측되지 않은 랜덤 오차임. 이 모델에서, x의 값에서 각 단위 증가에 대해, y의 조건부 기대치는 β1 단위로 증가한다.
많은 설정에서 그러한 선형 관계는 유지되지 않을 수 있다. 예를 들어, 합성이 이루어지는 온도 측면에서 화학 합성의 수율을 모델링하는 경우, 각 단위 온도 상승에 대한 양을 증가시킴으로써 수율이 개선되는 것을 발견할 수 있다. 이 경우, 우리는 이차적 형태의 모델을 제안할 수 있다.
이 모델에서 온도가 x에서 x + 1 단위로 증가하면 기대 수율이 + 2 x+ ). 이 방정식에서 x+1로 대체하고 x의 방정식을 빼면 알 수 있다. x의 극히 미미한 변경의 경우, y에 대한 영향은 x: + . 에 대한 총 파생상품에 의해 주어진다. 수율의 변화가 x에 의존한다는 사실은 모형이 추정할 모수의 선형임에도 불구하고 x와 y의 관계를 비선형적으로 만드는 것이다.
일반적으로 y의 기대값을 일반 다항식 회귀 모형을 산출하여 n차 다항식으로 모형화할 수 있다.
회귀함수는 알 수 없는 파라미터 β0, β1, β, ....의 측면에서 선형이기 때문에 이러한 모델은 모두 추정의 관점에서 선형이다. 따라서 최소 제곱 분석의 경우 다중 회귀 분석 기법을 사용하여 다항식 회귀 분석의 계산 및 추론 문제를 완전히 해결할 수 있다. 이는 다중 회귀 모형에서 x, x2, ...를 구별되는 독립 변수로 처리함으로써 이루어진다.
행렬 형식 및 추정치 계산
다항식 회귀 모형
설계 행렬 반응 y →{\{\{\beta}}, 파라미터 β→ 벡터 → {\vec 등의 랜덤 오류로 행렬 형태로 표현할 수 있다. 및 → 의 i번째 행에는 i번째 데이터 샘플에 대한 x 및 y 값이 포함됩니다. 그런 다음 모델은 다음과 같은 선형 방정식의 시스템으로 기록될 수 있다.
순수 행렬 표기법을 사용할 때
추정 다항식 회귀 계수의 벡터(일반 최소 제곱 추정 사용)는
매트릭스에 필요한 m < n을 변위할 수 없다고 가정하고, 이(가) Vandermonde 행렬이므로 x {\ 값이 구별되는 경우 변위 조건이 유지되도록 보장된다. 이것은 독특한 최소 제곱법이다.
해석
다항식 회귀는 기술적으로 다중 선형 회귀의 특별한 경우지만 적합된 다항식 회귀 모형의 해석에는 다소 다른 관점이 필요하다. 기초적인 단항은 높은 상관관계를 가질 수 있기 때문에 다항식 회귀 적합치에서 개별 계수를 해석하는 것은 종종 어렵다. 예를 들어 x와 x는2 x가 구간(0, 1)에 균일하게 분포하는 경우 0.97 주위에 상관관계가 있다. 직교 다항식을 사용하여 상관 관계를 줄일 수 있지만 일반적으로 적합 회귀 함수를 전체적으로 고려하는 것이 더 유용하다. 그런 다음 회귀함수의 추정치에 불확실성을 감지하기 위해 점 또는 동시 신뢰 밴드를 사용할 수 있다.
대체 접근 방식
다항식 회귀 분석은 두 수량 사이의 함수 관계를 모형화하기 위해 기본 함수를 사용하는 회귀 분석의 한 예다. More specifically, it replaces in linear regression with polynomial basis , e.g. 다항식 베이스의 단점은 기본 함수가 "비로컬"이라는 것인데, 이는 주어진 값 x = x에서0 y의 적합치는 x가0 x와 멀리 있는 데이터 값에 강하게 의존한다는 것을 의미한다.[5] 현대 통계에서 다항식 기초 기능은 스플라인, 방사형 기초함수, 파장 등의 새로운 기초함수와 함께 사용된다. 이러한 기본 함수의 제품군은 많은 유형의 데이터에 대해 보다 가차없이 적합하다.
다항식 회귀 분석의 목적은 독립 변수와 종속 변수 사이의 비선형 관계(기술적으로, 종속 변수의 독립 변수와 조건부 평균 사이의 관계)를 모형화하는 것이다. 이는 비선형 회귀 관계를 포착하려는 비모수적 회귀 분석의 목표와 유사하다. 따라서 평활화와 같은 비모수 회귀 접근법은 다항식 회귀 분석의 유용한 대안이 될 수 있다. 이러한 방법 중 일부는 국부적인 형태의 고전 다항식 회귀법을 사용한다.[6] 전통적인 다항식 회귀 분석의 장점은 다중 회귀 분석의 추론적 프레임워크를 사용할 수 있다는 것이다(이것은 스플라인과 같은 기본 함수의 다른 패밀리를 사용할 때도 유지된다).
최종 대안은 다항식 커널에 지원 벡터 회귀 분석과 같은 커널화된 모델을 사용하는 것이다.
잔차가 분산이 같지 않으면 가중 최소 제곱 추정기를 사용하여 이를 설명할 수 있다.[7]
참고 항목
메모들
- Microsoft Excel은 X Y 산점도의 데이터 점에 추세선을 적합시킬 때 다항식 회귀 분석을 사용한다.[8]
참조
- ^ Yin-Wen Chang; Cho-Jui Hsieh; Kai-Wei Chang; Michael Ringgaard; Chih-Jen Lin (2010). "Training and testing low-degree polynomial data mappings via linear SVM". Journal of Machine Learning Research. 11: 1471–1490.
- ^ Gergonne, J. D. (November 1974) [1815]. "The application of the method of least squares to the interpolation of sequences". Historia Mathematica (Translated by Ralph St. John and S. M. Stigler from the 1815 French ed.). 1 (4): 439–447. doi:10.1016/0315-0860(74)90034-2.
- ^ Stigler, Stephen M. (November 1974). "Gergonne's 1815 paper on the design and analysis of polynomial regression experiments". Historia Mathematica. 1 (4): 431–439. doi:10.1016/0315-0860(74)90033-0.
- ^ Smith, Kirstine (1918). "On the Standard Deviations of Adjusted and Interpolated Values of an Observed Polynomial Function and its Constants and the Guidance They Give Towards a Proper Choice of the Distribution of the Observations". Biometrika. 12 (1/2): 1–85. doi:10.2307/2331929. JSTOR 2331929.
{{cite journal}}
: 외부 링크 위치
(도움말)author=
- ^ 이러한 "비로컬" 행동은 (어디서나) 일정하지 않은 분석 기능의 속성이다. 이와 같은 "현지적이지 않은" 행동은 통계에서 광범위하게 논의되어 왔다.
- Magee, Lonnie (1998). "Nonlocal Behavior in Polynomial Regressions". The American Statistician. 52 (1): 20–22. doi:10.2307/2685560. JSTOR 2685560.
- ^ Fan, Jianqing (1996). Local Polynomial Modelling and Its Applications: From linear regression to nonlinear regression. Monographs on Statistics and Applied Probability. Chapman & Hall/CRC. ISBN 978-0-412-98321-4.
- ^ Conte, S.D.; De Boor, C. (2018). Elementary Numerical Analysis: An Algorithmic Approach. Classics in Applied Mathematics. Society for Industrial and Applied Mathematics (SIAM, 3600 Market Street, Floor 6, Philadelphia, PA 19104). p. 259. ISBN 978-1-61197-520-8. Retrieved 2020-08-28.
- ^ Stevenson, Christopher. "Tutorial: Polynomial Regression in Excel". facultystaff.richmond.edu. Retrieved 22 January 2017.
외부 링크
- Curve Fitting, PhET Interactive 시뮬레이션, 콜로라도 대학교 볼더