단순 선형 회귀 분석
Simple linear regression시리즈의 일부 |
회귀 분석 |
---|
모델 |
견적 |
배경 |
통계학에서 단순 선형 회귀 분석은 단일 설명 [1][2][3][4][5]변수가 있는 선형 회귀 모형입니다.즉, 하나의 독립 변수와 하나의 종속 변수(일반적으로 데카르트 좌표계에서 x와 y 좌표)를 가진 2차원 표본 점을 다루고 독립 va의 함수로서 종속 변수 값을 가능한 정확하게 예측하는 선형 함수(비수직 직선)를 찾는다.형용사 단순은 결과 변수가 단일 예측 변수와 관련이 있다는 사실을 의미합니다.
통상 최소 제곱법(OLS)을 사용해야 한다는 추가 규정을 사용하는 것이 일반적입니다. 즉, 각 예측 값의 정확도는 잔차 제곱(데이터 집합의 점과 적합선 사이의 수직 거리)으로 측정되며, 목표는 이러한 제곱 편차의 합을 가능한 작게 만드는 것입니다.일반 최소 제곱 대신 사용할 수 있는 다른 회귀 방법으로는 최소 절대 편차(잔차의 절대값 합을 최소화함)와 테일-센 추정기(표본 점 쌍에 의해 결정되는 기울기의 중앙값인 선을 선택함)가 있다.디밍 회귀 분석(총 최소 제곱)은 2차원 표본 점 집합을 적합시키는 선도 찾지만 좌표를 하나의 종속 변수와 하나의 독립적 변동으로 분리하지 않기 때문에 (일반 최소 제곱, 최소 절대 편차 및 중위수 기울기 회귀 분석과 달리) 단순 선형 회귀 분석의 인스턴스가 아닙니다.수직선을 반환할 수 있습니다.
이 문서의 나머지 부분은 일반적인 최소 제곱법을 가정합니다.이 경우 적합선의 기울기는 이러한 변수의 표준 편차 비율에 의해 보정된 y와 x 사이의 상관 관계와 같습니다.적합선의 절편은 선이 데이터 점의 질량 중심(x, y)을 통과하도록 합니다.
회귀선 적합
모델 기능 고려
기울기 β 및 y-θα가 있는 선을 나타냅니다.일반적으로 이러한 관계는 독립 변수와 종속 변수의 값이 대부분 관측되지 않은 모집단에 대해서는 정확하게 유지되지 않을 수 있다. 우리는 위의 방정식으로부터의 관측되지 않은 편차를 오류라고 부른다.n개의 데이터 쌍을 관찰하고 {(xi, yi), i = 1, ..., n}이라고 합니다.이 에러항 by과 관련된 y와i x 사이의i 근본적인 관계를 다음과 같이 설명할 수 있습니다i.
참(그러나 관측되지 않은) 기본 매개변수 α와 β와 데이터 점 사이의 관계를 선형 회귀 모델이라고 한다.
목표는 데이터 포인트에 "최적"을 제공할 파라미터 α와β의 및 β를 찾는 것이다.도입부에서 언급한 바와 같이, 이 기사에서 "최상의" 적합은 최소 제곱 접근방식으로 이해될 것이다. 즉, 잔차 제곱의 합을 최소화하는 라인(오차와 잔차 ) ^ \ \ \i}(의존 변수의 실제 값과 예측 값 사이의 차이)각 파라미터 값은 임의의 후보 파라미터 \ (\displaystyle \displaystyle \
즉,α {\ β{\{\ {\은(는) 다음과 같은 최소화 문제를 해결합니다.
α와β에서 2차식을 얻도록 확장함으로써 목적함수 Q를 최소화하는α\와displaystyle 의 을 도출할 수 있다 { } { [6] :
여기에서는,
위의 표현은 α}) β^(\를 대체하여
수율
이는 r이 표준화된 데이터 점의 회귀선의 기울기이며 이 선이 원점을 통과한다는 것을xy 나타냅니다. y1 { 1}이므로 x가 일부 측정값이고 y가 같은 항목에서 후속 측정값인 경우 y(평균)가 x의 원래 값보다 평균 측정에 더 가까울 것으로 예상됩니다.이 현상은 평균으로의 퇴행으로 알려져 있다.
표기법을 일반화하면 식 위에 가로 막대를 써서 샘플 세트에 대한 해당 식 평균 값을 나타낼 수 있습니다.예를 들어 다음과 같습니다.
이 표기법을 사용하면 r:에 대한xy 간결한 공식을 얻을 수 있습니다.
결정 계수("R 제곱")는 모델이 단일 독립 변수와 선형일 때 y({와 .자세한 내용은 표본 상관 계수를 참조하십시오.
경사에 대한 직관
분자의 모든 합계에 :( - )) ( - x ) { ( _ { } - { \ { x } } } { ( x _ { } - { \ { x } }} =1 \ endaligned} (은 없습니다)
회귀선의 기울기(각도의 탕)는 (- y) ( - ) { {(의가중평균(각도의 탕)임을 알 수 있습니다. i- ) {{ {{ 점이 더 "중요하기 때문에 그 위치의 작은 오차가 중앙점과 연결되는 기울기에 더 영향을 미치기 때문입니다.
절편에 대한 직감
^ ( ) / y xβ^ {} = \ ( \ theta ) = / displaystyle \ dy = { \ widehat } { \ that} { \ that } { \ tan } } } with } θ {\ } } θ {\} } } θ
상관관계에 대한 직관
위의 공식에서 각 })는 상수("알려진 선행") 값이며 (\i})는(\i})의 선형함수 및 임의항 에 따라 달라집니다.이 가정은 기울기의 표준 오차를 도출하고 기울기가 치우치지 않음을 보여줄 때 사용됩니다.
이 프레임에서 })가 실제로 랜덤 변수가 아닌 경험적 x(\는 어떤 유형의 파라미터를 추정합니까?문제는 각 값에 대해 E ))라는 입니다.=i} r ( {\ x y {xy}의 가능한 은 xi {i}가 샘플의 x 값의 경험적 분포에서 도출된 랜덤 변수를 정의한다고 하는 입니다예를 들어 x의 자연수 값이 [1,2,3...,10]인 경우 x가 이산 균일한 분포라고 생각할 수 있습니다.이 해석에 따르면 })는 동일한 기대와 긍정적인 편차를 가지고 있습니다.이 해석에서는 r y를 랜덤 변수 y와 랜덤 변수 x 사이의 Pearson 상관 관계를 추정하는 것으로 생각할 수 있습니다.
절편 항이 없는 단순 선형 회귀 분석(단일 회귀 분석기)
x와 y가 비례하는 것으로 간주되므로 회귀선이 원점을 통과하도록 강제하는 것이 적절할 수 있습니다.절편 항이 없는 모델의 경우, y = βx, β에 대한 OLS 추정기는 다음과 같이 단순화된다.
(x, y) 대신 (x - h, y - k)를 대입하면 다음과 같은 과정을 통한 회귀를 얻을 수 있습니다.
여기서 Cov와 Var는 표본 데이터의 공분산 및 분산(편향에 대해 보정되지 않음)을 나타냅니다.
위의 마지막 형식은 선이 데이터 점의 질량 중심에서 멀어지면 기울기에 어떤 영향을 미치는지 보여줍니다.
수치 속성
- 모델에 절편 항이 포함되어 있는 경우(즉, 원점을 강제로 통과하지 않음) 회귀선은 질량 점의 ,, y {을 통과합니다.
- 모형에 절편 항이 포함된 경우 잔차의 합계는 0입니다.
- 잔차와 x 값은 상관 관계가 없습니다(모형에 절편 항이 있는지 여부). 즉, 다음과 같습니다.
- xy \ _ {xy ( 모집단의 상관계수)와의 모집단 분산 ( yy \ \_ {}^{} )의 관계와 \ style \ _ { }^의 오차항과의 관계)[7]: 401 는 다음과 같습니다.
- 극단값 y \ _ {의 경우 이는 자명합니다. x 0 { { 0 } 2 \ 2 _ { \ }^2} { _ { } = 2 = 0 . sty 0 2 2 display 2 2 、 0 、 0 display 2 =
모델 기반 속성
단순 선형 회귀 추정치에서 추정치의 통계적 특성을 설명하려면 통계적 모형을 사용해야 합니다.다음은 추정치가 최적인 모형의 타당성을 가정한 것이다.불균일성과 같은 다른 가정 하에서 특성을 평가할 수도 있지만, 이는 [clarification needed]다른 곳에서 논의된다.
편견이 없다
와는 편견이 없습니다
이 주장을 공식화하기 위해서는 이러한 추정치가 랜덤 변수인 프레임워크를 정의해야 한다.잔차 θ는i 평균이 0인 일부 분포와는 독립적으로 그려진 랜덤 변수로 간주합니다.즉, x의 각 값에 대해 평균 응답α + βx + 오차항이라고 불리는 부가 랜덤 변수θ로서 y의 대응하는 값이 평균 0과 같다.이러한 해석에 따르면 최소 제곱 α ^ ( 스타일 {\}) ^ 표시 {\widehat 자체는 "진정한 값" α 및 β와 평균이 같은 랜덤 변수가 된다.이것은 편향되지 않은 추정자의 정의입니다.
신뢰 구간
이전 절에서 설명한 공식으로 α와 β의 점 추정치, 즉 주어진 데이터 세트에 대한 회귀선의 계수를 계산할 수 있다. 이러한 공식에서는 추정치가 얼마나 정확한지 알 수 없습니다. 즉, {\ 및 (\style {\})가 지정된 표본 크기에 대해 샘플마다 얼마나 다른지 알 수 없습니다.신뢰 구간은 실험을 매우 많이 반복할 경우 가질 수 있는 추정치에 대한 타당한 값 집합을 제공하기 위해 고안되었습니다.
선형 회귀 계수에 대한 신뢰 구간을 구성하는 표준 방법은 정규성 가정에 의존하며, 다음과 같은 경우에 정당화됩니다.
- 회귀의 오차는 정규 분포를 따릅니다(이른바 고전 회귀 가정). 또는
- 관측치 수 n이 충분히 크므로 추정치가 근사적으로 정규 분포를 따릅니다.
후자의 경우는 중심 한계 정리에 의해 정당화된다.
정규성 가정
위의 첫 번째 가정에서는 오차항의 정규성 하에서 경사계수 추정기 자체는 평균β 및 분산θ 2 / - x )2, \로 정규 분포됩니다 여기서 오차항은 β의2 평균값이다.정규 최소 제곱을 포함하는 증명).동시에 잔차 Q의 제곱합은 β에2 비례하여 n - 2 자유도로 분포되며β { { \ } { \ 와는 으로 분포됩니다. 이를 통해 t-값을 구성할 수 있습니다.
어디에
는 β style {\의 표준 오차입니다.
이 t-값은 자유도가 n - 2인 학생 t-분포를 가집니다.이를 사용하여 β에 대한 신뢰 구간을 구성할 수 있다.
( - {\)에서 t n- 2 { t _ { n - 는 t 분포의n−2 ( 2) - at예를 들어, θ = 0.05이면 신뢰 수준은 95%입니다.
마찬가지로 절편계수α에 대한 신뢰구간은 다음과 같이 주어진다.
신뢰 수준(1 - ),), 여기서
α와 β에 대한 신뢰 구간은 이러한 회귀 계수가 어디에 있을 가능성이 가장 높은지 일반적인 개념을 제공한다.예를 들어, 여기에 표시된 Okun의 법칙 회귀 분석에서 점 추정치는 다음과 같습니다.
이러한 추정치에 대한 95% 신뢰 구간은 다음과 같습니다.
이 정보를 그래픽으로 표현하기 위해서는 회귀선 주위의 신뢰 대역의 형태로 신중하게 진행하여 추정치의 공동 분포를 고려해야 한다.신뢰 수준(1 - θ)에서 신뢰 대역은 다음 방정식에 의해 주어진 쌍곡선 형식을 갖는다는 것을[8] 보여줄 수 있다.
모델이 절편이 고정되고 0( \=이라고 가정할 때 기울기의 표준 오차는 다음과 같습니다.
: ^ - ^ { _ { } - { \ { { }
점근적 가정
대안적인 두 번째 가정은 데이터 집합의 점 수가 "충분히 크다"면 큰 숫자의 법칙과 중심 한계 정리가 적용되고 추정기의 분포가 거의 정규 분포를 따른다고 말한다.이 가정 하에서 이전 섹션에서 도출된 모든 공식은 유효하지만, 유일한 예외는 학생의 t 분포의 t*n−2가 표준 정규 분포의 q*로 대체된다는 것이다.때때로는 분수 .sfrac{white-space:nowrap}.mw-parser-output.sfrac.tion,.mw-parser-output.sfrac .tion{디스플레이:inline-block, vertical-align:-0.5em, font-size:85%;text-align:센터}.mw-parser-output.sfrac.num,.mw-parser-output.sfrac .den{디스플레이:블록, line-height:1em, 마진:00.1em}.mw-parser-output.sfrac .den{.mw-parser-output.Border-top:1px 고체}.mw-parser-output .sr-only{국경:0;클립:rect(0,0,0,0), 높이:1px, 마진:-1px, 오버 플로: 숨어 있었다. 패딩:0;위치:절대, 너비:1px}1/n−2 1/n로 대체됩니다.n이 클 경우 이러한 변경으로 인해 결과가 크게 달라지지 않는다.
수치 예시
이 데이터 세트는 30-39세의 미국 여성 표본에서 키에 대한 함수로 여성의 평균 질량을 제공한다.OLS 기사에서는 이 데이터에 대해 2차 회귀 분석을 실행하는 것이 더 적절하다고 주장하지만, 여기서는 단순 선형 회귀 모형을 대신 적용합니다.
높이(m), xi 1.47 1.50 1.52 1.55 1.57 1.60 1.63 1.65 1.68 1.70 1.73 1.75 1.78 1.80 1.83 질량i(kg), y 52.21 53.12 54.48 55.84 57.20 58.57 59.93 61.29 63.11 64.47 66.28 68.10 69.92 72.19 74.46
1 | 1.47 | 52.21 | 2.1609 | 76.7487 | 2725.8841 |
2 | 1.50 | 53.12 | 2.2500 | 79.6800 | 2821.7344 |
3 | 1.52 | 54.48 | 2.3104 | 82.8096 | 2968.0704 |
4 | 1.55 | 55.84 | 2.4025 | 86.5520 | 3118.1056 |
5 | 1.57 | 57.20 | 2.4649 | 89.8040 | 3271.8400 |
6 | 1.60 | 58.57 | 2.5600 | 93.7120 | 3430.4449 |
7 | 1.63 | 59.93 | 2.6569 | 97.6859 | 3591.6049 |
8 | 1.65 | 61.29 | 2.7225 | 101.1285 | 3756.4641 |
9 | 1.68 | 63.11 | 2.8224 | 106.0248 | 3982.8721 |
10 | 1.70 | 64.47 | 2.8900 | 109.5990 | 4156.3809 |
11 | 1.73 | 66.28 | 2.9929 | 114.6644 | 4393.0384 |
12 | 1.75 | 68.10 | 3.0625 | 119.1750 | 4637.6100 |
13 | 1.78 | 69.92 | 3.1684 | 124.4576 | 4888.8064 |
14 | 1.80 | 72.19 | 3.2400 | 129.9420 | 5211.3961 |
15 | 1.83 | 74.46 | 3.3489 | 136.2618 | 5544.2916 |
24.76 | 931.17 | 41.0532 | 1548.2453 | 58498.5439 |
이 데이터 집합에는 n = 15개의 점이 있습니다.손 계산은 다음 5개의 합계를 찾는 것으로 시작됩니다.
이 수량은 회귀 계수의 추정치와 해당 표준 오차를 계산하는 데 사용됩니다.
자유도가 13인 학생의 t-분포의 0.975 분위수는 t*13 = 2.1604이며, 따라서 α와 β에 대한 95% 신뢰 구간은 다음과 같다.
곱-순간 상관 계수도 계산할 수 있습니다.
「 」를 참조해 주세요.
- 설계 매트릭스 #심플한 선형 회귀 분석
- 라인 피팅
- 선형 추세 추정
- 선형 세그먼트 회귀 분석
- 통상 최소 제곱을 포함하는 증명 - 이 기사에서 사용되는 일반적인 다차원 사례의 모든 공식의 도출
레퍼런스
- ^ Seltman, Howard J. (2008-09-08). Experimental Design and Analysis (PDF). p. 227.
- ^ "Statistical Sampling and Regression: Simple Linear Regression". Columbia University. Retrieved 2016-10-17.
When one independent variable is used in a regression, it is called a simple regression;(...)
- ^ Lane, David M. Introduction to Statistics (PDF). p. 462.
- ^ Zou KH; Tuncali K; Silverman SG (2003). "Correlation and simple linear regression". Radiology. 227 (3): 617–22. doi:10.1148/radiol.2273011499. ISSN 0033-8419. OCLC 110941167. PMID 12773666.
- ^ Altman, Naomi; Krzywinski, Martin (2015). "Simple linear regression". Nature Methods. 12 (11): 999–1000. doi:10.1038/nmeth.3627. ISSN 1548-7091. OCLC 5912005539. PMID 26824102.
- ^ Kenney, J. F.와 Keeping, E. S. (1962) "선형 회귀와 상관"통계의 수학 제15장, 제1부, 제3판프린스턴, 뉴저지 주: 반 노스트랜드, 페이지 252–285
- ^ 발리안트, 리처드, 질 에이데버, 그리고 크로이터 부인.조사 샘플을 설계하고 가중치를 부여하기 위한 실용적인 도구.뉴욕: Springer, 2013.
- ^ Casella, G. and Berger, R. L. (2002), "통계적 추론" (제2판), Cengage, ISBN 978-0-534-24312-8, 페이지 558-559.