비선형 최소 제곱
Non-linear least squares다음에 대한 시리즈 일부 |
회귀분석 |
---|
모델 |
추정 |
배경 |
비선형 최소 제곱은 n개의 알 수 없는 모수(m ≥ n)에서 비선형인 모형으로 m 관측치 집합을 적합시키는 데 사용되는 최소 제곱 분석의 형태다. 그것은 비선형 회귀 분석의 어떤 형태로 사용된다. 이 방법의 기본은 선형 모형으로 근사하고 연속적인 반복에 의해 모수를 정제하는 것이다. 선형 최소 제곱과 많은 유사점이 있지만, 일부 유의한 차이도 있다. 경제 이론에서 비선형 최소 제곱법은 (i) 프로빗 회귀, (ii) 분계점 회귀, (iii) 매끄러운 회귀, (iv) 로지스틱 링크 회귀, (v) Box-Cox 변환 리제스터(( x, )= 1+ 2 ( ) 디스플레이 스타일 m(x,\에 적용된다.
이론
Consider a set of data points, and a curve (model function) that in addition to the variable also depends on parameters, with It is desired to find the vector of pa곡선이 주어진 데이터를 최소 제곱의 의미, 즉 제곱합에 가장 잘 적합하도록 래미터
최소화된 경우, 잔차(반복 내 예측 오류) r은i
= ,, . 에 대해
S의 최소값은 그라데이션이 0일 때 발생한다. 모형에 모수가 n개 포함되어 있으므로 구배 방정식은 n개 있다.
비선형 시스템에서 파생상품 r partial r_{i}}{\는 독립변수와 매개변수 모두의 함수이므로 일반적으로 이러한 구배 방정식은 닫힌 해법이 없다. 대신 파라미터에 대해 초기 값을 선택해야 한다. 그런 다음, 매개변수를 반복적으로 정제한다. 즉, 값은 연속적인 근사치를 통해 얻는다.
여기서 k는 반복수로 증분 벡터 을(를) 시프트 벡터라고 한다. 각 반복마다 모델은 k 에 대한 1차 Taylor 다항식 확장에 근사치로 선형화된다.
자코비안 J는 상수, 독립 변수, 파라미터의 함수여서 한 반복에서 다음 반복으로 바뀐다. 따라서, 선형화된 모형의 관점에서,
그리고 잔차는 다음에 의해 주어진다.
이러한 표현들을 구배 방정식으로 대체하면, 그들은 다음과 같이 된다.
다시 정렬할 때 n개의 동시 선형 방정식이 되고, 정규 방정식이 된다.
정규 방정식은 행렬 표기법으로 다음과 같이 기록된다.
이러한 방정식은 비선형 최소 제곱 문제에 대한 가우스-뉴턴 알고리즘의 기초를 형성한다.
Jacobian 매트릭스의 정의에 있는 기호 규약을 파생상품의 관점에서 기록해 두십시오. 의 수식은 다른 기사 또는 문헌에서- 의 인자로 나타날 수 있다.
가중치에 의한 확장
관측치가 동등하게 신뢰할 수 없는 경우 가중 제곱합을 최소화할 수 있다.
대각선 중량 매트릭스 W의 각 요소는 이상적으로는 측정의 오차 분산의 역수와 같아야 한다.[1] 정상 방정식은 보다 일반적으로
기하학적 해석
선형 최소 제곱에서 목표 함수 S는 모수의 2차 함수다.
매개변수가 하나만 있는 경우 해당 매개변수에 대한 S의 그래프는 포물선이 될 것이다. 두 개 이상의 파라미터와 함께 모든 파라미터 쌍에 대한 S의 등고선은 동심 타원이 될 것이다(정상 방정식 X T 이(가) 양정확정이라고 가정). 최소 매개변수 값은 타원 중심에서 찾아야 한다. 일반 목적함수의 기하학은 파라볼로이드 타원형이라고 설명할 수 있다. NLLSQ에서 목표 함수는 최소 값에 가까운 지역에서만 매개변수에 대해 2차적이며, 여기서 잘린 테일러 시리즈는 모형에 대한 좋은 근사치가 된다.
모수 값이 최적값과 다를수록 등고선은 타원형 모양에서 더 많이 벗어나게 된다. 그 결과 초기 모수 추정치는 (알 수 없는) 최적 값에 실무적으로 가능한 한 근접해야 한다. 또한 목표함수가 매개변수에서 약 2차일 때에만 가우스-뉴턴 알고리즘이 수렴되기 때문에 어떻게 분리가 발생할 수 있는지 설명한다.
연산
초기 모수 추정치
일부 문제점은 최적 값에 근접한 초기 모수 추정치를 찾아 교정할 수 있다. 이것을 하기 위한 좋은 방법은 컴퓨터 시뮬레이션이다. 관측된 데이터와 계산된 데이터가 모두 화면에 표시된다. 모형의 매개변수는 관측 데이터와 계산된 데이터 사이의 합치가 합리적으로 양호할 때까지 손으로 조정한다. 이것은 주관적인 판단이 되겠지만, 비선형적인 정교함의 좋은 출발점을 찾기에 충분하다. 초기 모수 추정치는 변환 또는 선형화를 사용하여 생성할 수 있다. 확률적 깔때기 알고리즘과 같은 더 나은 정적인 진화 알고리즘은 최적의 모수 추정치를 둘러싸고 있는 유인의 볼록한 분지로 이어질 수 있다. 무작위화와 엘리트주의를 사용하는 하이브리드 알고리즘, 그리고 뉴턴 방법이 유용하고 계산적으로 효율적인 것으로 나타났다.
해결책
아래에 기술된 방법 중 어떤 방법이라도 적용하여 해결책을 찾을 수 있다.
수렴기준
수렴에 대한 상식 기준은 제곱합이 한 반복에서 다음 반복으로 감소하지 않는다는 것이다. 그러나 이 기준은 여러 가지 이유로 실무에서 시행하기 어려운 경우가 많다. 유용한 수렴 기준은 다음과 같다.
0.0001 값은 다소 임의적이므로 변경이 필요할 수 있다. 특히 실험 오차가 클 경우 증가시킬 필요가 있을 수 있다. 대안적인 기준은
다시, 숫자 값은 다소 임의적이다; 0.001은 각 파라미터를 0.1% 정밀도로 정제해야 한다는 것을 명시하는 것과 같다. 이것은 매개변수의 최대 상대 표준 편차보다 작을 때 합리적이다.
수치 근사치에 의한 자코비안 계산
Jacobian의 요소들에 대한 분석적 표현을 도출하는 것이 매우 어렵거나 심지어 불가능한 모델들이 있다. 그 다음, 숫자 근사치
is obtained by calculation of for and . The increment,, size should be chosen so the numerical d소거 오류는 너무 커서 근사 오차를 일으키거나 너무 작아서 반올림 오차를 일으키지 않는다.
모수 오차, 신뢰 한계, 잔차 등
일부 정보는 선형 최소 제곱 페이지의 해당 섹션에 제공된다.
다중 미니마
다중 미니마는 다음과 같은 다양한 상황에서 발생할 수 있다.
- 파라미터는 2개 이상의 파워로 상승한다. 예를 들어 데이터를 로렌츠 곡선에 적합시키는 경우
여기서 은 높이,α {\}은(는) 위치, 은(는) 절반 높이에서 절반 너비인 과는)β^ {\ -hat}에 대한 두 가지 솔루션이 있으며, 동일한 옵션을 제공한다.목표 함수의 이미 값.
- 모델 값을 변경하지 않고 두 파라미터를 상호 교환할 수 있다. 이(가) 과(와) 동일한 값을 제공하기 때문에 단순한 예가 두 파라미터의 곱을 포함하는 것이다
- 파라미터는 β β 과 같은 삼각함수에 있으며,+ }}에 동일한 값을 가지고 있다 예는 Levenberg-Marquardt 알고리즘을 참조하십시오.
모든 다중 미니마가 목표 함수의 동일한 값을 갖는 것은 아니다. 로컬 미니마라고도 알려진 거짓 미니마는 목표 함수 값이 소위 글로벌 최소값에서 값보다 클 때 발생한다. 발견된 최소값이 전지구적 최소치임을 확실히 하기 위해서는 매개변수의 초기값이 크게 다른 상태에서 정밀화를 시작해야 한다. 출발점과 상관없이 동일한 최소값이 발견되면 글로벌 최소치가 될 가능성이 높다.
다중 미니마가 존재할 때 중요한 결과가 있다: 목표 함수는 2미니마 사이의 최대값을 가질 것이다. 정규 방정식 행렬은 구배가 0이고 고유한 하강 방향이 존재하지 않기 때문에 객관적 함수에서 최대치로 양정식이 아니다. 최대치에 가까운 점(매개 변수 값 집합)으로부터의 정교함은 조건이 좋지 않으므로 출발점으로 삼지 않아야 한다. 예를 들어 로렌츠안을 적합시킬 때 밴드의 절반 너비가 0일 때 정규 방정식 행렬은 양수가 확실하지 않다.[2]
선형 모델로 변환
비선형 모델은 때때로 선형 모델로 변형될 수 있다. 예를 들어, 모형이 단순 지수 함수인 경우,
그것은 로그들을 취함으로써 선형 모델로 변형될 수 있다.
그래픽적으로 이것은 세미로그 플롯에서 작업하는 것과 일치한다. 제곱합이 된다.
오차가 곱하고 로그가 정규적으로 분산되지 않는 한 이 절차는 피해야 한다. 왜냐하면 오해가 발생할 수 있기 때문이다. 이는 y에 대한 실험 오류가 무엇이든 로그 y에 대한 오류가 다르다는 사실에서 비롯된다. 따라서 변환된 제곱합을 최소화할 때 모수 값과 계산된 표준 편차에 대해 서로 다른 결과를 얻는다. 그러나 로그 정규 분포를 따르는 곱셈 오류의 경우 이 절차에서는 편향되지 않고 일관된 모수 추정치를 제공한다.
다른 예는 Michaelis-Menten 운동학에서 제공되며 과 같은 두 파라미터 V {\max}와 을 결정하는 데 사용된다
- = [ S +[ S
of against is linear in the parameters and , but very sensitive to data error and strongly biased toward fitting 독립 변수[ 의 특정 범위에 있는 데이터
알고리즘
가우스-뉴턴 방식
정규 방정식
Δ 에 대해 선형 최소 제곱에 설명된 바와 같이 Cholesky 분해에 의해 해결될 수 있다. 매개변수가 반복적으로 업데이트됨
여기서 k는 반복 번호다. 이 방법은 단순한 모델에 적합할 수 있지만, 분기가 발생하면 실패할 것이다. 그러므로, 다양성에 대한 보호는 필수적이다.
시프트 커팅
분산이 발생하면, 간단한 편법은 시프트 벡터 의 길이를 소수, F로 줄이는 것이다.
예를 들어, 목표함수의 새로운 값이 마지막 반복에서 그것의 값보다 작을 때까지 시프트 벡터의 길이는 연속적으로 반감될 수 있다. 분율, f는 선 검색으로 최적화될 수 있다.[3] f의 각 평가판 값은 객관적 함수를 다시 계산하도록 요구하기 때문에 그 값을 너무 끈기 있게 최적화할 가치가 없다.
시프트 커팅을 사용할 때 시프트 벡터의 방향은 변하지 않는다. 이로써 시프트 벡터의 방향이 매개변수 . {\{\boldsymbol {\에서 대략 2차적이었던 경우에 해당될 수 있는 상황까지 방법의 적용가능성을 제한한다.
마르콰르트 매개변수
분산이 발생하고 시프트 벡터의 방향이 "이상적인" 방향에서 너무 멀리 떨어져 있어 시프트 컷팅이 별로 효과적이지 않다면, 즉, 분산을 피하기 위해 필요한 분율인 f가 매우 작기 때문에 방향을 변경해야 한다. 이것은 Marquardt 파라미터를 사용하여 달성할 수 있다.[4] 이 방법에서는 정규 방정식을 수정한다.
여기서 은(는) Marquardt 매개 변수, 나는 ID 매트릭스다. 의 값을 늘리면 시프트 벡터의 방향과 길이가 모두 바뀌는 효과가 있다. 시프트 벡터는 가장 가파른 하강 방향으로 회전한다.
- J , (/ .
은(는) 가장 가파른 하강 벡터다. 그래서 이(가) 매우 커지면 시프트 벡터는 가장 가파른 하강 벡터의 작은 부분이 된다.
마르콰르트 매개변수의 결정을 위한 다양한 전략이 제안되었다. 시프트 컷팅과 마찬가지로 이 파라미터를 너무 끈기 있게 최적화하는 것은 낭비다. 오히려 목표함수의 값 감소를 가져오는 값이 발견되면 매개변수의 값은 다음 반복으로 이동하거나, 가능하면 감소시키거나, 필요할 경우 증가시킨다. Marquardt 매개변수의 값을 줄일 때, 0으로 설정하는 것이 안전한 컷오프 값, 즉 수정되지 않은 Gauss-Newton 방법으로 계속하는 것이 안전하다. 컷오프 값은 Jacobian의 최소 단수 값과 같게 설정할 수 있다.[5] 이 값에 대한 바운드는 / ( W) - 1 1로 지정된다.[6]
QR 분해
정사각형 합계의 최소값은 정규 방정식 형성을 포함하지 않는 방법으로 찾을 수 있다. 선형화된 모형이 있는 잔차는 다음과 같이 기록할 수 있다.
Jacobian은 직교 분해를 당한다; QR 분해가 그 과정을 설명하는 역할을 할 것이다.
where Q is an orthogonal matrix and R is an matrix which is partitioned into an block, , and a zero block. 은(는) 위쪽 삼각형이다.
잔류 벡터는 에 의해 왼쪽 곱한다
= R Q = = R T r S=\Q가 직교하기 때문에 상부 블록이 0일 때 S의 최소값이 얻어진다. 따라서 시프트 벡터는 풀어서 찾는다.
R이 삼각형 위쪽에 있으므로 이러한 방정식은 쉽게 풀린다.
단수 값 분해
직교 분해 방법의 변형은 단수 값 분해를 수반하며, 여기서 R은 추가 직교 변환에 의해 대각선화된다.
where is orthogonal, is a diagonal matrix of singular values and is the orthogonal matrix of the eigenvectors of 또는 동등하게 {J}의 단수 벡터. 이 경우변속 벡터는
이 표현식의 상대적 단순성은 비선형 최소 제곱의 이론적 분석에 매우 유용하다. 단수 값 분해의 적용은 로슨과 핸슨에서 자세히 논의된다.[5]
그라데이션 방법
과학 문헌에는 비선형 데이터 적합 문제에 대해 서로 다른 방법을 사용한 예가 많이 있다.
- 모델 기능의 테일러 시리즈 확장에 두 번째 파생 모델이 포함됨. 이것이 뉴턴의 최적화 방법이다.
- 행렬 H는 헤시안 행렬로 알려져 있다. 이 모델은 최소치에 가까운 더 나은 수렴 특성을 가지고 있지만, 매개변수가 최적 값과 멀리 떨어져 있을 때는 훨씬 더 나쁘다. 헤시안 계산은 알고리즘의 복잡성을 가중시킨다. 이 방법은 일반적으로 쓰이지 않는다.
- 다비던-플레처-파월 방법. 사이비 뉴턴법의 한 형태인 이 방법은 위와 유사하지만 두 번째 파생상품에 대해 분석적 표현을 사용할 필요가 없도록 연속적인 근사치로 헤시안을 계산한다.
- 가장 가파른 내리막길. 시프트 벡터가 가장 가파른 하강 방향을 가리킬 때 정사각형 합계의 감소가 보장되지만, 이 방법은 종종 저조한 성능을 보인다. 매개변수 값이 최적에서 멀리 떨어져 있을 때, 목표함수의 등고선에 대한 정상(수직)인 가장 가파른 하강 벡터의 방향은 가우스-뉴턴 벡터의 방향과 매우 다르다. 이것은 특히 가장 가파른 내리막 방향을 따라가는 최소값이 가장 가파른 내리막 벡터 길이의 작은 부분에 해당할 수 있기 때문에 분산을 훨씬 더 쉽게 만든다. 목표함수의 등고선이 매우 편심할 때 매개변수 사이에 높은 상관관계가 있기 때문에 가장 가파른 하강 반복은 최소값으로 천천히 지그재그 궤적을 따른다.
- 결합 그라데이션 검색. 이는 2차적 문제에서 사용해도 유한정밀 디지털 컴퓨터에서 고장날 수 있지만 이론적 융합성이 우수한 개량 급강하 기반 방식이다.[7]
직접 검색 방법
직접 검색 방법은 다양한 매개변수 값에서 객관적 기능의 평가에 따라 달라지며 파생상품을 전혀 사용하지 않는다. 그들은 Gauss-Newton 방법과 구배 방법에서 숫자 파생상품의 사용에 대한 대안을 제공한다.
- 교대 변수 검색.[3] 각 매개변수는 고정 또는 가변 증분을 추가하고 제곱합 감소를 가져오는 값을 유지함으로써 차례로 변화한다. 방법은 매개변수가 높은 상관관계가 없을 때 간단하고 효과적이다. 수렴 성질은 매우 불량하지만 초기 모수 추정치를 찾는 데 유용할 수 있다.
- Nelder-Mead(단순) 검색. 이 맥락에서 심플렉스(simplex)는 n 치수 n + 1 정점의 폴리토프(polytope)이다. 평면의 삼각형, 3차원 공간의 4면체(theadrahedron) 등이다. 각 꼭지점은 특정 매개변수 집합에 대한 목표 함수의 값에 해당한다. 심플렉스의 모양과 크기는 가장 높은 꼭지점에서 목표함수의 값이 항상 감소하도록 매개변수를 변화시켜 조정된다. 처음에는 정사각형의 합이 빠르게 감소할 수 있지만, M. J. D의 예에 의해 퀘이콘벡스 문제에 대한 논역적 지점으로 수렴할 수 있다. 파월
이러한 방법 및 기타 방법에 대한 보다 자세한 설명은 다양한 언어로 된 컴퓨터 코드와 함께 숫자 레시피에서 확인할 수 있다.
참고 항목
참조
- ^ 이는 관측치가 상관관계가 없음을 시사한다. 관측치가 상관된 경우 식
- ^ 반올림 오차가 없고 독립 변수에 실험 오차가 없을 경우 정규 방정식 행렬은 단수일 것이다.
- ^ Jump up to: a b M.J. 박스, D. Davies and W.H. Swann, 비선형 최적화 기법, Oliver & Boyd, 1969
- ^ 이 기법은 르벤베르크(1944년), 지라드(1958년), 윈느(1959년), 모리슨(1960년), 마르쿠르트(1963년)가 독자적으로 제안했다. 마르콰르트의 이름만으로도 과학 문헌의 많은 부분에서 그것을 위해 사용된다. 인용문 참조는 주요 문서를 참조하십시오.
- ^ Jump up to: a b C.L. 로슨과 R.J. 핸슨, 최소 제곱 문제 해결, 프렌티스-홀, 1974년
- ^ R. Fletcher, UKAEA 보고서 AERE-R 6799, H.M. 문방구 사무소, 1971
- ^ M. J. D. 파월, 컴퓨터 저널 (1964), 7, 155.
추가 읽기
- Kelley, C. T. (1999). Iterative Methods for Optimization (PDF). SIAM Frontiers in Applied Mathematics. no 18. ISBN 0-89871-433-8.
- Strutz, T. (2016). Data Fitting and Uncertainty : A Practical Introduction to Weighted Least Squares and Beyond (2nd ed.). Springer Vieweg. ISBN 978-3-658-11455-8.