헤시안 행렬

Hessian matrix

수학에서 헤시안 행렬 또는 헤시안 행렬은 스칼라 값 함수 또는 스칼라 필드의 2차 부분파생물제곱 행렬이다. 많은 변수의 함수의 국부 곡면성을 설명한다. 헤시안 매트릭스는 독일의 수학자 루트비히 오토 헤세가 19세기에 개발했고, 후에 그의 이름을 따서 명명되었다. 헤세는 원래 "기능적 결정요소"라는 용어를 사용했다.

정의 및 속성

Suppose is a function taking as input a vector and outputting a scalar If all second partial derivatives of 이(가) 존재하며 함수의 도메인에 걸쳐 연속적인 경우, 헤시안 행렬 H 은(는) 제곱 n 행렬이며 일반적으로 다음과 같이 정의 및 배열된다.

또는 지수 i와 j를 사용하여 계수에 대한 방정식을 명시함으로써,

헤시안 행렬은 두 번째 파생상품의 연속성에 대한 가설은 분화의 순서가 중요하지 않다는 것을 내포하고 있기 때문에 대칭 행렬이다(슈워즈의 정리).

헤시안 행렬의 결정 인자를 헤시안 결정 인자라고 한다.[1]

The Hessian matrix of a function is the Jacobian matrix of the gradient of the function ; that is:

적용들

변곡점

(가) 세 변수의 동종 인 경우 = 0 방정식은 평면 투영 곡선암묵적 방정식이 된다. 곡선의 변곡점은 정확히 헤시안 결정요소가 0인 비성악점이다. 헤시안 결정요인은 도 3]의 다항식이기 때문에 입방면 곡선은 9 변곡점을 갖는다는 것은 베주트의 정리에 따른다

2차분열시험

볼록함수의 헤시안 행렬은 양의 반확정이다. 이 속성을 수정하면 다음과 같이 임계점 (가) 로컬 최대값, 로컬 최소값 또는 안장점인지 테스트할 수 있다.

Hessian이 , 에서 양수인 경우, 는) , 에서 음수인 경우, 은(는) . 에서 격리된 로컬 최대값에 도달한다.에시안은 양의 고유값과 음의 고유값을 모두 가지고 있고, 그 다음 안장점이다. 그렇지 않으면 테스트는 결론을 내리지 못한다. 이것은 적어도 국소적 최소에서 헤시안은 양의 반감각형 피니티, 국소적 최대치에서 헤시안은 음의 반감각형 피니티임을 의미한다.

양-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-백의 경우, 시험은 결론을 내리지 않는다(헤시안이 반-십-백질이지만 확실하지 않은 임계점은 국소 말단 또는 안장점일 수 있다). 그러나 모스 이론의 관점에서 더 많은 것을 말할 수 있다.

1개 변수와 2개 변수의 기능에 대한 2차 파생 검정은 일반적인 경우보다 간단하다. 한 변수에서 헤시안에는 정확히 1초의 파생상품이 포함되어 있다. 양수일 x x이(가) 국소 최소값이고 음수일 x {\ x이(가) 국소 최대값이며, 0일 경우 시험이 결정되지 않는다. 결정요소가 고유값의 산물이기 때문에 두 변수에서 결정요소를 사용할 수 있다. 양수인 경우 고유값은 양수이거나 음수인 것이다. 음수일 경우 두 고유값은 서로 다른 기호를 가진다. 0이면 2차분열검사는 결론에 도달하지 못한다.

동등하게, 국소 최소 또는 최대치에 충분한 2차 조건들은 헤시안의 주요 (최상단-최상단) 미성년자(하위-수단의 결정자)의 순서에 따라 표현될 수 있다. 이러한 조건들은 제한된 최적화를 위해 다음 절에 접해 있는 헤시인들의 특별한 경우다. 제약조건의 수가 0인 경우. 구체적으로는, 이러한 주요 미성년자 모두가 양성이라는 조건인 반면, 최대치를 위한 충분한 조건은 미성년자가 부호를 번갈아 가며, 소인은 음성이라는 조건이다.

임계점

함수 그라데이션(부분파생상품의 벡터)이 특정 x, 에서 0이면 또는 정지점) x . 임계점( 정지점)이 있다(를) 어떤 맥락에서 판별이라고 한다. 이 결정 요인이 이면 , 을(를 f의 퇴행 임계점 f Morse 이라고 한다.

헤시안 매트릭스는 그것의 커널과 고유값이 임계점의 분류를 허용하기 때문에 모스 이론대재앙 이론에서 중요한 역할을 한다.[2][3][4]

함수의 임계 지점에서 평가할 때 헤시안 행렬의 결정요인은 다지관으로 간주되는 함수의 가우스 곡률과 동일하다. 그 시점에서 헤시안 고유값은 함수의 원곡선이며, 고유벡터는 곡률의 원곡선 방향이다. (가우스 곡률 § 주 곡률과 관계 참조)

최적화에 사용

헤시안 행렬은 함수의 국소 테일러 팽창의 2차 항 계수이기 때문에 뉴턴 형식 방법 내에서 대규모 최적화 문제에 사용된다. 그것은

여기서 그라데이션 1, x n 이다. f{\}}}\}\}\}\}\}\}\}\rig}\rigright. 완전한 헤시안 매트릭스를 계산하고 저장하려면 ( ) 메모리가 필요하며, 는 신경망, 조건부 무작위 필드 및 많은 수의 파라미터를 갖는 기타 통계적 모델 등의 고차원 기능에 대해서는 실현 불가능하다. 그러한 상황에서 잘린 뉴턴준뉴턴 알고리즘이 개발되었다. 후자의 알고리즘 계열은 Hessian에 근사를 사용한다. 가장 인기 있는 유사 뉴턴 알고리즘 중 하나는 BFGS이다.[5]

이러한 근사치들은 최적화 알고리즘이 선형 H() ,{\로만 헤시언을 사용한다는 사실을 사용할 수 있으며, 먼저 헤시안이 그라데이션의 로컬 확장에도 나타난다는 사실을 알아채고 진행할 수 있다.

x = 를) 일부 스칼라 r 대해 허용하면 다음과 같은 결과를 얻을 수 있다.

그것은
따라서 구배가 이미 계산된 경우, 대략적인 헤시안은 선형(구배 크기) 스칼라 연산의 수로 계산할 수 있다. (프로그래밍이 간단하지만 {\은(는) ( r) 기간으로 인한 오류를 방지하기 위해 작게 만들어야 하지만, 감소하면 첫 번째 기간에는 정밀도가 떨어지기 때문에 이 근사 체계는 수치적으로 안정적이지 않다.)[6]

기타 응용 프로그램

헤시안 매트릭스는 이미지 처리 및 컴퓨터 시야에서 이미지 처리 연산자를 표현하는 데 일반적으로 사용된다(Hessian(LoG) 블롭 검출기, Hessian(DoH) 블롭 검출기 스케일 공간 결정 요인인 가우스(Laplacian of Gaussian(Lob 검출기(Lob Detector) 참조). 또한 헤시안 매트릭스는 적외선 분광법에서 다양한 분자 주파수를 계산하기 위해 정규 모드 분석에서도 사용될 수 있다.[7]

일반화

접경 헤시안

경계 헤시안(Hesisian)은 제한된 특정 최적화 문제에서 2차 파생 시험에 사용된다. Given the function considered previously, but adding a constraint function such that the bordered Hessian is the Hessian of the Lagrange function

예를 들어, m} 제약조건이 있는 경우 왼쪽 상단 모서리의 은 m× {\ m m개의 0 블록이며, 에는 m 경계 행, 왼쪽에는 m 경계 열이 있다.

The above rules stating that extrema are characterized (among critical points with a non-singular Hessian) by a positive-definite or negative-definite Hessian cannot apply here since a bordered Hessian can neither be negative-definite nor positive-definite, as 가) 0이 아닌 유일한 항목이 첫 번째인 벡터인 경우

두 번째 파생상품 시험은 접경 헤시안(Hessian)의 특정n - 하위표 집합의 결정요인에 대한 부호 제한으로 구성된다.[9] 직관적으로 제약조건은 - 자유변수가 있는 것으로 문제를 축소하는 것으로 생각할 수 있다.(예를 들어, (x , , ) }\rig}\)의 최대화는 x = 의 영향을 받는다.는) 제한 없이 , ,1- - x 2할 수 있다

특히, 첫 주요 미성년자(상좌표적합성 하위-매트릭스의 결정자)가 무시되는 경계 헤시안(Hessian)의 주요 미성년자(상좌표적합성 하위-매트릭스의 결정자)의 순서에 기호 조건이 부과되며, 이 경우, 처음 + )로 최소 and columns, 다음으로 잘린 +2{\ 행과 열 등으로 구성되며, 마지막은 전체 접경 헤시안인 경우 + {\ }이n+m , {\보다 크면 가장 작은 선행 주체는 헤시안 그 자체다.[10] 따라서 - 미성년자를 고려해야 하며, 각각은 후보 최대 또는 최소로 간주되는 특정 지점에서 평가된다. 국소 최대치에 대한 충분한 조건은(- )+ . (-1 기호를 가진 가장 작은 기호와 교대하는 것이다= 이러한 조건은 주문되지 않은 헤시안이 각각 음의 확정 또는 양의 확정이라는 조건과 일치한다.

벡터 값 함수

(가) 벡터 f: m , {f}

그러면 두 번째 부분파생상품의 은 n× {\ nn} 행렬이 아니라 제3의 텐서(tensor)이다. 는 f 의 각 구성 요소마다 하나씩, Hesian 행렬의 배열로 생각할 수 있다
이 텐서는 = 1 때 일반적인 헤시안 행렬로 변한다

복합 케이스에 대한 일반화

여러 복잡한 변수의 맥락에서 헤시안은 일반화될 수 있다. : , f을(를) 쓰고 ,, ). n}\rig}\을 쓴다고 가정해 보자. Then the generalized Hessian is If satisfies the n-dimensional Cauchy–Riemann conditions, then the complex Hessian matrix is identically zero.

리만 다양체로의 일반화

M ,) 은(는) 리바-시비타 연결부Levi-Civita 연결부이고 n {\(는) 리바-시타 연결부가 된다. : M→ R 은(는) 매끄러운 함수가 된다. 다음을 기준으로 헤시안 텐서 정의

함수의 첫 번째 공변량 파생상품이 일반적인 파생상품과 동일하다는 사실을 이용하는 경우. 로컬 좌표{ 을(를) 선택하면 헤시안에게 다음과 같은 로컬 식이 제공된다.
여기서 는 연결의 크리스토펠 기호. 헤시언에 대한 기타 동등한 형식은 다음과 같다.

참고 항목

메모들

  1. ^ Binmore, Ken; Davies, Joan (2007). Calculus Concepts and Methods. Cambridge University Press. p. 190. ISBN 978-0-521-77541-0. OCLC 717598615.
  2. ^ Callahan, James J. (2010). Advanced Calculus: A Geometric View. Springer Science & Business Media. p. 248. ISBN 978-1-4419-7332-0.
  3. ^ Casciaro, B.; Fortunato, D.; Francaviglia, M.; Masiello, A., eds. (2011). Recent Developments in General Relativity. Springer Science & Business Media. p. 178. ISBN 9788847021136.
  4. ^ Domenico P. L. Castrigiano; Sandra A. Hayes (2004). Catastrophe theory. Westview Press. p. 18. ISBN 978-0-8133-4126-2.
  5. ^ Nocedal, Jorge; Wright, Stephen (2000). Numerical Optimization. Springer Verlag. ISBN 978-0-387-98793-4.
  6. ^ Pearlmutter, Barak A. (1994). "Fast exact multiplication by the Hessian" (PDF). Neural Computation. 6 (1): 147–160. doi:10.1162/neco.1994.6.1.147.
  7. ^ Mott, Adam J.; Rez, Peter (December 24, 2014). "Calculation of the infrared spectra of proteins". European Biophysics Journal. 44 (3): 103–112. doi:10.1007/s00249-014-1005-6. ISSN 0175-7571.
  8. ^ Hallam, Arne (October 7, 2004). "Econ 500: Quantitative Methods in Economic Analysis I" (PDF). Iowa State.
  9. ^ Neudecker, Heinz; Magnus, Jan R. (1988). Matrix Differential Calculus with Applications in Statistics and Econometrics. New York: John Wiley & Sons. p. 136. ISBN 978-0-471-91516-4.
  10. ^ Chiang, Alpha C. (1984). Fundamental Methods of Mathematical Economics (Third ed.). McGraw-Hill. p. 386. ISBN 978-0-07-010813-4.

추가 읽기

  • Lewis, David W. (1991). Matrix Theory. Singapore: World Scientific. ISBN 978-981-02-0689-5.
  • Magnus, Jan R.; Neudecker, Heinz (1999). "The Second Differential". Matrix Differential Calculus : With Applications in Statistics and Econometrics (Revised ed.). New York: Wiley. pp. 99–115. ISBN 0-471-98633-X.

외부 링크