수학에서 헤시안 행렬 또는 헤시안 행렬은 스칼라 값 함수 또는 스칼라 필드의 2차 부분파생물의 제곱 행렬이다. 많은 변수의 함수의 국부 곡면성을 설명한다. 헤시안 매트릭스는 독일의 수학자 루트비히 오토 헤세가 19세기에 개발했고, 후에 그의 이름을 따서 명명되었다. 헤세는 원래 "기능적 결정요소"라는 용어를 사용했다.
Suppose is a function taking as input a vector and outputting a scalar If all second partial derivatives of 이(가) 존재하며 함수의 도메인에 걸쳐 연속적인 경우, 의 헤시안 행렬 H 은(는) 제곱 n 행렬이며 일반적으로 다음과 같이 정의 및 배열된다.
또는 지수 i와 j를 사용하여 계수에 대한 방정식을 명시함으로써,
헤시안 행렬은 두 번째 파생상품의 연속성에 대한 가설은 분화의 순서가 중요하지 않다는 것을 내포하고 있기 때문에 대칭 행렬이다(슈워즈의 정리).
볼록함수의 헤시안 행렬은 양의 반확정이다. 이 속성을 수정하면 다음과 같이 임계점이(가) 로컬 최대값, 로컬 최소값 또는 안장점인지 테스트할 수 있다.
Hessian이 , 에서 양수인 경우, 은는) , 에서 음수인 경우, 은(는) . 에서 격리된 로컬 최대값에 도달한다.에시안은 양의 고유값과 음의 고유값을 모두 가지고 있고, 그 다음 는의 안장점이다. 그렇지 않으면 테스트는 결론을 내리지 못한다. 이것은 적어도 국소적 최소에서 헤시안은 양의 반감각형 피니티, 국소적 최대치에서 헤시안은 음의 반감각형 피니티임을 의미한다.
양-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-십-백의 경우, 시험은 결론을 내리지 않는다(헤시안이 반-십-백질이지만 확실하지 않은 임계점은 국소 말단 또는 안장점일 수 있다). 그러나 모스 이론의 관점에서 더 많은 것을 말할 수 있다.
1개 변수와 2개 변수의 기능에 대한 2차 파생 검정은 일반적인 경우보다 간단하다. 한 변수에서 헤시안에는 정확히 1초의 파생상품이 포함되어 있다. 양수일 x x이(가) 국소 최소값이고 음수일 x {\ x이(가) 국소 최대값이며, 0일 경우 시험이 결정되지 않는다. 결정요소가 고유값의 산물이기 때문에 두 변수에서 결정요소를 사용할 수 있다. 양수인 경우 고유값은 양수이거나 음수인 것이다. 음수일 경우 두 고유값은 서로 다른 기호를 가진다. 0이면 2차분열검사는 결론에 도달하지 못한다.
동등하게, 국소 최소 또는 최대치에 충분한 2차 조건들은 헤시안의 주요 (최상단-최상단) 미성년자(하위-수단의 결정자)의 순서에 따라 표현될 수 있다. 이러한 조건들은 제한된 최적화를 위해 다음 절에 접해 있는 헤시인들의 특별한 경우다. 제약조건의 수가 0인 경우. 구체적으로는, 이러한 주요 미성년자 모두가 양성이라는 조건인 반면, 최대치를 위한 충분한 조건은 미성년자가 부호를 번갈아 가며, 소인은 음성이라는 조건이다.
임계점
함수 의 그라데이션(부분파생상품의 벡터)이 특정 x, 에서 0이면 은또는 정지점) x . 에 임계점( 정지점)이 있다을(를) 어떤 맥락에서 판별이라고 한다. 이 결정 요인이 이면 , 을(를f의 퇴행 임계점 f의 비 Morse이라고 한다.
함수의 임계 지점에서 평가할 때 헤시안 행렬의 결정요인은 다지관으로 간주되는 함수의 가우스 곡률과 동일하다. 그 시점에서 헤시안 고유값은 함수의 원곡선이며, 고유벡터는 곡률의 원곡선 방향이다. (가우스 곡률 § 주 곡률과 관계 참조)
최적화에 사용
헤시안 행렬은 함수의 국소 테일러 팽창의 2차 항 계수이기 때문에 뉴턴 형식 방법 내에서 대규모 최적화 문제에 사용된다. 그것은
여기서 는그라데이션 1, x n 이다. f{\}}}\}\}\}\}\}\}\}\rig}\rigright. 완전한 헤시안 매트릭스를 계산하고 저장하려면 () 메모리가 필요하며, 이는 신경망, 조건부 무작위 필드 및 많은 수의 파라미터를 갖는 기타 통계적모델 등의 고차원 기능에 대해서는 실현 불가능하다. 그러한 상황에서 잘린 뉴턴과 준뉴턴 알고리즘이 개발되었다. 후자의 알고리즘 계열은 Hessian에 근사를 사용한다. 가장 인기 있는 유사 뉴턴 알고리즘 중 하나는 BFGS이다.[5]
이러한 근사치들은 최적화 알고리즘이 선형 H() ,{\로만 헤시언을 사용한다는 사실을 사용할 수 있으며, 먼저 헤시안이 그라데이션의 로컬 확장에도 나타난다는 사실을 알아채고 진행할 수 있다.
x = 를) 일부 스칼라 r에 대해 허용하면 다음과 같은 결과를 얻을 수 있다.
그것은
따라서 구배가 이미 계산된 경우, 대략적인 헤시안은 선형(구배 크기) 스칼라 연산의 수로 계산할 수 있다. (프로그래밍이 간단하지만 {\은(는) ( r) 의 기간으로 인한 오류를 방지하기 위해 작게 만들어야 하지만, 감소하면 첫 번째 기간에는 정밀도가 떨어지기 때문에 이 근사 체계는 수치적으로 안정적이지 않다.)[6]
경계 헤시안(Hesisian)은 제한된 특정 최적화 문제에서 2차 파생 시험에 사용된다. Given the function considered previously, but adding a constraint function such that the bordered Hessian is the Hessian of the Lagrange function
예를 들어, m} 제약조건이 있는 경우 왼쪽 상단 모서리의 은 m× {\ m m개의 0 블록이며, 에는 m 경계 행, 왼쪽에는 m 경계 열이 있다.
The above rules stating that extrema are characterized (among critical points with a non-singular Hessian) by a positive-definite or negative-definite Hessian cannot apply here since a bordered Hessian can neither be negative-definite nor positive-definite, as 가) 0이 아닌 유일한 항목이 첫 번째인 벡터인 경우
두 번째 파생상품 시험은 접경 헤시안(Hessian)의 특정n - 하위표 집합의 결정요인에 대한 부호 제한으로 구성된다.[9] 직관적으로 제약조건은- 자유변수가 있는 것으로 문제를 축소하는 것으로 생각할 수 있다.(예를 들어, (x ,,) }\rig}\)의 최대화는 x = 의 영향을 받는다.은는) 제한 없이,,1- - x 2의할 수 있다
특히, 첫 의 주요 미성년자(상좌표적합성 하위-매트릭스의 결정자)가 무시되는 경계 헤시안(Hessian)의 주요 미성년자(상좌표적합성 하위-매트릭스의 결정자)의 순서에 기호 조건이 부과되며, 이 경우, 처음 + )로최소 and columns, 다음으로 잘린 +2{\ 행과 열 등으로 구성되며, 마지막은 전체 접경 헤시안인 경우 + {\}이n+m , {\보다 크면 가장 작은 선행 주체는 헤시안 그 자체다.[10] 따라서 - 의 미성년자를 고려해야 하며, 각각은 후보 최대 또는 최소로 간주되는 특정 지점에서 평가된다. 국소 최대치에 대한 충분한 조건은(- )+ . (-1의 기호를 가진 가장 작은 기호와 교대하는 것이다= 이러한 조건은 주문되지 않은 헤시안이 각각 음의 확정 또는 양의 확정이라는 조건과 일치한다.
그러면 두 번째 부분파생상품의 은 n× {\ nn} 행렬이 아니라 제3의 텐서(tensor)이다. 는 f 의 각 구성 요소마다 하나씩, Hesian 행렬의 배열로 생각할 수 있다
이 텐서는 = 1 때 일반적인 헤시안 행렬로 변한다
복합 케이스에 대한 일반화
여러 복잡한 변수의 맥락에서 헤시안은 일반화될 수 있다. : → , f을(를) 쓰고,…, ). n}\rig}\을 쓴다고 가정해 보자. Then the generalized Hessian is If satisfies the n-dimensional Cauchy–Riemann conditions, then the complex Hessian matrix is identically zero.
리만 다양체로의 일반화
M ,) 은(는) 리바-시비타 연결부Levi-Civita 연결부이고 n {\은(는) 리바-시타 연결부가 된다. : M→ R 은(는) 매끄러운 함수가 된다. 다음을 기준으로 헤시안 텐서 정의
함수의 첫 번째 공변량 파생상품이 일반적인 파생상품과 동일하다는 사실을 이용하는 경우. 로컬 좌표{ 을(를) 선택하면 헤시안에게 다음과 같은 로컬 식이 제공된다.
^Neudecker, Heinz; Magnus, Jan R. (1988). Matrix Differential Calculus with Applications in Statistics and Econometrics. New York: John Wiley & Sons. p. 136. ISBN978-0-471-91516-4.
Magnus, Jan R.; Neudecker, Heinz (1999). "The Second Differential". Matrix Differential Calculus : With Applications in Statistics and Econometrics (Revised ed.). New York: Wiley. pp. 99–115. ISBN0-471-98633-X.