다변량 미적분 전문 표기법
기하학적 미적분학이나 벡터 미적분과 혼동해서는 안 된다.
수학 에서 행렬 미적분 은 다변량 미적분학 , 특히 행렬 의 공간에 걸쳐서 다변량 미적분학을 행하는 데 특화된 표기법이다. 그것은 많은 변수 와 관련된 단일함수 및/또는 단일 변수와 관련된 다변량 함수 의 다양한 부분파생상품 을 단일 실체로 취급할 수 있는 벡터 및 행렬로 수집한다. 이것은 다변량 함수의 최대 또는 최소의 발견과 미분 방정식의 시스템 해결과 같은 운영을 크게 단순화한다. 여기서 사용하는 표기법은 일반적 으로 통계 와 공학에서 사용되며, 텐서지수 표기법 은 물리학 에 선호된다.
두 개의 경쟁적인 공칭적 관행이 행렬 미적분학 분야를 두 개의 개별 그룹으로 나누었다. 두 집단은 벡터를 컬럼 벡터 로서, 또는 행 벡터로서, 스칼라 의 파생물을 작성하느냐로 구별할 수 있다. 이 두 규약은 벡터를 행렬(행 벡터 대신 행렬)과 결합할 때 열 벡터로 취급해야 한다는 일반적인 가정이 성립된 경우에도 가능하다. 단일 규약은 일반적으로 행렬 미적분학을 사용하는 단일 분야(예 : 계량학, 통계학, 추정 이론 및 기계 학습)에서 어느 정도 표준화될 수 있다. 그러나 주어진 분야 내에서 조차도 경쟁적인 관습을 사용하여 서로 다른 작가들을 찾을 수 있다. 두 그룹의 저자들은 종종 그들의 특정한 관습이 표준인 것처럼 쓴다. 양립할 수 있는 메모가 사용되었는지 세심하게 검증하지 않고 서로 다른 저자의 결과를 결합할 때 심각한 실수가 발생할 수 있다. 이 두 규약에 대한 정의와 그것들 간의 비교는 배치 규약 섹션에 수집된다.
범위 행렬 미적분은 독립 변수의 각 성분에 대해 종속 변수의 각 성분의 파생상품을 수집하기 위해 행렬과 벡터를 사용하는 여러 다른 공식을 말한다. 일반적으로 독립 변수는 스칼라, 벡터 또는 행렬이 될 수 있지만 종속 변수는 이들 중 하나일 수도 있다. 각각의 다른 상황은 더 넓은 의미의 용어를 사용하여 다른 규칙 집합, 즉 별도의 미적분학 으로 이어질 것이다. 매트릭스 표기법은 많은 파생상품을 체계적으로 수집하는 편리한 방법의 역할을 한다.
첫 번째 예로서 벡터 미적분학 의 구배 를 고려한다. f ( x 1 , x 2 , x 3 ) 의 세 독립 변수의 스칼라 함수의 경우, 벡터 방정식에 의해 그라데이션 이 주어진다.
∇ f = ∂ f ∂ x 1 x ^ 1 + ∂ f ∂ x 2 x ^ 2 + ∂ f ∂ x 3 x ^ 3 {\displaystyle \nabla f={\frac {\partial f}{\partial x_{1}}}{\hat {x}}_{1}+{\frac {\partial f}{\partial x_{2}}}{\hat {x}}_{2}+{\frac {\partial f}{\partial x_{3}}}{\hat {x}}_{3}} , where x ^ i {\displaystyle {\hat {x}}_{i}} represents a unit vector in the x i {\displaystyle x_{i}} direction for 1 ≤ i ≤ 3 {\displaystyle 1\leq i\leq 3} . This type of generalized derivative can be seen as the derivative of a scalar, f , with respect to a vector, x {\displaystyle \mathbf {x} } , and it s 결과는 벡터 형태로 쉽게 수집될 수 있다.
∇ f = ∂ f ∂ x = [ ∂ f ∂ x 1 ∂ f ∂ x 2 ∂ f ∂ x 3 ] T . {\displaystyle \nabla f={\frac {\partial f}{\partial \mathbf {x} }}={\begin{bmatrix}{\frac {\partial f}{\partial x_{1}}}&{\frac {\partial f}{\partial x_{2}}}&{\frac {\partial f}{\partial x_{3}}}\\\end{bmatrix}}^{\textsf {T}}. } 더 복잡한 예로는 구배 행렬 로 알려진 행렬에 대한 스칼라 함수의 파생 모델이 포함되며, 이는 결과 행렬의 해당 위치에 있는 각 행렬 요소에 대한 파생 모델을 수집한다. 이 경우 스칼라는 행렬에 있는 각 독립 변수의 함수여야 한다. 또 다른 예로, m 독립 변수의 종속 변수 또는 함수의 n-벡터가 있다면 독립 벡터에 대한 종속 벡터의 파생을 고려할 수 있다. 결과는 가능한 모든 파생상품 조합으로 구성된 m×n 행렬로 수집될 수 있다.
스칼라, 벡터, 매트릭스를 이용한 가능성은 총 9가지다. 각 독립 변수 및 종속 변수에서 더 많은 수의 성분을 고려할 때 매우 많은 수의 가능성을 가질 수 있다는 점에 유의하십시오. 매트릭스 형태로 가장 깔끔하게 정리할 수 있는 6가지 파생상품은 다음 표에 정리되어 있다.[1]
매트릭스 파생상품의 종류 종류들 스칼라 벡터 매트릭스 스칼라 ∂ y ∂ x {\displaystyle {\frac {\property y}{\put x}} ∂ y ∂ x {\displaystyle {\frac {\reason \mathbf {y}{\reason x}}} ∂ Y ∂ x {\displaystyle {\frac {\partial \mathbf {Y}{\partial x}} 벡터 ∂ y ∂ x {\displaystyle {\frac {\frac y}{\reason \mathbf{x}}}} ∂ y ∂ x {\displaystyle {\frac {\reason \mathbf {y}{}{\reason \mathbf {x}}}} 매트릭스 ∂ y ∂ X {\displaystyle {\frac {\partial y}{\partial \mathbf {X}}}}
여기서 우리는 벡터와 스칼라가 각각 하나의 열과 하나의 열을 가진 행렬에 불과하다는 것을 인식하면서, 가장 일반적인 의미로 "매트릭스"라는 용어를 사용해 왔다. 게다가, 우리는 굵은 글씨로 벡터를 표시했고 행렬에 굵은 대문자를 표시했다. 이 표기법은 전체적으로 사용된다.
또한 행렬에 관한 벡터의 파생 모델이나 표에 있는 다른 미충전 셀에 대해서도 이야기할 수 있다는 점에 유의하십시오. 그러나 이러한 파생상품은 가장 자연스럽게 2등급 이상의 텐서(tensor )로 구성되기 때문에 매트릭스에 깔끔하게 들어가지 않는다. 다음 세 절에서 우리는 이러한 각 파생상품을 정의하고 수학의 다른 분야와 연관시킬 것이다. 자세한 표는 레이아웃 규칙 섹션을 참조하십시오.
기타파생상품과의 관계 매트릭스 파생상품은 계산을 위해 부분파생상품을 추적하기 위한 편리한 표기법이다. Frechet 파생상품 은 벡터에 관한 파생상품을 취하기 위한 기능분석 설정 의 표준 방법이다. 행렬의 행렬 함수가 Fréchet이 다를 경우, 두 파생상품은 공지의 번역에 동의할 것이다. 일반적으로 부분파생상품 의 경우와 마찬가지로, 일부 공식은 근사치 선형 매핑으로서 파생상품의 존재보다 약한 분석 조건에서 확장될 수 있다.
우사게스 매트릭스 미적분은 최적 확률적 추정기를 도출하는 데 사용되며, 종종 라그랑주 곱셈기 의 사용을 포함한다. 여기에는 다음 사항의 파생이 포함된다.
표기법 다음 단원에 제시된 벡터 및 행렬 파생상품은 단일 변수를 사용하여 다수의 변수를 나타내는 행렬 표기법 을 최대한 활용한다. 다음에 이어지는 내용에서 우리는 스칼라, 벡터, 행렬을 서체로 구별할 것이다. 우리 는 M(n ,m )이 n행 과 m기둥 을 가진 실제 n×m 행렬의 공간을 나타내도록 할 것이다. 이러한 행렬은 A , X , Y 등 굵게 표시된 대문자로 표시된다. M (n ,1)의 요소, 즉 열 벡터 는 대담한 소문자로 표시된다: a , x, y 등 . M (1,1)의 원소는 스칼라로, 소문자 이탤릭체 활자(a , t , x 등 )로 표시된다. X 는T 전치 행렬 을, tr (X)는 트레이스 , det (X) 또는 X는 결정 요인이다. 달리 명시되지 않은 한 모든 기능은 차별성 등급 C 로1 가정한다. 일반적으로 알파벳의 전반부 문자(a, b, c, ...)는 상수를 나타내기 위해, 후반부 문자(t, x, y, ...)는 변수를 나타내기 위해 사용된다.
참고 : 위에서 언급한 바와 같이 벡터 및 매트릭스에서 부분파생상품 시스템을 배치하기 위한 경쟁적인 명제는 존재하며, 아직 표준이 등장하지 않는 것으로 보인다. 다음 두 개의 도입부에서는 논의를 지나치게 복잡하게 하지 않기 위해 단순히 편의를 위해 분자 배치 규칙 을 사용한다. 다음 섹션에서는 레이아웃 규칙 에 대해 자세히 설명한다. 다음을 실현하는 것이 중요하다.
"숫자 배치"와 "거부자 배치"라는 용어를 사용했음에도 불구하고, 실제로 두 가지 이상의 공칭적 선택이 관련되어 있다. 그 이유는 스칼라별, 벡터별, 벡터별, 벡터별, 스칼라별, 스칼라별 파생상품에 대해서는 분자 대 분모(또는 어떤 상황에서는 분자 대 혼합)의 선택이 독립적으로 이루어질 수 있고, 다수의 저자가 다양한 방법으로 그들의 레이아웃 선택을 혼합하고 일치시킬 수 있기 때문이다. 아래의 도입부에서 분자 레이아웃을 선택했다고 해서 이것이 "올바른" 또는 "상당한" 선택임을 의미하는 것은 아니다. 다양한 배치 유형에는 장단점이 있다. 심각한 실수는 서로 다른 레이아웃으로 작성된 수식을 부주의하게 결합하여 발생할 수 있으며, 한 레이아웃에서 다른 레이아웃으로 변환하는 것은 오류를 방지하기 위한 주의가 필요하다. 결과적으로, 기존 공식으로 작업할 때 최선의 정책은 모든 상황에서 동일한 레이아웃을 사용하려고 시도하기보다는 어떤 레이아웃이 사용되는지 식별하고 그것과 일관성을 유지하는 것일 수 있다. 대안 아인슈타인 종합 규약을 사용한 텐서 지수 표기법 은 한 번에 한 요소만 쓰는 것을 제외하면 행렬 미적분학과 매우 유사하다. 임의로 높은 순위 텐서를 쉽게 조작할 수 있는 장점이 있는 반면, 2개 이상의 순위 텐서는 행렬 표기법으로는 상당히 다루기 어렵다. 이곳의 모든 작업은 단변량 행렬 표기법을 사용하지 않고도 이 표기법으로 할 수 있다. 그러나 추정 이론과 응용 수학의 다른 영역에서의 많은 문제들은 너무 많은 지표를 만들어 그 영역들에서 행렬 미적분학을 선호하면서 적절히 추적하지 못하게 할 것이다. 또한 아인슈타인 표기법은 대표적인 원소 표기법 대안으로 여기에 제시된 정체성을 입증하는 데 매우 유용할 수 있는데(분화 섹션 참조) 명시적 합계가 옮겨질 때 번거로워질 수 있다. 행렬은 순위 2의 텐서(tensor)로 간주될 수 있다는 점에 유의하십시오.
벡터가 있는 파생상품 벡터는 하나의 열만 있는 행렬이기 때문에 가장 단순한 행렬 파생상품은 벡터 파생상품이다.
여기서 개발된 표기법은 유클리드 공간 R 과n 함께 n-벡터의 공간 M(n ,1)을 식별함으로써 벡터 미적분 의 통상적인 작동을 수용할 수 있으며, 스칼라 M (1,1)은 R 로 식별된다. 벡터 미적분학의 해당 개념은 각 하위섹션의 끝에 표시된다.
참고 : 이 절의 논의는 교육학적 목적을 위한 분자 배치 규칙 을 가정한다. 어떤 작가들은 다른 관습을 사용한다. 레이아웃 규약 에 대한 섹션에서는 이 문제에 대해 더 자세히 설명한다. 더 아래에 제시된 ID는 모든 공통 배치 규칙과 함께 사용할 수 있는 형태로 제시된다.
벡터 바이 스칼라 벡터 y = [ y 1y 2 ⋯ y m ] T {\ displaystyle \mathbf {y} ={\begin{bmatrix}y_{1}&y_{2}&\cdots &y_{m }\end{bmatrix}}^{\mathsf{T }}}}}, 스칼라 x로 표기 한다.
∂ y ∂ x = [ ∂ y 1 ∂ x ∂ y 2 ∂ x ⋮ ∂ y m ∂ x ] . {\displaystyle {\frac {\partial \mathbf {y} }{\partial x}}={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x}}\\{\frac {\partial y_{2}}{\partial x}}\\\vdots \\{\frac {\partial y_{m}}{\partial x}}\\\end{bmatrix}}. } 벡터 미적분학 에서 스칼라 x 에 관한 벡터 y 의 파생은 벡터 y 의 접선 벡터 , ∂ y ∂ x {\ displaystyle {\frac {\partial \mathbf {}{\partial x}}}}}}}. 여기서 y : R 1 → R 에m 주목하십시오.
예시 간단한 예로는 위치 벡터의 접선 벡터 (시간의 함수로 간주)인 유클리드 공간의 속도 벡터를 들 수 있다. 또한 가속도 는 속도의 접선 벡터다.
스칼라 바이 벡터 벡터 x = [ 1 x 2 ⋯ x n ] T {\ displaystyle \mathbf {x} ={\begin{bmatrix}x_{1}x_{2}\cdots &x_{n}\end{bmatrix}}}^{\ mathsf {T }}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} 의 스칼라 는 숫자로 표기 된다.
∂ y ∂ x = [ ∂ y ∂ x 1 ∂ y ∂ x 2 ⋯ ∂ y ∂ x n ] . {\displaystyle {\frac {\partial y}{\partial \mathbf {x} }}={\begin{bmatrix}{\frac {\partial y}{\partial x_{1}}}&{\frac {\partial y}{\partial x_{2}}}&\cdots &{\frac {\partial y}{\partial x_{n}}}\end{bmatrix}}. } 벡터 미적분학 에서 공간 R n (독립 좌표가 x 의 성분인 경우)에서 스칼라장 f 의 구배 는 벡터에 의해 스칼라 파생물이 전치되는 것이다.
∇ f = [ ∂ f ∂ x 1 ⋮ ∂ f ∂ x n ] = ( ∂ f ∂ x ) T {\displaystyle \nabla f={\begin{bmatrix}{\frac {\partial f}{\partial x_{1}}}\\\vdots \\{\frac {\partial f}{\partial x_{n}}}\end{bmatrix}}=\left({\frac {\partial f}{\partial \mathbf {x} }}\right)^{\mathsf {T}}} 예를 들어 물리학에서 전기장 은 전위 의 음 벡터 그라데이션 이다.
단위 벡터 u (이 경우 기둥 벡터로 표현됨)의 방향에서 스페이스 벡터 x의 스칼라 함수 f(x )의 방향 파생 은 다음과 같은 구배를 사용하여 정의된다.
∇ u f ( x ) = ∇ f ( x ) ⋅ u {\displaystyle \mathbf {u}{}{f}(\mathbf {x} )=\mathbf(\mathbf {x})\cdot \mathbf {u}}}} Using the notation just defined for the derivative of a scalar with respect to a vector we can re-write the directional derivative as ∇ u f = ∂ f ∂ x u . {\displaystyle \nabla _{\mathbf {u} }f={\frac {\partial f}{\partial \mathbf {x} }}\mathbf {u} .} This type of notation will be nice when proving product rules and chain r 스칼라 파생상품 에 대해 우리가 익숙한 것과 비슷하게 보이는 정강이뼈
벡터 바이 벡터 앞의 두 경우 각각은 크기 1의 벡터를 적절히 사용하여 벡터에 관한 벡터의 파생상품의 적용으로 간주할 수 있다. 이와 유사하게 매트릭스를 포함하는 파생상품은 벡터를 포함하는 파생상품으로 감소할 것이다.
입력 벡터, x)[x1x2⋯ xn]에 대한 벡터 함수의 도함수(요소들이 기능 벡터)y=[y 1y2⋯는 ym]T{\displaystyle \mathbf{y}={\begin{bmatrix}y_{1}&, y_{2}&, \cdots &, y_{m}\end{bmatrix}}^{\mathsf{T}}},. T{\dis Playstyle \mathbf {x} ={\begin{bmatrix}x_{1}x_{2}&\cdots &x_{n}\end{bmatrix}}^{\mathsf{T }}}} 는 분자 레이아웃 표기법 으로 표기된다.
∂ y ∂ x = [ ∂ y 1 ∂ x 1 ∂ y 1 ∂ x 2 ⋯ ∂ y 1 ∂ x n ∂ y 2 ∂ x 1 ∂ y 2 ∂ x 2 ⋯ ∂ y 2 ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ y m ∂ x 1 ∂ y m ∂ x 2 ⋯ ∂ y m ∂ x n ] . {\displaystyle{\frac{\partial \mathbf{y}}{\partial \mathbf{)}}}={\begin{bmatrix}{\frac{\partial y_{1}}{\partial x_{1}}}&{\frac{\partial y_{1}}{\partial x_{2}}}&\cdots &,{\frac{\partial y_{1}}{\partial x_{n}}}\\{\frac{\partial y_{2}}{\partial x_{1}}}&{\frac{\partial y_{2}}{\partial x_{2}}}&\cdots &,{\frac{\partial Y_{2}}{\partial x_{n}}}\\ \vdots &\vdots &\vdots &\vdots \\\frac {\frac}{\nm}{\preased y_{1}{m}}&#prac {\preased y_{m}}}\preas y_{n}}}}\{bmatrix}}}. } 벡터 미적분학 에서, 공간을 나타내는 성분이 있는 벡터 x에 대한 벡터 함수 y 의 파생물은 푸시포워드 (또는 미분 ) 또는 제이콥 매트릭스 라고 알려져 있다.
The pushforward along a vector function f with respect to vector v in R n is given by d f ( v ) = ∂ f ∂ v d v . {\displaystyle d\,\mathbf {f} (\mathbf {v} )={\frac {\partial \mathbf {f} }{\partial \mathbf {v} }}d\,\mathbf {v} .}
행렬이 있는 파생상품 행렬이 있는 파생상품에는 같은 크기의 행렬로 정리할 수 있는 두 가지 유형이 있다. 이것들은 스칼라에 의한 행렬의 파생물이고, 매트릭스에 의한 스칼라의 파생물이다. 이는 응용 수학의 많은 영역에서 발견되는 문제를 최소화하는 데 유용할 수 있으며 벡터에 대한 아날로그 뒤에 접선 행렬 과 구배 행렬 이라는 이름을 각각 채택했다.
참고 : 이 절의 논의는 교육학적 목적을 위한 분자 배치 규칙 을 가정한다. 어떤 작가들은 다른 관습을 사용한다. 레이아웃 규약 에 대한 섹션에서는 이 문제에 대해 더 자세히 설명한다. 더 아래에 제시된 ID는 모든 공통 배치 규칙과 함께 사용할 수 있는 형태로 제시된다.
매트릭스 바이 스칼라 스칼라 x 에 의한 행렬 함수 Y 의 파생형은 접선 행렬 로 알려져 있으며 (숫자 레이아웃 표기법 )에 의해 주어진다.
∂ Y ∂ x = [ ∂ y 11 ∂ x ∂ y 12 ∂ x ⋯ ∂ y 1 n ∂ x ∂ y 21 ∂ x ∂ y 22 ∂ x ⋯ ∂ y 2 n ∂ x ⋮ ⋮ ⋱ ⋮ ∂ y m 1 ∂ x ∂ y m 2 ∂ x ⋯ ∂ y m n ∂ x ] . {\displaystyle{\frac{\partial \mathbf{Y}}{x\partial}}={\begin{bmatrix}{\frac{\partial y_{11}}{x\partial}}&{\frac{\partial y_{12}}{x\partial}}&\cdots,{\frac{\partial y_{1n}}{x\partial}}\\{\frac{\partial y_{21}}{x\partial}}&{\frac{\partial y_{22}}{x\partial}}&\cdots &,{\frac{\partial y_{2n}}{x\partial}}\\\vdot &.s&\vdots, \ddots & &, \vdot s\\{\frac {\frac y_{m1}:{\frac x}}{\frac {\frac y_{m2}}:{\frac y_{mn}}}{\frac y_}}{bmatrix}}}}}. } 스칼라 바이 매트릭스 X 행렬 과 관련하여 독립 변수의 p×q 행렬 X 의 스칼라 y 함수의 파생형은 (숫자 레이아웃 표기법 )에 의해 주어진다.
∂ y ∂ X = [ ∂ y ∂ x 11 ∂ y ∂ x 21 ⋯ ∂ y ∂ x p 1 ∂ y ∂ x 12 ∂ y ∂ x 22 ⋯ ∂ y ∂ x p 2 ⋮ ⋮ ⋱ ⋮ ∂ y ∂ x 1 q ∂ y ∂ x 2 q ⋯ ∂ y ∂ x p q ] . {\displaystyle{\frac{\partial y}{\partial \mathbf{X}}}={\begin{bmatrix}{\frac{이\partial}{\partial x_{11}}}&{\frac{이\partial}{\partial x_{21}}}&\cdots &,{\frac{이\partial}{\partial x_{p1}}}\\{\frac{이\partial}{\partial x_{12}}}&{\frac{이\partial}{\partial x_{22}}}&\cdots &,{\frac{이\partial}{\partial x_{p2}}}\\\vdot.s&\vdots, \ddots & &, \vdot s\\{\frac {\frac}{\preason x_{1q}}&#{\fract y}{\preason x_{2q}}\cdots &{\preason y}{\fract x_{pq}}}\end{bmatrix}}}}. } 행렬의 스칼라 함수의 중요한 예는 행렬의 추적 과 결정 인자를 포함한다.
벡터 미적분학 을 가진 아날로그에서 이 파생상품은 종종 다음과 같이 쓰여진다.
∇ X y ( X ) = ∂ y ( X ) ∂ X {\displaystyle \nabla _{\mathbf {X}}y(\mathbf {X})={\frac {\partial y(\mathbf {X})}{\partial \mathbf {X}}}}}}} 또한 벡터 미적분학 을 가진 아날로그에서 행렬 Y 의 방향으로 행렬 X의 스칼라 f(X )의 방향 파생 은 다음과 같이 주어진다.
∇ Y f = tr ( ∂ f ∂ X Y ) . {\displaystyle \nabla _{\mathbf {Y} }f=\operatorname {tr} \left({\frac {\partial f}{\partial \mathbf {X}}}}}}}\mathbf {Y} \right) } 특히 추정 이론 , 특히 현장에서 매우 중요한 Kalman 필터 알고리즘의 파생 에서 추정 이론의 최소화 문제에 많은 용도를 찾아내는 것이 그라데이션 매트릭스다.
기타매트릭스파생상품 고려되지 않은 세 가지 유형의 파생상품은 벡터별, 매트릭스별, 매트릭스별 파생상품이다. 이것들은 널리 고려되지 않고 표기법도 널리 합의되지 않았다.
배치 규칙 이 절에서는 매트릭스 미적분을 이용하는 다양한 분야에서 사용되는 공칭 규약 간의 유사성과 차이점에 대해 논의한다. 대체로 두 가지 일관된 규약이 있지만, 일부 저자들은 아래에서 논의되는 형태로 두 규약을 혼합하는 것이 편리하다고 생각한다. 이 섹션 이후에 방정식은 두 경쟁 양식에 각각 나열된다.
근본적인 문제는 벡터에 관한 벡터의 파생상품, 즉 ∂ y ∂ x {\ displaystyle {\frac {\partial \mathbf {y}{}{\partial \mathbf {x}}}}} 이( 가) 종종 두 가지 경쟁적인 방법으로 쓰여진다는 것이다. 분자 y 가 m 크기 이고 분모 x 가 n 크기인 경우 결과 는 m×n 행렬 또는 n×m 행렬, 즉 y 의 원소가 열에 배열되어 있고 x의 원소가 행에 배열되어 있거나 그 반대의 경우도 가능하다. 이는 다음과 같은 가능성을 초래한다.
분자 배치 , 즉 y 와 x T (즉 , x에 대해 반론적으로)에 따라 배치한다. 이것은 때때로 자코비안 공식 으로 알려져 있다. 이는 앞의 예에서 m×n 레이아웃에 해당한다. 분모 배치 , 즉 y 와T x 에 따라 배치(즉, 반대 방향 으로 y에 배치) 이것은 때때로 헤시안 공식 으로 알려져 있다. 일부 저자는 이 레이아웃을 Jacobian (숫자 레이아웃)과 구별하여 그라데이션 이라고 부르는데, 이것이 전치되는 것이다. (단, 그라데이션 은 일반적으로 레이아웃에 관계 없이 y y ∂ x , {\displaystyle {\frac {\partial y}{\partial \mathbf{x}}}}}}) 를 의미한다. 이는 앞의 예에서 n×m 레이아웃에 해당한다. 세 번째 가능성은 때때로 파생상품을 ∂ y x x ′ , {\displaystyle {\frac {\partial \mathbf {y}{{\partial \mathbf {x} '}},}( 즉, 파생상품은 x 의 전치현황과 관련하여 취함)로 작성하고 분자 배치를 따르는 것이다. 이를 통해 행렬이 분자와 분모 모두에 따라 배열된다고 주장할 수 있다. 실제로 이것은 분자 배치와 동일한 결과를 산출한다. 그라데이션 y y y x {\ displaystyle {\frac {\partial y}{\partial \mathbf {x}}}} 과 (와) 반대의 경우 case y ∂ x , {\partial \frac {\partial \mathbf {y}{\partial x}}}}}}} 을(으) 처리할 때도 동일한 문제가 있다. 일관성을 유지하기 위해서는 다음 중 하나를 해야 한다.
If we choose numerator layout for ∂ y ∂ x , {\displaystyle {\frac {\partial \mathbf {y} }{\partial \mathbf {x} }},} we should lay out the gradient ∂ y ∂ x {\displaystyle {\frac {\partial y}{\partial \mathbf {x} }}} as a row vector, and ∂ y ∂ x {\displaystyle {\frac {\partial \mathbf {y} }{\parti al x}} 을 (를) 열 벡터로. If we choose denominator layout for ∂ y ∂ x , {\displaystyle {\frac {\partial \mathbf {y} }{\partial \mathbf {x} }},} we should lay out the gradient ∂ y ∂ x {\displaystyle {\frac {\partial y}{\partial \mathbf {x} }}} as a column vector, and ∂ y ∂ x {\displaystyle {\frac {\partial \mathbf {y} }{\ 행 벡터로 부분 x}}. 위의 세 번째 가능성 에서는 ∂ y ∂ x ′ {\ displaystyle {\frac {\partial y}{\partial y}{\partial y}} 및 ∂ y \ x {, {\prac {\partial \mathbf {y}{\partial x}}, 분자 레이아웃을 쓰고 있다 . 모든 수학 교과서와 논문이 이 점에서 일관되는 것은 아니다. 즉, 동일한 책이나 종이 안에서 때때로 다른 맥락에서 다른 관습들이 사용된다. 예를 들어, 일부에서는 구배(column vectors)에 대해 분모 레이아웃을 선택하지만, 벡터별 파생 모델 ∂ y ∂ x . {\displaystyle {\frac {\partial \mathbf {y}{\partial \mathbf {x}}}}}}}} 에 대한 분자 레이아웃을 선택한다. }
반면 일관된 굴 때scalar-by-matrix 파생 상품에 관해서 마찬가지로, y}}}과matrix-by-scalar 파생 상품)Y∂ ∂∂ X{\displaystyle{\frac{\partial y}{\partial \mathbf{X}∂,{\displaystyle{\frac{\partial \mathbf{Y}}{x\partial}},}그 일관된 분자 설계 Y, XT최상급에 따르면,를 나열.o Minator 레이아웃은 Y 와T X 에 따라 배치된다. 그러나 실제로는 ∂ Y ∂ x , {\displaystyle {\frac {\partial \partial \mathbf { Y}{\partial x}}} 에 대한 분모 레이아웃을 따르고 결과를 Y 에T 따라 배열하는 것은 스칼라 공식에 해당되지 않는 추악한 공식을 만들기 때문에 거의 보이지 않는다. 그 결과, 다음과 같은 레이아웃을 흔히 찾을 수 있다.
일관 된 분자 레이아웃 , X 에T 따라 ∂ Y ∂ x {\ displaystyle {\frac {}{\partial \ mathbf {Y}{\partial y}{\ partial \mathbf {X}}}}}} 을(를) 배치한다. 혼합 레이아웃 , X 에 따라 ∂ Y ∂ x {\ displaystyle {\frac {\partial \mathbf {Y }{\ partial x}}}을( 를) 배치함. 일관 된 분자 레이아웃과 동일한 결과를 가진 notation y ∂ X ′ , {\displaystyle {\frac {\partial y}{\partial \mathbf {X}'}}}을( 를) 사용하십시오. In the following formulas, we handle the five possible combinations ∂ y ∂ x , ∂ y ∂ x , ∂ y ∂ x , ∂ y ∂ X {\displaystyle {\frac {\partial y}{\partial \mathbf {x} }},{\frac {\partial \mathbf {y} }{\partial x}},{\frac {\partial \mathbf {y} }{\partial \mathbf {x} }},{\frac {\partial y}{\partial \mathbf { X}{}}} 과 (와) ∂ Y ∂ x {\ displaystyle {\frac {\partial \mathbf {Y}{\partial x}} 은(는) 별도로 . 중간 벡터나 매트릭스를 수반하는 스칼라별 파생상품의 사례도 취급한다.(예를 들어, 다차원 파라메트릭 곡선 이 스칼라 변수에 의해 정의되고, 그 다음에 곡선을 모수화하는 스칼라에 대해 곡선의 스칼라 함수의 파생상품이 취해진다면 발생할 수 있다.) 다양한 조합 각각에 대해 분모 레이아웃이 거의 발생하지 않는 위의 경우를 제외하고 분모 레이아웃과 분모 레이아웃 결과를 제공한다. 이해가 되는 행렬을 포함하는 경우, 우리는 분자 배열과 혼합 배치 결과를 제공한다. 위에서 언급한 바와 같이, 벡터와 행렬 분모가 전치 표기법으로 쓰여진 경우는 전치 없이 쓰여진 분모가 있는 분자 배치와 동일하다.
다양한 저자가 다양한 유형의 파생상품에 대해 분자와 분모 레이아웃의 다른 조합을 사용하며, 저자가 모든 유형에 대해 분자나 분모 레이아웃을 일관되게 사용한다는 보장은 없다는 점을 명심해야 한다. 아래 공식을 출처에서 인용한 공식과 일치시켜 특정 유형의 파생상품에 사용되는 레이아웃을 결정하되, 다른 유형의 파생상품이 반드시 동일한 종류의 레이아웃을 따른다고 가정하지 않도록 주의하십시오.
골재의 최대 또는 최소값을 찾기 위해 골재(벡터 또는 행렬) 분모가 있는 파생상품을 취할 때 분자 레이아웃을 사용하면 골재와 관련하여 전치된 결과가 나온다는 점을 유념해야 한다. 예를 들어, 행렬 미적분을 사용하여 다변량 정규 분포 의 최대우 도 추정치를 찾으려고 할 때, 도메인이 k ×1 열 벡터인 경우, 분자 레이아웃을 사용한 결과는 1×k 열 벡터 형태가 된다. 따라서 결과를 끝에서 전치하거나 분모 레이아웃(또는 혼합 레이아웃)을 사용해야 한다.
다양한 종류의 Aggregate를 다른 종류의 Aggregate와 차별화한 결과 스칼라 y 열 벡터 y (크기 m ×1 ) 매트릭스 Y(크기 m×n ) 표기법 유형 표기법 유형 표기법 유형 스칼라 x 분자 ∂ y ∂ x {\displaystyle {\frac {\property y}{\put x}} 스칼라 ∂ y ∂ x {\displaystyle {\frac {\reason \mathbf {y}{\reason x}}} 크기-m 열 벡터 ∂ Y ∂ x {\displaystyle {\frac {\partial \mathbf {Y}{\partial x}} m ×n 행렬 분모 크기-m 행 벡터 열 벡터 x(n ×1 ) 분자 ∂ y ∂ x {\displaystyle {\frac {\frac y}{\reason \mathbf{x}}}} N행 벡터 크기 ∂ y ∂ x {\displaystyle {\frac {\reason \mathbf {y}{}{\reason \mathbf {x}}}} m ×n 행렬 ∂ Y ∂ x {\displaystyle {\frac {\partial \mathbf {Y}{{\partial \mathbf {x}}}} 분모 크기-n 열 벡터 n ×m 매트릭스 매트릭스 X(크기 p ×q ) 분자 ∂ y ∂ X {\displaystyle {\frac {\partial y}{\partial \mathbf {X}}}} q ×p 행렬 ∂ y ∂ X {\displaystyle {\frac {\partial \mathbf {y}{{\partial \mathbf {X}}}} ∂ Y ∂ X {\displaystyle {\frac {\partial \mathbf {Y}{{\partial \mathbf {X}}}} 분모 p ×q 행렬
분자-레이아웃과 분모-레이아웃 표기법 사이를 전환할 때 작동 결과가 전치된다.
분자-레이아웃 표기법 분자-레이아웃 표기법을 사용하여 다음 사항을 확인하십시오.[1]
∂ y ∂ x = [ ∂ y ∂ x 1 ∂ y ∂ x 2 ⋯ ∂ y ∂ x n ] . ∂ y ∂ x = [ ∂ y 1 ∂ x ∂ y 2 ∂ x ⋮ ∂ y m ∂ x ] . ∂ y ∂ x = [ ∂ y 1 ∂ x 1 ∂ y 1 ∂ x 2 ⋯ ∂ y 1 ∂ x n ∂ y 2 ∂ x 1 ∂ y 2 ∂ x 2 ⋯ ∂ y 2 ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ y m ∂ x 1 ∂ y m ∂ x 2 ⋯ ∂ y m ∂ x n ] . ∂ y ∂ X = [ ∂ y ∂ x 11 ∂ y ∂ x 21 ⋯ ∂ y ∂ x p 1 ∂ y ∂ x 12 ∂ y ∂ x 22 ⋯ ∂ y ∂ x p 2 ⋮ ⋮ ⋱ ⋮ ∂ y ∂ x 1 q ∂ y ∂ x 2 q ⋯ ∂ y ∂ x p q ] . {\displaystyle {\begin{aligned}{\frac {\partial y}{\partial \mathbf {x} }}&={\begin{bmatrix}{\frac {\partial y}{\partial x_{1}}}&{\frac {\partial y}{\partial x_{2}}}&\cdots &{\frac {\partial y}{\partial x_{n}}}\end{bmatrix}}. \\{\frac {\partial \mathbf {y} }{\partial x}}&={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x}}\\{\frac {\partial y_{2}}{\partial x}}\\\vdots \\{\frac {\partial y_{m}}{\partial x}}\\\end{bmatrix}}. \\{\frac{\partial \mathbf{y}}{\partial \mathbf{)}}}&={\begin{bmatrix}{\frac{\partial y_{1}}{\partial x_{1}}}&{\frac{\partial y_{1}}{\partial x_{2}}}&\cdots &,{\frac{\partial y_{1}}{\partial x_{n}}}\\{\frac{\partial y_{2}}{\partial x_{1}}}&{\frac{\partial y_{2}}{\partial x_{2}}}&\cdots &,{\frac{\partial y_{2}}{\p.artial x_{n}}}\\\vdots, \vdo & ts &\ddots \\\ddots \{\frac {\frac}{\properties x_{1}:{m}{\pract y_{n1}}{\propert x_{2}}}\cdots &{\fract y_{\m}}}\end{bmatrix}}}}. \\{\frac{이\partial}{\partial \mathbf{X}}}&={\begin{bmatrix}{\frac{이\partial}{\partial x_{11}}}&{\frac{이\partial}{\partial x_{21}}}&\cdots,{\frac{이\partial}{\partial x_{p1}}}\\{\frac{이\partial}{\partial x_{12}}}및 &,{\frac{이\partial}{\partial x_{22}}}&\cdots,{\frac{이\partial}{\partial x_{p2}}}\\\vdots &, \ &.vdots, \ddots &, \vdots{\frac \\{& \cHB y}{\cHB x_{1q}}&{\frac {\preason x_{2q}}&\cdots &{\preason y}{\preason x_{pq}}}\end{bmatrix}}}. \end{정렬}}} 다음 정의는 분자-레이아웃 표기법으로만 제공된다.
∂ Y ∂ x = [ ∂ y 11 ∂ x ∂ y 12 ∂ x ⋯ ∂ y 1 n ∂ x ∂ y 21 ∂ x ∂ y 22 ∂ x ⋯ ∂ y 2 n ∂ x ⋮ ⋮ ⋱ ⋮ ∂ y m 1 ∂ x ∂ y m 2 ∂ x ⋯ ∂ y m n ∂ x ] . d X = [ d x 11 d x 12 ⋯ d x 1 n d x 21 d x 22 ⋯ d x 2 n ⋮ ⋮ ⋱ ⋮ d x m 1 d x m 2 ⋯ d x m n ] . {\displaystyle{\begin{정렬}{\frac{\partial \mathbf{Y}}{x\partial}}&={\begin{bmatrix}{\frac{\partial y_{11}}{x\partial}}&{\frac{\partial y_{12}}{x\partial}}&\cdots &,{\frac{\partial y_{1n}}{x\partial}}\\{\frac{\partial y_{21}}{x\partial}}&{\frac{\partial y_{22}}{x\partial}}&\cdots &,{\frac{\partial y_{2n}.}{x\partial}}\\\vdots, \vdo & ts &\ddots &\vdots \\\frac {\frac y_{m1}{\frac}{\property y_{m2}}:{\frac y_{mn}}}}{\frac y_{mn}}\end{bmatrix}}}. \\d\mathbf {X} &={\begin{bmatrix}dx_{11}&dx_{12}&\cdots &dx_{1n}\\dx_{21}&dx_{22}&\cdots &dx_{2n}\\\vdots &\vdots &\ddots &\vdots \\dx_{m1}&dx_{m2}&\cdots &dx_{mn}\\\end{bmatrix}}. \end{정렬}}} 분모-레이아웃 표기법 분모-레이아웃 표기법을 사용하여 다음 사항을 확인하십시오.[2]
∂ y ∂ x = [ ∂ y ∂ x 1 ∂ y ∂ x 2 ⋮ ∂ y ∂ x n ] . ∂ y ∂ x = [ ∂ y 1 ∂ x ∂ y 2 ∂ x ⋯ ∂ y m ∂ x ] . ∂ y ∂ x = [ ∂ y 1 ∂ x 1 ∂ y 2 ∂ x 1 ⋯ ∂ y m ∂ x 1 ∂ y 1 ∂ x 2 ∂ y 2 ∂ x 2 ⋯ ∂ y m ∂ x 2 ⋮ ⋮ ⋱ ⋮ ∂ y 1 ∂ x n ∂ y 2 ∂ x n ⋯ ∂ y m ∂ x n ] . ∂ y ∂ X = [ ∂ y ∂ x 11 ∂ y ∂ x 12 ⋯ ∂ y ∂ x 1 q ∂ y ∂ x 21 ∂ y ∂ x 22 ⋯ ∂ y ∂ x 2 q ⋮ ⋮ ⋱ ⋮ ∂ y ∂ x p 1 ∂ y ∂ x p 2 ⋯ ∂ y ∂ x p q ] . {\displaystyle {\begin{aligned}{\frac {\partial y}{\partial \mathbf {x} }}&={\begin{bmatrix}{\frac {\partial y}{\partial x_{1}}}\\{\frac {\partial y}{\partial x_{2}}}\\\vdots \\{\frac {\partial y}{\partial x_{n}}}\\\end{bmatrix}}. \\frac {\frac {\mathbf {y}{\mathbf {}{\matrix}{\frac {\frac {\frac y_{1}{1}{\frased x&}}{\frac {\cd}}{\frasm\{bmatrix}}}}}}}. \\{\frac{\partial \mathbf{y}}{\partial \mathbf{)}}}&={\begin{bmatrix}{\frac{\partial y_{1}}{\partial x_{1}}}&{\frac{\partial y_{2}}{\partial x_{1}}}&\cdots &,{\frac{\partial y_{m}}{\partial x_{1}}}\\{\frac{\partial y_{1}}{\partial x_{2}}}&{\frac{\partial y_{2}}{\partial x_{2}}}&\cdots &,{\frac{\partial y_{m}}{\p.artial x_{2}}}\\\vdots, \vdo & ts &\ddots \\\ddots \{\frac {\frac}{\n1}{\prac x_{n}}&{\pract y_{n}}}{\propert x_{n}}}}\cdots&{\frac x_{\n}\end{bmatrix}}}. \\{\frac{이\partial}{\partial \mathbf{X}}}&={\begin{bmatrix}{\frac{이\partial}{\partial x_{11}}}&{\frac{이\partial}{\partial x_{12}}}&\cdots,{\frac{이\partial}{\partial x_{1q}}}\\{\frac{이\partial}{\partial x_{21}}}및 &,{\frac{이\partial}{\partial x_{22}}}&\cdots,{\frac{이\partial}{\partial x_{2q}}}\\\vdots &, \ &.vdots, \ddots &, \vdots{\frac \\{& \cHB y}{\cHB x_{p1}}&{\frac {\p1}{\p1}{\p1}}\cdots &{\fract y}{\pq}}}\end{bmatrix}}}. \end{정렬}}} 정체성 위에서 언급한 바와 같이 일반적으로 분자-레이아웃과 분모-레이아웃 표기법 사이를 전환할 때 운용 결과가 전치된다.
아래의 모든 ID를 이해할 수 있도록 가장 중요한 규칙인 체인 규칙 , 제품 규칙 및 합계 규칙 을 기억하십시오. 합계는 보편적으로 적용되며, 매트릭스 제품은 서로 상통하지 않기 때문에 매트릭스 제품의 순서가 유지된다면 아래 대부분의 경우에 제품 규칙이 적용된다. 체인 규칙은 일부 경우에 적용되지만 불행히도 매트릭스별 파생상품이나 스칼라 바이 매트릭스 파생상품에는 적용 되지 않는다(후자의 경우, 매트릭스에 적용된 추적 연산자를 대부분 포함한다). 후자의 경우, 제품 규칙도 직접적으로 적용할 수 없지만, 이와 동등한 것은 차등적 정체성을 이용하여 조금 더 많은 작업을 할 수 있다.
다음 ID는 다음과 같은 규약을 채택한다.
스칼라, a, b, c, d 및 e는 x, x , x 또는 X 중 하나의 함수로서, 스칼라, u, v 벡터, a , b , c , d 및 e 는 x, x 또는 X 의 함수 중 하나이며, 벡터, u 및 v 는 x, x 또는 X의 함수 중 하나이다. 행렬, A , B , C , D , E 는 일정하며 행렬, U , V 는 x, x 또는 X 중 하나의 함수다. 벡터별 ID 이는 벡터별 분화에 적용되는 모든 연산이 단순히 분자나 분모의 적절한 벡터를 스칼라에 환원함으로써 벡터별 또는 스칼라별 분화에 직접 적용되기 때문에 먼저 제시된다.
ID: 벡터 바이 벡터 x y ∂ x {\ displaystyle {\frac {\partial \mathbf {y}{{\partial \mathbf {x}}}} 조건 표현 분자 레이아웃(예 : y 및 x 기준 T ) 분모 레이아웃(예T : y 및 x) a 는 x 의 함수가 아니다. ∂ a ∂ x = {\displaystyle {\frac {\mathbf {a}{\reason \mathbf {x}}}}} 0 {\displaystyle \mathbf {0} } ∂ x ∂ x = {\displaystyle {\frac {\mathbf {x}{\reason \mathbf {x}}}{\reason \mathbf {x}}}}} I {\displaystyle \mathbf {I} } A 는 x 의 함수가 아니다. ∂ A x ∂ x = {\displaystyle {\frac {\partial \mathbf {A} \mathbf {x}{\partial \mathbf {x}}}}}} A {\displaystyle \mathbf {A} } A ⊤ {\displaystyle \mathbf {A}^{\top }} A 는 x 의 함수가 아니다. ∂ x ⊤ A ∂ x = {\displaystyle {\frac {\partial \mathbf {x} ^{\top }\mathbf {A}{\partial \mathbf {x}}}}}}}} A ⊤ {\displaystyle \mathbf {A}^{\top }} A {\displaystyle \mathbf {A} } a 는 x 의 함수가 아니다.u = u (x ) ∂ a u ∂ x = {\displaystyle {\frac {\reason a\mathbf {u}}{\reason\,\mathbf {x}}}=} a ∂ u ∂ x {\displaystyle a{\frac {\mathbf {u}{}{\mathbf {x}}}} v = v (x ), a 는 x 의 함수가 아니다. ∂ v a ∂ x = {\displaystyle {\frac {\reason v\mathbf {a}{}{\reason \mathbf {x}}}}} a ∂ v ∂ x {\displaystyle \mathbf {a} {\frac {\frac v}{\reason \mathbf {x}}} ∂ v ∂ x a ⊤ {\displaystyle {\frac {\preason v}{\\mathbf {x}}}}}\mathbf {a}^{\top }}}} v = v (x ), u = u (x ) ∂ v u ∂ x = {\displaystyle {\frac {\reason v\mathbf {u}{}{\reason \mathbf {x}}}}} v ∂ u ∂ x + u ∂ v ∂ x {\displaystyle v{\frac {\mathbf {u}{}}{\mathbf {x}}{\frac {\mathbf{\mathbf {x}}}}{\mathbf {x}}}}}}}} v ∂ u ∂ x + ∂ v ∂ x u ⊤ {\displaystyle v{\frac {\mathbf {u}{}}{\mathbf {x}}}}{\mathbf {x}}{\mathbf {u}}{\mathbf {u}}} ^{\top }}}}}}} A 는 x 의 함수가 아니라,u = u (x ) ∂ A u ∂ x = {\displaystyle {\frac {\partial \mathbf {A} \mathbf {u}{\partial \mathbf {x}}}}=} A ∂ u ∂ x {\displaystyle \mathbf {A} {\frac {\partial \mathbf {u}{\partial \mathbf {x}}}}} ∂ u ∂ x A ⊤ {\displaystyle {\frac {\partial \mathbf {u}{}{\partial \mathbf {x}}}}\mathbf {A}^{\top }}}}}} u = u (x ), v = v (x ) ∂ ( u + v ) ∂ x = {\displaystyle {\frac {\mathbf {u} +\mathbf {v}}}{\mathbf {x}}}}{\mathbf {}}}}} ∂ u ∂ x + ∂ v ∂ x {\displaystyle {\frac {\mathbf {u}{}}{\mathbf {x}}{\frac {\mathbf {v}{\mathbf {x}}}}}}} u = u (x ) ∂ g ( u ) ∂ x = {\displaystyle {\frac {\mathbf {g(u)}{}{\mathbf {x}}}=} ∂ g ( u ) ∂ u ∂ u ∂ x {\displaystyle {\frac {\mathbf {g(u)}{}{\mathbf {u}}{\frac {\mathbf {u}{\mathbf {x}}}}}}} ∂ u ∂ x ∂ g ( u ) ∂ u {\displaystyle {\frac {\mathbf {u}{}}{\mathbf {x}{\frac {\mathbf {g(u)}{\mathbf {u}}}}}} u = u (x ) ∂ f ( g ( u ) ) ∂ x = {\displaystyle {\frac {\mathbf {f(g(u))}{}{\mathbf {x}}}}} ∂ f ( g ) ∂ g ∂ g ( u ) ∂ u ∂ u ∂ x {\displaystyle {\frac {\mathbf {f(g)}{{\mathbf {g}{\frac {g(u)}}{\mathbf {u}}{\mathbf {u}{\mathbf {}{}}}{\mathbf {x}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}{\mathb ∂ u ∂ x ∂ g ( u ) ∂ u ∂ f ( g ) ∂ g {\displaystyle {\frac {\mathbf {u}{}{\mathbf {x}{\frac {g(으)}{\mathbf {}{\mathbf {u}}}{\mathbf {f(g)}{}\mathbf {g}}}}}}}}}}{\mathbmathbf}}}}}}}}}}}}}}}}}}}}}}{\mathbautbf.
스칼라별 벡터 ID 근본적인 정체성은 두터운 검은 선 위에 놓여 있다.
ID: 스칼라 바이 벡터 ∂ y ∇ x = ∇ x y {\displaystyle {\frac {\partial y}{\ partial }{\partial \mathbf{x}}}}}=\nabla _{\mathbf {x}}}y }y}y} 조건 표현 분자 레이아웃, 즉, x 에T 의한 결과 행 벡터 분모 레이아웃, 즉, x 에 의한 결과 열 벡터 a 는 x 의 함수가 아니다. ∂ a ∂ x = {\displaystyle {\frac {\reason a}{\reason \mathbf {x}}}} 0 ⊤ {\displaystyle \mathbf {0} ^{\top }} [3] 0 {\displaystyle \mathbf {0} } [3] a 는 x 의 함수가 아니다. u = u (x ) ∂ a u ∂ x = {\displaystyle {\frac {\bu}{\reason \mathbf {x}}}} a ∂ u ∂ x {\displaystyle a{\frac {\reason u}{\reason \mathbf {x}}} u = u (x ), v = v (x ) ∂ ( u + v ) ∂ x = {\displaystyle {\frac {\preason (u+v)}{\reason \mathbf {x}}}} ∂ u ∂ x + ∂ v ∂ x {\displaystyle {\frac {\frac {\properties u}{\\mathbf {x}}}{\frac {\frac v}{\reason \mathbf {x}}}}}}} u = u (x ), v = v (x ) ∂ u v ∂ x = {\displaystyle {\frac {\properties uv}{\reason \mathbf {x}}}} u ∂ v ∂ x + v ∂ u ∂ x {\displaystyle u{\frac {\frac}{\\mathbf {x}}}}}+v{\frac {\mathbf {x}}}}} u = u (x ) ∂ g ( u ) ∂ x = {\displaystyle {\frac {\properties g(u)}{\redit \mathbf {x}}}}=} ∂ g ( u ) ∂ u ∂ u ∂ x {\displaystyle {\frac {\frac(u)}{\frac {\frac}{\frac {\flict u}{\mathbf {x}}}}} u = u (x ) ∂ f ( g ( u ) ) ∂ x = {\displaystyle {\frac {\put f(g(u) }}{\cHB \mathbf {x}}}}} ∂ f ( g ) ∂ g ∂ g ( u ) ∂ u ∂ u ∂ x {\displaystyle {\frac {\frac {\frac(g)}{\frac {\frac(u)}{\fract u}{\fract u}{\mathbf {x}}}}}}}}}}} u = u (x ), v = v (x ) ∂ ( u ⋅ v ) ∂ x = ∂ u ⊤ v ∂ x = {\displaystyle {\frac {\u} \cdot \mathbf {v}}{\cdot \mathbf {x}}{\frac {x}}}}{\mathbf {u}{\top }{\mathbf {v}}{\mathbf {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} u ⊤ ∂ v ∂ x + v ⊤ ∂ u ∂ x {\displaystyle \mathbf {u} ^{\top }{\frac {\mathbf {v}{\mathbf{x}}{\mathbf {v}}{\frac {\mathbf {u}{\frac {\mathbf {}}{\mathbf {x}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} numer u ∂ x , ∂ v ∂ v { x {\ displaystyle {\frac {\frac{\mathbf {u}{}}{\frac {x}}},{\frac {\mathbf {v}{\mathbf {x}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}.
∂ u ∂ x v + ∂ v ∂ x u {\displaystyle {\frac {\mathbf {u}{}}{\mathbf {x}}}}\mathbf {v} +{\frac {\mathbf {v}{\mathbf {}}{\mathbf {u}}}}}}}}}}}}}}}} ∂ u ∂ x , ∂ v ∂ v { x {\displaystyle {\ frac {\frac {\frac {u}}{\mathbf {x}}},{\frac {\mathbf {v}{\mathbf {x}}}}}}}}}} 분모 레이아웃
u = u (x ), v = v (x ), A 는 x 의 함수가 아니다. ∂ ( u ⋅ A v ) ∂ x = ∂ u ⊤ A v ∂ x = {\displaystyle {\frac {\partial (\mathbf {u} \cdot \mathbf {A} \mathbf {v} )}{\partial \mathbf {x} }}={\frac {\partial \mathbf {u} ^{\top }\mathbf {A} \mathbf {v} }{\partial \mathbf {x} }}=} u ⊤ A ∂ v ∂ x + v ⊤ A ⊤ ∂ u ∂ x {\displaystyle \mathbf {u} ^{\top }\mathbf {A} {\frac {\partial \mathbf {v} }{\partial \mathbf {x} }}+\mathbf {v} ^{\top }\mathbf {A} ^{\top }{\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}} numer u ∂ x , ∂ v ∂ v { x {\ displaystyle {\frac {\frac{\mathbf {u}{}}{\frac {x}}},{\frac {\mathbf {v}{\mathbf {x}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}.
∂ u ∂ x A v + ∂ v ∂ x A ⊤ u {\displaystyle {\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}\mathbf {A} \mathbf {v} +{\frac {\partial \mathbf {v} }{\partial \mathbf {x} }}\mathbf {A} ^{\top }\mathbf {u} } ∂ u ∂ x , ∂ v ∂ v { x {\displaystyle {\ frac {\frac {\frac {u}}{\mathbf {x}}},{\frac {\mathbf {v}{\mathbf {x}}}}}}}}}} 분모 레이아웃
∂ 2 f ∂ x ∂ x ⊤ = {\displaystyle {\frac {\preason ^{2}f}{\mathbf {x} \mathbf {x} \mathbf {x} ^{\top }=}}}} H ⊤ {\displaystyle \mathbf {H}^{\top }} H {\ displaystyle \mathbf {H }, 헤시안 행렬 [4] a 는 x 의 함수가 아니다. ∂ ( a ⋅ x ) ∂ x = ∂ ( x ⋅ a ) ∂ x = {\displaystyle {\frac {\a} \cdot \mathbf {x}}{\cdot \mathbf {x}}{\cdot \mathbf {a}}{\mathbf {x}}}}}{\mathbf {}}}}}}}}}}}}}}}}} ∂ a ⊤ x ∂ x = ∂ x ⊤ a ∂ x = {\displaystyle {\frac {\mathbf {a}^{\top }\mathbf {x}{\mathbf {x}}{\frac {x}}}}{\mathbf {x}{\mathbf {a}{\mathbf {}}}}}}{\mathbf {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} a ⊤ {\displaystyle \mathbf {a} ^{\top }} a {\displaystyle \mathbf {a} } A 는 x 의 함수가 아니다. b 는 x 의 함수가 아니다. ∂ b ⊤ A x ∂ x = {\displaystyle {\frac {\partial \mathbf {b} ^{\top }\mathbf {A} \mathbf {x}{\partial \mathbf {x}}}}}}}} b ⊤ A {\displaystyle \mathbf {b}^{\top }\mathbf {A}}} A ⊤ b {\displaystyle \mathbf {A}^{\top }\mathbf {b}}} A 는 x 의 함수가 아니다. ∂ x ⊤ A x ∂ x = {\displaystyle {\frac {\partial \mathbf {x} ^{\top }\mathbf {A} \mathbf {x}{\partial \mathbf {x}}}}}}} x ⊤ ( A + A ⊤ ) {\displaystyle \mathbf {x} ^{\top }\왼쪽(\mathbf {A} +\mathbf {A} ^{\top }\오른쪽)} ( A + A ⊤ ) x {\displaystyle \left(\mathbf {A} +\mathbf {A} ^{\top }\오른쪽)\mathbf {x}}} A 는 x 의 함수가 아니다. A 는 대칭이다 ∂ x ⊤ A x ∂ x = {\displaystyle {\frac {\partial \mathbf {x} ^{\top }\mathbf {A} \mathbf {x}{\partial \mathbf {x}}}}}}} 2 x ⊤ A {\displaystyle 2\mathbf {x}^{\top }\mathbf {A}}} 2 A x {\displaystyle 2\mathbf {A} \mathbf {x} } A 는 x 의 함수가 아니다. ∂ 2 x ⊤ A x ∂ x ∂ x ⊤ = {\displaystyle {\frac {\partial ^{2}\mathbf {x} ^{\top }\mathbf {A} \mathbf {x}{\partial \mathbf {x} \partial \mathbf {x}^{\top }=}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} A + A ⊤ {\displaystyle \mathbf {A} +\mathbf {A} ^{\top }} A 는 x 의 함수가 아니다. A 는 대칭이다 ∂ 2 x ⊤ A x ∂ x ∂ x ⊤ = {\displaystyle {\frac {\partial ^{2}\mathbf {x} ^{\top }\mathbf {A} \mathbf {x}{\partial \mathbf {x} \partial \mathbf {x}^{\top }=}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} 2 A {\displaystyle 2\mathbf {A}} ∂ ( x ⋅ x ) ∂ x = ∂ x ⊤ x ∂ x = ∂ ‖ x ‖ 2 ∂ x = {\displaystyle {\frac {\partial (\mathbf {x} \cdot \mathbf {x} )}{\partial \mathbf {x} }}={\frac {\partial \mathbf {x} ^{\top }\mathbf {x} }{\partial \mathbf {x} }}={\frac {\partial \left\Vert \mathbf {x} \right\Vert ^{2}}{\partial \mathbf {x} }}=} 2 x ⊤ {\displaystyle 2\mathbf {x} ^{\top }} 2 x {\displaystyle 2\mathbf {x} } a 는 x 의 함수가 아니다. u = u (x ) ∂ ( a ⋅ u ) ∂ x = ∂ a ⊤ u ∂ x = {\displaystyle {\frac {\a}\cdot \mathbf {u}}}{\cdot \mathbf {x}}{\frac {x}}}}{\mathbf {a}{\top }{\mathbf {u}}{\mathbf {}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} a ⊤ ∂ u ∂ x {\displaystyle \mathbf {a} ^{\top }{\frac {\mathbf {u}{}{\mathbf {x}}}}} numer u ∂ x {\ displaystyle {\frac {\frac {\mathbf {u}{}{\mathbf {x}}}} 분자 레이아웃에 ∂ u u u u u u u u?
∂ u ∂ x a {\displaystyle {\frac {\reason \mathbf {u}{}}{\reason \mathbf {x}}}\mathbf {a}}} ∂ u ∂ x {\ displaystyle {\frac {\reason \mathbf {u}{}{\reason \mathbf{x}}}}} 분모 레이아웃
a , b 는 x 의 기능이 아니다. ∂ a ⊤ x x ⊤ b ∂ x = {\displaystyle {\frac{\\textbf {a}^{\\textbf{x}}{\textbf{x}^{\textbf{b}}{\textbf {x}}}}}{\textbf {x}}}=}} x ⊤ ( a b ⊤ + b a ⊤ ) {\displaystyle {\textbf{x}^{\top }\left\textbf {b}^{\textbf {b}+{\textbf {a}}{\textbf{a}^{\top }\오른쪽)}}} ( a b ⊤ + b a ⊤ ) x {\displaystyle \left\textbf {a}{\textbf {b}^{\textbf {b}+{\textbf {a}^{\top }\오른쪽){\textbf {x}}}}} A , b , C , D, e 는 x 의 기능이 아니다. ∂ ( A x + b ) ⊤ C ( D x + e ) ∂ x = {\displaystyle {\frac {\partial \;({\textbf {A}}{\textbf {x}}+{\textbf {b}})^{\top }{\textbf {C}}({\textbf {D}}{\textbf {x}}+{\textbf {e}})}{\partial \;{\textbf {x}}}}=} ( D x + e ) ⊤ C ⊤ A + ( A x + b ) ⊤ C D {\displaystyle ({\textbf {D}}{\textbf {x}}+{\textbf {e}})^{\top }{\textbf {C}}^{\top }{\textbf {A}}+({\textbf {A}}{\textbf {x}}+{\textbf {b}})^{\top }{\textbf {C}}{\textbf {D}}} D ⊤ C ⊤ ( A x + b ) + A ⊤ C ( D x + e ) {\displaystyle {\textbf {D}}^{\top }{\textbf {C}}^{\top }({\textbf {A}}{\textbf {x}}+{\textbf {b}})+{\textbf {A}}^{\top }{\textbf {C}}({\textbf {D}}{\textbf {x}}+{\textbf {e}})} a 는 x 의 함수가 아니다. ∂ ‖ x − a ‖ ∂ x = {\displaystyle {\frac {\reason \\mathbf {x} -\mathbf {a} \{}{\reason \\\mathbf {x}}}}=} ( x − a ) ⊤ ‖ x − a ‖ {\displaystyle {\frac {(\mathbf {x} -\mathbf {a} )^{\}{{\\\\mathbf {a} \}}}} x − a ‖ x − a ‖ {\displaystyle {\frac {x} -\mathbf {a}{}{\mathbf {x} -\mathbf {a} \}}}
벡터 바이 스칼라 아이덴티티 ID: 벡터 바이 스칼라(Vector by scalar) ∂ y ∂ x {\ displaystyle {\frac {\partial \mathbf {y}{\partial x}}}} 조건 표현 분자 레이아웃(예: y ) 결과는 열 벡터 분모 레이아웃, 즉 y 에T 의한 결과는 행 벡터 a 는 x 의 함수가 아니다. ∂ a ∂ x = {\displaystyle {\frac {\mathbf {a}{\property x}=} 0 {\displaystyle \mathbf {0} } [3] a 는 x 의 함수가 아니다.u = u (x ) ∂ a u ∂ x = {\displaystyle {\frac {\reason a\mathbf {u}{}{\reason x}=} a ∂ u ∂ x {\displaystyle a{\frac {\reason \mathbf {u}{}{\reason x}} A 는 x 의 함수가 아니라,u = u (x ) ∂ A u ∂ x = {\displaystyle {\frac {\partial \mathbf {A} \mathbf {u}{\partial x}=} A ∂ u ∂ x {\displaystyle \mathbf {A} {\frac {\partial \mathbf {u}{\partial x}}} ∂ u ∂ x A ⊤ {\displaystyle {\frac {\partial \mathbf {u}{\partial x}}\mathbf {A}^{\top }}}} u = u (x ) ∂ u ⊤ ∂ x = {\displaystyle {\frac {\mathbf {u} ^{\top }{\property x}=} ( ∂ u ∂ x ) ⊤ {\displaystyle \left\frac {u}{\\mathbf {}{\mathbf }}}{\mathbf x}\오른쪽) u = u (x ), v = v (x ) ∂ ( u + v ) ∂ x = {\displaystyle {\frac {\mathbf {u} +\mathbf {v}}}{\mathbf x}=} ∂ u ∂ x + ∂ v ∂ x {\displaystyle {\frac {\mathbf {u}{\\mathbf {u}}{\mathbf}{\frac}{\mathbf {v}}}}} u = u (x ), v = v (x ) ∂ ( u ⊤ × v ) ∂ x = {\displaystyle {\frac {\mathbf {u} ^{\top }\mathbf {v}}}{\mathbf x}=} ( ∂ u ∂ x ) ⊤ × v + u ⊤ × ∂ v ∂ x {\displaystyle \left\frac {u}}{\mathbf {}{\mathbf {v} +\mathbf {u} ^\\\frac {\frac {\mathbf {v}{\mathbf}{\mathbf}}}}{\mathb}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}? ∂ u ∂ x × v + u ⊤ × ( ∂ v ∂ x ) ⊤ {\displaystyle {\frac {\mathbf {u}{\mathbf {u}}{\mathbf {v} +\mathbf {u} ^{\top }\mathbf {}\mathbf {}{\mathbf {v}}\right}^{\mathb}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} u = u (x ) ∂ g ( u ) ∂ x = {\displaystyle {\frac {\mathbf {g(u)}{{\mathbf {g(u)}}}} ∂ g ( u ) ∂ u ∂ u ∂ x {\displaystyle {\frac {\mathbf {g(u)}{}{\mathbf {u}}{\frac {\mathbf {u}{\mathbf {}{\mathbf x}}}}}}}} ∂ u ∂ x ∂ g ( u ) ∂ u {\displaystyle {\frac {\mathbf {u}{\mathbf {u}{\mathbf {g(u)}{\mathbf {u}}}}} 일관된 행렬 레이아웃을 가정한다. 아래를 참조하십시오. u = u (x ) ∂ f ( g ( u ) ) ∂ x = {\displaystyle {\frac {\mathbf {f(g(u))}{}{\mathbf {f(g(u)}}}} ∂ f ( g ) ∂ g ∂ g ( u ) ∂ u ∂ u ∂ x {\displaystyle {\frac {\mathbf {f(g)}{{\mathbf {g}{\mathbf {g(u)}}{\mathbf {u}}{\mathbf {}{\mathbf {}{}{\mathbf}{}}}}}{\mathb(으)}}}}}}}}}}}}}}}}}}}}}}}}}}}}} ∂ u ∂ x ∂ g ( u ) ∂ u ∂ f ( g ) ∂ g {\displaystyle {\frac {\mathbf {u}{\mathbf{g}}{\mathbf {g(으)}{\mathbf {u}}{\mathbf{\mathbf {f(g)}{\mathbf {g}}}}}}}}}}}{\mathbmathbf {g}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} 일관된 행렬 레이아웃을 가정한다. 아래를 참조하십시오. U = U (x ), v = v (x ) ∂ ( U × v ) ∂ x = {\displaystyle {\frac {\partial(\mathbf {U} \time \mathbf {v} ){\partial x}=} ∂ U ∂ x × v + U × ∂ v ∂ x {\displaystyle {\frac {\partial \mathbf {U}{\partial x}}{\partial x}\time \mathbf {v} +\mathbf {U} \time {\frac {\partial \mathbf {v}{\partial x}}}}}}}}}}}}}}}}}}}}}? v ⊤ × ( ∂ U ∂ x ) + ∂ v ∂ x × U ⊤ {\displaystyle \mathbf{v}^{\top}\times}{x\partial}}\times\mathbf{U}^{\top}}\left({\frac{\partial \mathbf{U}}{\partial x}}\right)+{\frac{\partial \mathbf{v}.
메모:그 공식들 vector-by-vector 파생 상품과 관련된(u)∂ 너{\displaystyle{\frac{\partial \mathbf{g(u)}}{\partial \mathbf{너}}}}과∂ f(g)∂ g{\displaystyle{\frac{\partial \mathbf{f(g)}}{\partial \mathbf{g}}}}(출력 값 매트릭스다)은 매트릭스 consis되고 있다고 가정하 g∂. 장막 벡터의 배치도로, 즉 numerator-layout 행렬 때numerator-layout 벡터와 부사장 반대로, 그렇지 않으면 vector-by-vector 파생 상품 바꿔 놓다.
스칼라별 매트릭스 ID 유의 매트릭스의 matrix-valued 기능에 적용되는 스칼라 곱 규칙과 연쇄 법칙의 정확한 등가물 존재하지 않는다. 하지만, 이런 종류의 제품 규칙은 미분 형식에(아래 참조)고, 이건 방법은 추적 기능이 추적 기능과, 즉 순환 치환 흑백 반전 흑백 뒤집기로 결합과 관련된 아래의 정체성의 많은 파생시키는 데:적용되나.
tr ( A ) = tr ( A ⊤ ) tr ( A B C D ) = tr ( B C D A ) = tr ( C D A B ) = tr ( D A B C ) {\displaystyle{\begin{정렬}\operatorname{tr}(\mathbf{A})&,=\operatorname{tr}\left(\mathbf{A^{\top}}\right)\. \\operatorname{tr}(\mathbf{에이비 시디})&,=\operatorname{tr}(\mathbf{BCDA})=\operatorname{tr}(\mathbf{CDAB})=\operatorname{tr}(\mathbf{DABC})\end{정렬}}}. 예를 들어,∂tr( 에이는 엑스 BX⊤ C)∂ X:{\displaystyle{\frac{\partial \operatorname{tr}(\mathbf{AXBX^{\top}C})}{\partial \mathbf{X}}}:}를 계산하기 위해.
d tr ( A X B X ⊤ C ) = d tr ( C A X B X ⊤ ) = tr ( d ( C A X B X ⊤ ) ) = tr ( C A X d ( B X ⊤ ) + d ( C A X ) B X ⊤ ) = tr ( C A X d ( B X ⊤ ) ) + tr ( d ( C A X ) B X ⊤ ) = tr ( C A X B d ( X ⊤ ) ) + tr ( C A ( d X ) B X ⊤ ) = tr ( C A X B ( d X ) ⊤ ) + tr ( C A ( d X ) B X ⊤ ) = tr ( ( C A X B ( d X ) ⊤ ) ⊤ ) + tr ( C A ( d X ) B X ⊤ ) = tr ( ( d X ) B ⊤ X ⊤ A ⊤ C ⊤ ) + tr ( C A ( d X ) B X ⊤ ) = tr ( B ⊤ X ⊤ A ⊤ C ⊤ ( d X ) ) + tr ( B X ⊤ C A ( d X ) ) = tr ( ( B ⊤ X ⊤ A ⊤ C ⊤ + B X ⊤ C A ) d X ) {\displaystyle {\begin{aligned}d\operatorname {tr} (\mathbf {AXBX^{\top }C} )&=d\operatorname {tr} \left(\mathbf {CAXBX^{\top }} \right)=\operatorname {tr} \left(d\left(\mathbf {CAXBX^{\top }} \right)\right)\ \&=\operatorname {tr} \left(\mathbf {CAX}d(\mathbf {BX^{\top }) \d(\mathbf {CAX} )\mathbf {BX^{\top }\right)\\\\ \&=\operatorname {tr} \left(\mathbf {CAX}d\\mathbf {BX^{\top }\right)+\opername {tr} \reft(d)(\mathbf {CAX})\mathbf {B^{BX^{p}\}\}\op \}\right)\right)\right)\right) \&=\operatorname {tr} \left(\mathbf {CAXB}d\mathbf {X^{\}\top \right)+\opername {tr} \reft} \\\mathbf {CA}(d\mathbf {X})\mathbf {B^{{{{{{}\rig}\rig}\rig}\right)\coperght)\coperght)\coperght)\\\\cHT}\ \&=\operatorname {tr} \왼쪽(\mathbf {CAXB})(d\mathbf {X}^{\top }\right)+\operatorname {tr}(\mathbf {CA}\ref(d\mathbf {X})\mathbf {B^{B}\op}\rig}\right)\cop}\coperght)\\\cHT}\\\cH00\cHIP)\ \&=\operatorname {tr} \left(\left(\mathbf {CAXB} (d\mathbf {X} )^{\top }\right)^{\top }\right)+\operatorname {tr} \left(\mathbf {CA} (d\mathbf {X} )\mathbf {BX^{\top }} \right)\ \&=\operatorname {tr} \left((d\mathbf {X} )\mathbf {B^{\top }X^{\top }A^{\top }C^{\top }} \right)+\operatorname {tr} \left(\mathbf {CA} (d\mathbf {X} )\mathbf {BX^{\top }} \right)\ \&=\operatorname {tr} \left(\mathbf {B^{\top }X^{\top }A^{\top }C^{\top }} (d\mathbf {X} )\right)+\operatorname {tr} \left(\mathbf {BX^{\top }} \mathbf {CA} (d\mathbf {X} )\right)\ \&=\operatorname {tr} \left(\mathbf {B^{\top }X^{}}A^{\top }}}+\c^{BX^{\top }}}}}} \mathbf {CA} \right}d\mathbf {X}{X}{oped}}}}}}}}}}}}}}}}}}}}}}}}정렬}}}}}}}}}}}}}}}}}}}}}}}}}}}} 그러므로
∂ tr ( A X B X ⊤ C ) ∂ X = C A X B + A ⊤ C ⊤ X B ⊤ . {\displaystyle {\frac {\partial \operatorname {tr} \left(\mathbf {AXBX^{\top }C} \right)}{\partial \mathbf {X} }}=\mathbf {CAXB} +\mathbf {A^{\top }C^{\top }} \mathbf {XB^{\top }} .} (마지막 단계는 차등 에서 파생 모델로 변환 섹션을 참조하십시오.)
ID: 스칼라 바이 매트릭스(scalar by matrix) rix y ∂ X {\ displaystyle {\frac {\partial y}{\partial \mathbf {X}}}} 조건 표현 분자 레이아웃(예 T : X 기준) 분모 배치, 즉 X 에 의한 배치 a 는 X 의 함수가 아니다. ∂ a ∂ X = {\displaystyle {\frac {\partial a}{\partial \mathbf {X}}}} 0 ⊤ {\displaystyle \mathbf {0} ^{\top }} [5] 0 {\displaystyle \mathbf {0} } [5] a 는 X 의 함수가 아니다, u = u (X ) ∂ a u ∂ X = {\displaystyle {\frac {\partial au}{\partial \mathbf {X}}}} a ∂ u ∂ X {\displaystyle a{\frac {\partial u}{\partial \mathbf{X}}}} u = u (X ), v = v (X ) ∂ ( u + v ) ∂ X = {\displaystyle {\frac {\partial(u+v)}{\partial \mathbf {X}}}} ∂ u ∂ X + ∂ v ∂ X {\displaystyle {\frac {\partial u}{\partial \mathbf{X}}}{\partial v}{\partial \mathbf {X}}}}} u = u (X ), v = v (X ) ∂ u v ∂ X = {\displaystyle {\frac {\partial uv}{\partial \mathbf {X}}}} u ∂ v ∂ X + v ∂ u ∂ X {\displaystyle u{\frac {\partial v}{\partial \mathbf {X}}}}}+v{\frac {\partial u}{\partial \mathbf {X}}}}}}}} u = u (X ) ∂ g ( u ) ∂ X = {\displaystyle {\frac {\partial g(u)}{\partial \mathbf {X}}}} ∂ g ( u ) ∂ u ∂ u ∂ X {\displaystyle {\frac {\partial g(u)}{\partial u}{\partial u}{\partial u}{\partial \mathbf{X}}}}}}} u = u (X ) ∂ f ( g ( u ) ) ∂ X = {\displaystyle {\frac {\put f(g(u) }{\partial \mathbf {X}}}}} ∂ f ( g ) ∂ g ∂ g ( u ) ∂ u ∂ u ∂ X {\displaystyle {\frac {\partial f(g)}{\partial g}{\frac {\partial g(u)}{\partial u}{\partial u}{\partial u}{\partial \mathbf {X}}}}}}}}}}}}}}}}}}}}}}}}}" U = U (X ) [4] ∂ g ( U ) ∂ X i j = {\displaystyle {\frac {\partial g(\mathbf {U})}{\partial X_{ij}}=} tr ( ∂ g ( U ) ∂ U ∂ U ∂ X i j ) {\displaystyle \operatorname {tr} \좌({\frac {\partial g(\mathbf {U} )}{\partial \mathbf {U}}{\partial X_{ij}}\오른쪽)} tr ( ( ∂ g ( U ) ∂ U ) ⊤ ∂ U ∂ X i j ) {\displaystyle \operatorname {tr} \좌({\frac({\partial g(\mathbf {U} )}{\partial \mathbf {}}}}^{\partial \mathbf {U}{}}{\partial X_{ij}}\오른쪽)}}}}}} 두 형식 모두 ∂ U ∂ X i j , {\displaystyle {\frac {\partial \mathbf {U}{\partial X_{ij}}}}} 에 대한 분자 레이아웃을 가정한다. 즉, X 에 대한 분모 레이아웃이 사용되는 경우 혼합 레이아웃.
a 와 b 는 X 의 기능이 아니다. ∂ a ⊤ X b ∂ X = {\displaystyle {\frac {\partial \mathbf {a}^{\top }\mathbf {X} \mathbf {b}{\partial \mathbf {X}}}}}}} b a ⊤ {\displaystyle \mathbf {b} \mathbf {a} ^{\top }} a b ⊤ {\displaystyle \mathbf {a} \mathbf {b} ^{\top }} a 와 b 는 X 의 기능이 아니다. ∂ a ⊤ X ⊤ b ∂ X = {\displaystyle {\frac {\partial \mathbf {a}^{\top }\mathbf {X}^{\top }\mathbf {b}{\partial \mathbf {X}}}}}}}}}} a b ⊤ {\displaystyle \mathbf {a} \mathbf {b} ^{\top }} b a ⊤ {\displaystyle \mathbf {b} \mathbf {a} ^{\top }} a , b , C 는 X 의 기능이 아니다. ∂ ( X a + b ) ⊤ C ( X a + b ) ∂ X = {\displaystyle {\frac {\x} \mathbf {a} +\mathbf {b}^{\top }\mathbf {C}(\mathbf {a} +\mathbf {b} )}{\partial \mathbf {X}}}}}}}}}}}} ( ( C + C ⊤ ) ( X a + b ) a ⊤ ) ⊤ {\displaystyle \왼쪽(\mathbf {C} +\mathbf {C} ^{\top }\오른쪽)(\mathbf {X} \mathbf {a} +\mathbf {b} ^{\top }^{\op ^{\}}}}}}}}}}}}}}}}}}:{\top }}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} ( C + C ⊤ ) ( X a + b ) a ⊤ {\displaystyle \왼쪽(\mathbf {C} +\mathbf {C} ^{\top }\right)(\mathbf {a} +\mathbf {b} )\mathbf {a} ^{\top }) a , b , C 는 X 의 기능이 아니다. ∂ ( X a ) ⊤ C ( X b ) ∂ X = {\displaystyle {\frac {\mathbf {X}\mathbf {a}^{\top }\mathbf {C}(\mathbf {X} \mathbf {b} ){\partial \mathbf {X}}}}}}}}}}}}}}}}} ( C X b a ⊤ + C ⊤ X a b ⊤ ) ⊤ {\displaystyle \left(\mathbf {C} \mathbf {X} \mathbf {a}^{\top }+\mathbf {C} ^{\mathbf {a} \mathbf {b} \mathbf {b}^{{{\top }\}}}}}}}}}}}}}^}}}}}}}}}}}}}}}}^}}}}}}}}}}}}}}}}}}}}}}} C X b a ⊤ + C ⊤ X a b ⊤ {\displaystyle \mathbf {C} \mathbf {X} \mathbf {b} \mathbf {a} ^{\top }+\mathbf {C} ^{\top }\mathbf {a} \mathbf {b} ^{\top }}}} ∂ tr ( X ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr}(\mathbf {X} ){\partial \mathbf {X}}}}} I {\displaystyle \mathbf {I} } U = U (X ), V = V (X ) ∂ tr ( U + V ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr}(\mathbf {U} +\mathbf {V}){\partial \mathbf {X}}}}}} ∂ tr ( U ) ∂ X + ∂ tr ( V ) ∂ X {\displaystyle {\frac {\partial \operatorname {tr}(\mathbf {U} )}{\partial \mathbf {X}}{\partial \mathbf {V}}{\partial \mathbf {X}}}}}}}}}}}}}}}}}}}}} a 는 X 의 함수가 아니다. U = U (X ) ∂ tr ( a U ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr}(a\mathbf {U} ){\partial \mathbf {X}}}}} a ∂ tr ( U ) ∂ X {\displaystyle a{\frac {\partial \operatorname {tr}(\mathbf {U})}{\partial \mathbf {X}}}} g (X )는 스칼라 계수를 가진 모든 다항식 또는 무한 다항식 시리즈(예X : 신(X ), 코스(X ), ln(X ) 등으로 정의되는 매트릭스 함수로서, g (x )는 등가 스칼라 함수, g ( x )는 그 파생 함수, g (( x )는 해당 매트릭스 함수다. ∂ tr ( g ( X ) ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr}(\mathbf {g(X)})}{\partial \mathbf {X}}}}} g ′ ( X ) {\displaystyle \mathbf {g} '(\mathbf {X} )} ( g ′ ( X ) ) ⊤ {\displaystyle \left(\mathbf {g} '(\mathbf {X} )\right)^{\top }}}} A 는 X 의 함수가 아니다. [6] ∂ tr ( A X ) ∂ X = ∂ tr ( X A ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr}(\mathbf {AX})}{\partial \mathbf {X}}{\partial \mathbf {XA}}}}}}}} A {\displaystyle \mathbf {A} } A ⊤ {\displaystyle \mathbf {A}^{\top }} A 는 X 의 함수가 아니다. [4] ∂ tr ( A X ⊤ ) ∂ X = ∂ tr ( X ⊤ A ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr} \left(\mathbf {AX^{\top }} \right)}{\partial \mathbf {X} }}={\frac {\partial \operatorname {tr} \left(\mathbf {X^{\top }A} \right)}{\partial \mathbf {X} }}=} A ⊤ {\displaystyle \mathbf {A}^{\top }} A {\displaystyle \mathbf {A} } A 는 X 의 함수가 아니다. [4] ∂ tr ( X ⊤ A X ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr} \left(\mathbf {X^{\top }AX} \right)}{\partial \mathbf {X}}}}}}} X ⊤ ( A + A ⊤ ) {\displaystyle \mathbf {X} ^{\top }\왼쪽(\mathbf {A} +\mathbf {A} ^{\top }\오른쪽)} ( A + A ⊤ ) X {\displaystyle \left(\mathbf {A} +\mathbf {A} ^{\top }\오른쪽)\mathbf {X}} A 는 X 의 함수가 아니다. [4] ∂ tr ( X − 1 A ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr}(\mathbf {X^{-1}A}){\partial \mathbf {X}}}}}} − X − 1 A X − 1 {\displaystyle -\mathbf {X} ^{-1}\mathbf {A} \mathbf {X} ^{-1} − ( X − 1 ) ⊤ A ⊤ ( X − 1 ) ⊤ {\displaystyle -\좌(\mathbf {X} ^{-1}\오른쪽)^{\top }\mathbf {A}^{\top }\좌(\mathbf {X}^{-1}\우)^{\top }}}}}^{\}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} A , B 는 X 의 기능이 아니다. ∂ tr ( A X B ) ∂ X = ∂ tr ( B A X ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr}(\mathbf {AXB} )}{\partial \mathbf {X}}}{\partial \mathbf {BAX}}}}}}}} B A {\displaystyle \mathbf {BA} } A ⊤ B ⊤ {\displaystyle \mathbf {A^{\top }B^{\top }}}}} A , B, C 는 X 의 기능이 아니다. ∂ tr ( A X B X ⊤ C ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr} \left(\mathbf {AXBX^{\top }C} \right){\partial \mathbf {X}}}}}}} B X ⊤ C A + B ⊤ X ⊤ A ⊤ C ⊤ {\displaystyle \mathbf {BX^{\top }CA} +\mathbf {B^{\top }X^{}\top }A^{}\top }C^{\top }}}}}}}}}}}}} A ⊤ C ⊤ X B ⊤ + C A X B {\displaystyle \mathbf {A^{\top }C^{}XB^{\top }} +\mathbf {CAXB}}} n 은 양의 정수다. [4] ∂ tr ( X n ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr} \left(\mathbf {X} ^{n}\right)}{\partial \mathbf {X}}}}}}} n X n − 1 {\displaystyle n\mathbf {X} ^{n-1} n ( X n − 1 ) ⊤ {\displaystyle n\left(\mathbf {X}) ^{n-1}\오른쪽)^{\top }}}} A 는 X 의 함수가 아니다. n 은 양의 정수다. [4] ∂ tr ( A X n ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr} \left(\mathbf {A} \mathbf {X} ^{n}\right)}{\partial \mathbf {X}}}}}}}}}} ∑ i = 0 n − 1 X i A X n − i − 1 {\displaystyle \sum \{i=0}^{n-1}\mathbf {X} ^{i}\mathbf {A} \mathbf {X} ^{n-i-1} ∑ i = 0 n − 1 ( X i A X n − i − 1 ) ⊤ {\displaystyle \sum \{i=0}^{n-1}\왼쪽(\mathbf {X}^{i}\mathbf {A}\mathbf {X} \mathbf {X}^{n-i-1}\오른쪽)^{\top }}}}}}} [4] ∂ tr ( e X ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr} \left(e^{\mathbf {X} }\오른쪽){\partial \mathbf {X}}}}{}}}}} e X {\displaystyle e^{\mathbf{X}}}}} ( e X ) ⊤ {\displaystyle \left(e^{\mathbf {X} }\오른쪽)^{\top }}}}}} [4] ∂ tr ( 죄를 짓다 ( X ) ) ∂ X = {\displaystyle {\frac {\partial \operatorname {tr}(\sin(\mathbf {X} )}{\partial \mathbf {X}}}}}} cas ( X ) {\displaystyle \cos(\mathbf {X} )} ( cas ( X ) ) ⊤ {\displaystyle(\cos(\mathbf {X} )^{\top }}} [7] ∂ X ∂ X = {\displaystyle {\frac {\partial \mathbf {X}{{\partial \mathbf {X}}}}} 공분자 ( X ) ⊤ = X X − 1 {\displaystyle \operatorname {cofactor}(X)^{\top }= \mathbf {X} \mathbf {X} ^{-1} 공분자 ( X ) = X ( X − 1 ) ⊤ {\displaystyle \operatorname {cofactor}(X)= \mathbf {X} \left(\mathbf {X} ^{-1}\오른쪽)^{\top }}}}}}}} a 는 X 의 함수가 아니다. [4] ∂ ln a X ∂ X = {\displaystyle {\frac {\partial \ln a\mathbf {X}{\partial \mathbf {X}}}} [8] X − 1 {\displaystyle \mathbf {X} ^{-1} ( X − 1 ) ⊤ {\displaystyle \left(\mathbf {X} ^{-1}\오른쪽)^{\top }}}} A , B 는 X 의 기능이 아니다. [4] ∂ A X B ∂ X = {\displaystyle {\frac {\partial \mathbf {AXB}{}{\partial \mathbf {X}}}}}} A X B X − 1 {\displaystyle \mathbf {AXB} \mathbf {X} ^{-1} A X B ( X − 1 ) ⊤ {\displaystyle \mathbf {AXB} \left(\mathbf {X}) ^{-1}\오른쪽)^{\top }}}} n 은 양의 정수다. [4] ∂ X n ∂ X = {\displaystyle {\frac {\partial \왼쪽 \mathbf {X} ^{n}\오른쪽 }{\partial \mathbf {X}}}}}}} n X n X − 1 {\displaystyle n\왼쪽 \mathbf {X} ^{n}\오른쪽 \mathbf {X} ^{-1} n X n ( X − 1 ) ⊤ {\displaystyle n\\left \mathbf {X} ^{n}\오른쪽 \left(\mathbf {X} ^{-1}\right)^{\top }}}}}} (사이비 분석 참조) [4] ∂ ln X ⊤ X ∂ X = {\displaystyle {\frac {\partial \ln \left \mathbf {X} ^{\top }\mathbf {X} \right{\partial \mathbf {X}}}}}}} 2 X + {\displaystyle 2\mathbf {X}^{+}} 2 ( X + ) ⊤ {\displaystyle 2\왼쪽(\mathbf {X}^{+}\오른쪽)^{\top }}}} (사이비 분석 참조) [4] ∂ ln X ⊤ X ∂ X + = {\displaystyle {\frac {\partial \ln \left \mathbf {X} ^{\top }\mathbf {X} \right{\partial \mathbf {X}{+}}=} − 2 X {\displaystyle -2\mathbf {X} } − 2 X ⊤ {\displaystyle -2\mathbf {X}^{\top }}} A 는 X 의 함수가 아니다.X 는 정사각형이고 변환할 수 없다. ∂ X ⊤ A X ∂ X = {\displaystyle {\frac {\partial \왼쪽 \mathbf {X^{\top }} \mathbf {A} \mathbf {X} \partial \mathbf {X}}}}}}}}} 2 X ⊤ A X X − 1 = 2 X ⊤ A X X − 1 {\displaystyle 2\ft \mathbf {X^{\top } \mathbf {A} \mathbf {X} \right \mathbf {1}{X^{\top }} \right \mathbf {X} \mathbf {X}{X} ^-1} ^-1}{1}{{1}{{{1}{1}}}}}}}}}}}} ^-1} 2 X ⊤ A X ( X − 1 ) ⊤ {\displaystyle 2\ft \mathbf {X^{\top } \mathbf {A} \mathbf {X} \오른쪽 \ref(\mathbf {X} ^{-1}\오른쪽)^{\top }}}}}} A 는 X 의 함수가 아니다.X 는 제곱이 아니라,A 는 대칭이다 ∂ X ⊤ A X ∂ X = {\displaystyle {\frac {\partial \왼쪽 \mathbf {X^{\top }} \mathbf {A} \mathbf {X} \partial \mathbf {X}}}}}}}}} 2 X ⊤ A X ( X ⊤ A ⊤ X ) − 1 X ⊤ A ⊤ {\displaystyle 2\ft \mathbf {X^{\top }\mathbf {A} \mathbf {X^{\top }A^{}}{{\opp}}}^{-1}\mathbf {X^{}\top }}}}}}}}}}mathbf{{{{}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} 2 X ⊤ A X A X ( X ⊤ A X ) − 1 {\displaystyle 2\ft \mathbf {X^{\top } \mathbf {AX} \right \mathbf {AX} \mathbf {AX} \reft(\mathbf {X^{\top }AX} \AX}오른쪽)^{-11} A 는 X 의 함수가 아니다.X 는 제곱이 아니라,A 는 비대칭이다 ∂ X ⊤ A X ∂ X = {\displaystyle {\frac {\partial \mathbf {X^{\top }} \mathbf {A} \mathbf {X}{\partial \mathbf {X}}}}}}}} X ⊤ A X ( ( X ⊤ A X ) − 1 X ⊤ A + ( X ⊤ A ⊤ X ) − 1 X ⊤ A ⊤ ) {\displaystyle {\begin{aligned}\left \mathbf {X^{\top }} \mathbf {A} \mathbf {X} \right {\Big (}&\left(\mathbf {X^{\top }AX} \right)^{-1}\mathbf {X^{\top }A} +{}\\&\left(\mathbf {X^{\top }A^{\top }X} \right)^{-1}\mathbf {X^{\top }A^{\top }} {\Big )}\end{aligned}}} X ⊤ A X ( A X ( X ⊤ A X ) − 1 + A ⊤ X ( X ⊤ A ⊤ X ) − 1 ) {\displaystyle {\begin{aligned}\left \mathbf {X^{\top }} \mathbf {A} \mathbf {X} \right {\Big (}&\mathbf {AX} \left(\mathbf {X^{\top }AX} \right)^{-1}+{}\\&\mathbf {A^{\top }X} \left(\mathbf {X^{\top }A^{\top }X} \right)^{-1}{\Big )}\end{aligned}}}
매트릭스 바이 스칼라 ID ID: 매트릭스 바이 스칼라(Matrix by Scalar) x Y ∂ x {\ displaystyle {\frac {\partial \partial \mathbf {Y}{\partial x}}}}}} 조건 표현 분자 레이아웃(예 : Y) U = U (x ) ∂ a U ∂ x = {\displaystyle {\frac {\partial a\mathbf {U}{\partial x}=} a ∂ U ∂ x {\displaystyle a{\frac {\partial \mathbf {U}{\partial x}} A , B 는 x 의 기능이 아니다. U = U (x ) ∂ A U B ∂ x = {\displaystyle {\frac {\partial \mathbf {AUB}{{\partial x}=} A ∂ U ∂ x B {\displaystyle \mathbf {A} {\frac {\partial \mathbf {U}{\partial x}\mathbf {B}}} U = U (x ), V = V (x ) ∂ ( U + V ) ∂ x = {\displaystyle {\frac {\partial(\mathbf {U} +\mathbf {V})}{\partial x}=} ∂ U ∂ x + ∂ V ∂ x {\displaystyle {\frac {\partial \mathbf {U}}{\partial x}+{\prac {\partial \mathbf {V}{\partial x}}}}} U = U (x ), V = V (x ) ∂ ( U V ) ∂ x = {\displaystyle {\frac {\partial(\mathbf {U} \mathbf {V})}{\partial x}=} U ∂ V ∂ x + ∂ U ∂ x V {\displaystyle \mathbf{U} {\frac {V}{\partial x}+{\partial \mathbf {U}{\partial x}}\mathbf {V}}}}} U = U (x ), V = V (x ) ∂ ( U ⊗ V ) ∂ x = {\displaystyle {\frac {\partial(\mathbf {U}\mathbf {V})}{\partial x}=} U ⊗ ∂ V ∂ x + ∂ U ∂ x ⊗ V {\displaystyle \mathbf {U} \frac {\partial \mathbf {V}{\partial x}+{\partial \mathbf {U}{\partial x}\otimes \mathbf {V}}}}}}}}}} U = U (x ), V = V (x ) ∂ ( U ∘ V ) ∂ x = {\displaystyle {\frac {\partial(\mathbf {U} \circircule \mathbf {V}}}{\partial x}=}} U ∘ ∂ V ∂ x + ∂ U ∂ x ∘ V {\displaystyle \mathbf {U} \circule {\frac {\partial x}{\partial x}+{\partial \mathbf {U}{\partial x}\circathbf {V}}}}} U = U (x ) ∂ U − 1 ∂ x = {\displaystyle {\frac {\partial \mathbf {U}^{-1}{\partial x}=} − U − 1 ∂ U ∂ x U − 1 {\displaystyle -\mathbf {U} ^{-1}{\frac {\partial \mathbf {U}{\partial x}\mathbf {U} ^{-1} U = U (x,y ) ∂ 2 U − 1 ∂ x ∂ y = {\displaystyle {\frac {\partial ^{2}\mathbf {U}^{-1}{\partial x\partial y}=} U − 1 ( ∂ U ∂ x U − 1 ∂ U ∂ y − ∂ 2 U ∂ x ∂ y + ∂ U ∂ y U − 1 ∂ U ∂ x ) U − 1 {\displaystyle \mathbf {U} ^{-1}\left({\frac {\partial \mathbf {U} }{\partial x}}\mathbf {U} ^{-1}{\frac {\partial \mathbf {U} }{\partial y}}-{\frac {\partial ^{2}\mathbf {U} }{\partial x\partial y}}+{\frac {\partial \mathbf {U} }{\partial y}}\mathbf {U} ^{-1}{\frac {\partial \mathbf {U} }{\partial x}}\right)\mathbf {U} ^{-1}} A 는 x 의 함수가 아니며, g (X )는 스칼라 계수를 가진 모든 다항식 또는 무한 다항식 시리즈(예X : sin(X ), cos(X ), ln(X ) 등으로 정의된 모든 매트릭스 함수, g (x )는 등가 스칼라 함수, g( x )는 그 파생 함수, g (( x )는 해당 매트릭스 함수다. ∂ g ( x A ) ∂ x = {\displaystyle {\frac {\partial \,\mathbf {A}(x\mathbf {A})}{\partial x}=} A g ′ ( x A ) = g ′ ( x A ) A {\displaystyle \mathbf {A} \mathbf {g}(x\mathbf {A})=\mathbf {A}} A 는 x 의 함수가 아니다. ∂ e x A ∂ x = {\displaystyle {\frac {\partial e^{x\mathbf {A}}}{\partial x}=} A e x A = e x A A {\displaystyle \mathbf {A} e^{x\mathbf {A}=e^{x\mathbf {A}\mathbf {A}}}
자세한 내용은 지수 지도의 파생 모델을 참조하십시오.
스칼라별 신원 벡터가 포함된 경우 ID: 스칼라 바이 스칼라(벡터 포함) 조건 표현 임의의 레이아웃(도트 제품이 행 대 열 레이아웃을 무시한다고 가정함) u = u (x ) ∂ g ( u ) ∂ x = {\displaystyle {\frac {\mathbf {u}}{\mathbf {u}}}} ∂ g ( u ) ∂ u ⋅ ∂ u ∂ x {\displaystyle {\frac {\mathbf {u}}{\\mathbf {u}}}{\mathbf {u}}}{\mathbf {u}}}}} u = u (x ), v = v (x ) ∂ ( u ⋅ v ) ∂ x = {\displaystyle {\frac {\mathbf {u} \cdot \mathbf {v}}{\mathbf x}=} u ⋅ ∂ v ∂ x + ∂ u ∂ x ⋅ v {\displaystyle \mathbf {u} \cdot {\frac {\mathbf {v}{\\frac {}{\preason x}}}{\preason x}\cdot \mathbf {v}}}}}
행렬이 포함된 경우 ID: 스칼라 바이 스칼라, 행렬 포함[4] 조건 표현 일관된 분자 레이아웃, 즉, Y 와 X로 T 혼합 레이아웃, 즉, Y 와 X로 U = U (x ) ∂ U ∂ x = {\displaystyle {\frac {\partial \mathbf {U}{\partial x}=} U tr ( U − 1 ∂ U ∂ x ) {\displaystyle \mathbf {U} \operatorname {tr} \left(\mathbf {U} ^{-1}{\frac {\partial \mathbf {U}{\partial x}\오른쪽)}} U = U (x ) ∂ ln U ∂ x = {\displaystyle {\frac {\partial \ln \mathbf {U}{\partial x}=} tr ( U − 1 ∂ U ∂ x ) {\displaystyle \operatorname {tr} \left(\mathbf {U} ^{-1}{\frac {\partial x}\right)} U = U (x ) ∂ 2 U ∂ x 2 = {\displaystyle {\frac {\partial ^{2} \mathbf {U}{{\partial x^{2}}=} U [ tr ( U − 1 ∂ 2 U ∂ x 2 ) + tr 2 ( U − 1 ∂ U ∂ x ) − tr ( ( U − 1 ∂ U ∂ x ) 2 ) ] {\displaystyle \mathbf {U} \left[\operatorname {tr} \left(\mathbf {U} ^{-1}{\frac {\partial ^{2}\mathbf {U} }{\partial x^{2}}}\right)+\operatorname {tr} ^{2}\left(\mathbf {U} ^{-1}{\frac {\partial \mathbf {U} }{\partial x}}\right)-\operatorname {tr} \left(\left(\mathbf {U} ^{-1}{\frac {\partial \mathbf {U} }{\partial x}}\right)^{2}\right)\right]} U = U (x ) ∂ g ( U ) ∂ x = {\displaystyle {\frac {\partial g(\mathbf {U})}{\partial x}=} tr ( ∂ g ( U ) ∂ U ∂ U ∂ x ) {\displaystyle \operatorname {tr} \좌({\frac {\partial g(\mathbf {U} )}{\partial \mathbf {U}}{\partial x}\오른쪽)}{\partbfrac {} tr ( ( ∂ g ( U ) ∂ U ) ⊤ ∂ U ∂ x ) {\displaystyle \operatorname {tr} \좌({\frac({\partial g(\mathbf {U} )}{\partial \mathbf{}}}}^{\partial \frac {U}{\partial x}}}}}}}}} A 는 x 의 함수가 아니며, g (X )는 스칼라 계수가 있는 모든 다항식 또는 무한 다항식 계열(예X : sin(X ), cos(X ), ln(X ) 등으로 정의된 매트릭스 함수, g(x )는 등가 스칼라 함수, g ( x )는 그 파생 함수, g g( X )는 해당 매트릭스 함수다. ∂ tr ( g ( x A ) ) ∂ x = {\displaystyle {\frac {\partial \operatorname {tr}(\mathbf {g}(x\mathbf {A} )}{\partial x}=} tr ( A g ′ ( x A ) ) {\displaystyle \operatorname {tr} \left(\mathbf {A} \mathbf {g} '(x\mathbf {A} )\right)} A 는 x 의 함수가 아니다. ∂ tr ( e x A ) ∂ x = {\displaystyle {\frac {\partial \operatorname {tr} \left(e^{x\mathbf {A}}\오른쪽){\partial x}=} tr ( A e x A ) {\displaystyle \operatorname {tr} \left(\mathbf {A} e^{x\mathbf {A} }\오른쪽)}
차등 형식의 ID 종종 차등 형태로 작업한 다음 다시 일반 파생상품으로 전환하는 것이 더 쉽다. 이는 분자 레이아웃을 사용하는 경우에만 잘 작동한다. 이 규칙에서 "a"는 스칼라다.
차등 ID: 행렬을[1] [4] 포함하는 스칼라 조건 표현 결과(숫자 레이아웃) d ( tr ( X ) ) = {\displaystyle d(\operatorname {tr}(\mathbf {X} )=} tr ( d X ) {\displaystyle \operatorname {tr}(d\mathbf {X})} d ( X ) = {\displaystyle d( \mathbf {X} )=} X tr ( X − 1 d X ) = tr ( 조정하다 ( X ) d X ) {\displaystyle \mathbf {X} \operatorname {tr} \left(\mathbf {X}) \{-1d\mathbf {X} \right)\operatorname {tr}(\mathbf {x}dj})(\mathbf {X})} d ( ln X ) = {\displaystyle d(\ln \mathbf {X} )=} tr ( X − 1 d X ) {\displaystyle \operatorname {tr} \left(\mathbf {X}) ^{-1d\mathbf {X} \right)}
In the last row, δ i j {\displaystyle \delta _{ij}} is the Kronecker delta and ( P k ) i j = ( Q ) i k ( Q − 1 ) k j {\displaystyle (\mathbf {P} _{k})_{ij}=(\mathbf {Q} )_{ik}(\mathbf {Q} ^{-1})_{kj}} is the set of orthogonal projection operators that project onto the k -th eigenvector of X . Q is the mat rix of eigenvectors of X = Q Λ Q − 1 {\displaystyle \mathbf {X} =\mathbf {Q} \mathbf {\Lambda } \mathbf {Q} ^{-1}} , and ( Λ ) i i = λ i {\displaystyle (\mathbf {\Lambda } )_{ii}=\lambda _{i}} are the eigenvalues. The matrix function f ( X ) {\displaystyle f(\mathbf {X} )} is defined in terms of the scalar function f ( x ) {\displaystyle f(x)} for diagonalizable matrices by f ( X ) = ∑ i f ( λ i ) P i {\displaystyle f(\mathbf {X} )=\sum _{i}f(\lambda _{i})\mathbf {P} _{i}} where X = ∑ i λ i P i {\displaystyle \mathbf {X} =\sum _{i}\lambda _{i}\mathbf {P} _{i}} with P i P j = δ i j P i {\displaystyle \mathbf {P} _{i}\mathbf {P} _{j}=\delta _{ij}\mathbf {P} _{i}} .
정상적인 파생형식으로 변환하려면 먼저 다음 표준형식 중 하나로 변환한 후 다음 ID를 사용하십시오.
차등형에서 파생형식으로의[1] 전환 표준 미분형 등가파생형식 d y = a d x dy=a\,dx} d y d x = a {\displaystyle {\frac {dy}{dx}=a} d y = a ⊤ d x {\displaystyle dy=\mathbf {a}^{\\top }d\mathbf {x}} d y d x = a ⊤ {\displaystyle {\frac {dy}{d\mathbf {x}}}}}}}=\mathbf {a}^{\top }}}} d y = tr ( A d X ) {\displaystyle dy=\operatorname {tr}(\mathbf {A} \,d\mathbf {X})} d y d X = A {\displaystyle {\frac {dy}{d\mathbf {X}}}}}}}=\mathbf {A}} d y = a d x {\displaystyle d\mathbf {y} =\mathbf {a} \,dx} d y d x = a {\displaystyle {\frac {d\mathbf {y}}{dx}=\mathbf {a}} d y = A d x {\displaystyle d\mathbf {y} =\mathbf {A} \,d\mathbf {x} } d y d x = A {\dapplaystyle {\frac {d\mathbf {y}}{d\mathbf {x}}}=\mathbf {A}} d Y = A d x {\displaystyle d\mathbf {Y} =\mathbf {A} \,dx} d Y d x = A {\displaystyle {\frac {d\mathbf {Y}}{dx}=\mathbf {A}}
적용들 특히 다변량 분포 , 특히 다변량 정규 분포 및 기타 타원 분포의 통계 분석에 행렬 미적분학이 통계에 사용된다.[10] [11] [12]
예를 들어 다중 설명 변수 의 경우에 대한 일반적인 최소 제곱법 공식 을 계산하기 위해 회귀 분석 에 사용된다.
참고 항목
메모들 ^ a b c d e Thomas P., Minka (December 28, 2000). "Old and New Matrix Algebra Useful for Statistics" . MIT Media Lab note (1997; revised 12/00). Retrieved 5 February 2016 . ^ Felippa, Carlos A. "Appendix D, Linear Algebra: Determinants, Inverses, Rank" (PDF) . ASEN 5007: Introduction To Finite Element Methods . Boulder, Colorado: University of Colorado. Retrieved 5 February 2016 . 벡터 및 매트릭스 파생상품의 헤시안 (Jacobian 로 변환 ) 정의를 사용한다. ^ a b c 여기서 0 {\ displaystyle \mathb {0}은( 는) 0의 모든 크기 n 의 열 벡터 를 가리키며 , 여기서 n 은 x 의 길이입니다. ^ a b c d e f g h i j k l m n o p q 피터슨 Kaare 브란트, 피더슨, 마이클 Syskind.매트릭스 Cookbook이라는 요리 책(PDF).22010년 3월에 원래에서 Archived.2월 5일 2016년 Retrieved.이 책은∂는 y에}}.}Y즉에 의해∂ Y∂에 엇갈린 배열,),{\displaystyle{\frac{\partial \mathbf{Y}}{x\partial}},}X∂ X.{\displaystyle{\frac{\partial y}{\partial \mathbf{X}을 사용한다. ^ a b 여기서 0 {\ displaystyle \mathbf {0}은( 는) X 와 같은 모양의 0의 모든 행렬을 가리킨다 . ^ Duchi, John C. "Properties of the Trace and Matrix Derivatives" (PDF) . Stanford University. Retrieved 5 February 2016 . ^ 자세한 내용은 파생에 대한 결정 요인# 분석을 참조하십시오. ^ 상수 a 는 결과에서 사라진다. 이것은 의도적인 것이다. 대체적으로. d ln a u d x = 1 a u d ( a u ) d x = 1 a u a d u d x = 1 u d u d x = d ln u d x . {\displaystyle {\frac {d\ln au}{dx}}={\frac {1}{au}}{\frac {d(au)}{dx}}={\frac {1}{au}}a{\frac {du}{dx}}={\frac {1}{u}}{\frac {du}{dx}}={\frac {d\ln u}{dx}}. } 또는, 또한 d ln a u d x = d ( ln a + ln u ) d x = d ln a d x + d ln u d x = d ln u d x . {\dplaystyle {\d\ln au}{dx}={\frac {d(\ln a+\ln u)}{dx}={\frac {d\ln u}{dx}={\frac {d\ln u}{dx}}. } ^ Giles, Michael B. (2008). "An extended collection of matrix derivative results for forward and reverse mode algorithmic differentiation" (PDF) . S2CID 17431500 . Archived from the original (PDF) on 2020-02-27. ^ 팡앤장(1990년) ^ 팬앤팡(2007) ^ 콜로 & 폰 로젠 (2005) 참조 Fang, Kai-Tai ; Zhang, Yao-Ting (1990). Generalized multivariate analysis . Science Press (Beijing) and Springer-Verlag (Berlin). ISBN 3540176519 . 9783540176510. Kollo, Tõnu; von Rosen, Dietrich (2005). Advanced multivariate statistics with matrices . Dordrecht: Springer. ISBN 978-1-4020-3418-3 . Pan, Jianxin; Fang, Kaitai (2007). Growth curve models and statistical diagnostics . Beijing: Science Press. ISBN 9780387950532 .
추가 읽기 외부 링크 소프트웨어 정보 매트릭스 레퍼런스 매뉴얼 , 마이크 브룩스, 임페리얼 칼리지 런던 . 매트릭스 차별화(및 다른 것), Randal J. Barnes, 토목 공학 학부, 미네소타 대학교. 매트릭스 미적분학 참고사항 , 폴 L. 노스캐롤라이나 주립대학 의 패클러. 매트릭스 미적분학 (슬라이드 프리젠테이션), 장 르 에든버러 대학교 벡터 및 매트릭스 분화 (계량학 컨텍스트에서 매트릭스 분화에 대한 주석), 하이노 분 닐슨(Heino Bohn Nielsen. Munich Personal RePEC Archive의 차별화 행렬 (매트릭스 차별화에 대한 참고 사항), Pawel Koval에 대한 참고 사항. 벡터/매트릭스 미적분 행렬 분화에 대한 추가 참고 사항. 매트릭스 아이덴티티 (매트릭스 차별화에 대한 참고 사항), 샘 로위스.