피셔 정보

Fisher information

수학적 통계에서 피셔 정보(때로는 단순히[1] 정보라고 부르기도 함)는 X를 모형화하는 분포의 알려지지 않은 모수 θ에 대해 관측 가능한 랜덤 변수 X가 전달하는 정보의 양을 측정하는 방법이다.형식적으로는 점수분산 또는 관측된 정보기대값이다.베이지안 통계에서 후방무증상 분포는 이전이 아닌 피셔 정보에 따라 달라진다(급수가족에 대해 라플레이스가 예상한 번스타인-본 미세스 정리).[2]최대우도 추정의 점근법 이론에서 피셔 정보의 역할은 통계학자 로널드 피셔에 의해 강조되었다(프란시스 Ysidro Edgeworth의 초기 결과에 따라).피셔 정보는 베이지안 통계에 사용되는 제프리스 이전의 계산에도 사용된다.null

Fisher 정보 매트릭스는 최대 우도 추정치와 관련된 공분산 행렬을 계산하는 데 사용된다.월드 시험과 같은 시험 통계 작성에도 사용할 수 있다.null

우도함수가 교대조 비침습을 따르는 과학적 특성(물리적, 생물학적 등)의 통계 시스템은 최대 피셔 정보를 준수하는 것으로 나타났다.[3]최대치의 수준은 시스템 제약조건의 특성에 따라 달라진다.null

정의

피셔 정보는 X의 확률이 의존하는 미지의 변수 about에 대해 관측 가능한 무작위 변수 X가 전달하는 정보의 양을 측정하는 방법이다.f(X; θ)를 θ 값으로 조건화한 X대한 확률밀도함수(또는 확률질량함수)로 한다.알려진 X의 주어진 결과를 관측할 확률을 기술한다.θ의 변화에 대해 f가 첨예하게 정점을 이루면, 데이터로부터 θ의 "정확한" 값을 나타내기 쉬우며, 또는 동등하게 데이터 X가 매개변수 θ에 대해 많은 정보를 제공한다는 것을 알 수 있다.만약 우도 f가 평평하고 퍼져 있는 경우, 표본 추출되는 전체 모집단을 사용하여 얻을 수 있는 θ의 실제 "진정한" 값을 추정하기 위해 X의 많은 표본이 필요할 것이다.이것은 θ에 대한 어떤 종류의 분산을 연구한다는 것을 암시한다.

형식적으로 우도함수의 자연 로그 θ에 관한 부분파생물점수라고 한다.특정 규칙성 조건 하에서 θ이 참 매개변수(, X가 실제로 f(X; θ)로 분포)인 경우, 참 매개변수 값 에서 평가된 점수의 기대값(첫 번째 순간)은 0:[4]00임을 나타낼 수 있다.

피셔 정보는 점수의 분산으로 정의된다.[5]

( ) 높은 피셔 정보를 전달하는 랜덤 변수는 점수의 절대값이 종종 높다는 것을 암시한다.무작위 변수 X의 평균을 구했기 때문에 피셔 정보는 특정 관측치의 함수가 아니다.null

로그 f(x; θ)θ과 관련하여, 그리고 특정한 규칙성 조건 하에서 2배 차이가 나는 경우, 피셔 정보도 다음과[6] 같이 기록될 수 있다.

그 이후

그리고

따라서 피셔 정보는 지지 곡선의 곡면성(로그 우도 그래프)으로 볼 수 있다.따라서 최대우도 추정치에 근접한 낮은 피셔 정보는 최대값이 "깜박"으로 나타나며, 즉, 최대값이 얕고 로그 우도가 유사한 근처 값이 많다는 것을 나타낸다.반대로 피셔 정보가 높으면 최대치가 예리하다는 것을 나타낸다.null

규칙성 조건

규칙 조건은 다음과 같다.[7]

  1. θ에 관한 f(X; θ)의 부분파생상품은 거의 모든 곳에 존재한다. (이 집합이 θ에 의존하지 않는 한, null 집합에서는 존재하지 않을 수 있다.)
  2. f(X; θ)의 적분은 θ에 관해서 적분 부호에서 구별할 수 있다.
  3. f(X; θ)의 지원θ에 의존하지 않는다.

만약 θ이 벡터라면, 규칙성 조건은 θ의 모든 성분에 대해 유지되어야 한다.정규성 조건을 만족시키지 못하는 밀도의 예를 쉽게 찾을 수 있다.균일(0, θ) 변수의 밀도가 조건 1과 3을 충족하지 못한다.이 경우, 피셔 정보는 정의로부터 계산될 수 있지만, 일반적으로 피셔 정보가 가지고 있다고 가정되는 속성은 갖지 못할 것이다.null

우도 면에서

X가 주어질 확률항상 확률 f(X; proportional)에 비례하기 때문에 이들의 로그는 반드시 θ과 독립적인 상수에 의해 달라지며, θ과 관련하여 이러한 로그의 파생상품은 반드시 동일해야 한다.따라서 피셔 정보의 정의에서 로그 f(X; () 대신 로그 우도 l(elihood; X)로 대체할 수 있다.null

모든 크기의 표본

X 값은 단일 분포에서 추출한 단일 표본을 나타내거나 분포 집합에서 추출한 표본을 나타낼 수 있다.표본이 n개 있고 해당 n개의 분포가 통계적으로 독립되어 있는 경우, 피셔 정보는 반드시 단일 표본 피셔 정보 값의 합이 되어야 하며, 각 표본의 분포에서 피셔 정보 값의 합이 되어야 한다.특히, n 분포가 독립적이고 동일한 분포인 경우 피셔 정보는 반드시 공통 분포의 단일 표본 피셔 정보의 n배일 것이다.null

Cramér-Rao 바운드의 비공식적 파생

Cramér-Rao 경계[8][9] 피셔 정보의 역행은 bi. H.L. Van Trees(1968년)와 B의 어떤 편견 없는 추정자의 분산에 대한 하한선이라고 명시한다. 로이 프리든(2004)은 피셔 정보의 사용을 설명하는 결과인 Cramér-Rao 바인딩을 도출하는 다음과 같은 방법을 제공한다.null

비공식적으로 우리는 편향되지 않은 추정자 (X) 을(를) 고려하는 것으로 시작한다 수학적으로 "편향되지 않은"은 다음을 의미한다.

이 표현은 θ과 무관하므로 θ에 관한 부분파생도 역시 0이어야 한다.제품 규칙에 따르면 이 부분파생상품은 다음과 같다.

θ에 대해 우도함수는 확률밀도함수로서, 따라서 f = f f(; 곱하면,gets를 얻게 된다.

위의 두 가지 사실을 이용하여 우리는

통합 및 제공 요소 인수

적분인 카우치-슈워즈 불평등 산출물에서 표현을 제곱하면

두 번째 브라켓 인자는 Fisher Information으로 정의되는 반면, 첫 번째 브라켓 인자는 {\{\의 기대 평균 제곱 오차 재배열로 볼 때 불평등은 다음과 같은 것을 알려준다.

θ을 추정할 수 있는 정밀도는 근본적으로 우도함수의 피셔 정보에 의해 제한된다.null

단일 변수 베르누이 실험

베르누이 실험은 "성공"과 "실패"라는 두 가지 가능한 결과를 가진 무작위 변수인데, 성공은 θ의 확률이다.결과는 동전 던지기에 의해 결정되는 것으로 생각할 수 있는데, 머리 확률은 being이고 꼬리는 1 probability이다.

X를 베르누이 재판으로 합시다.X에 포함된 Fisher 정보는 다음과 같이 계산될 수 있다.

피셔 정보는 부가적이기 때문에, 독립 베르누이 재판에 포함된 피셔 정보는 따라서

는 n 베르누이 실험에서 평균 성공 횟수의 분산에 대한 역수이므로, 이 경우 Cramér-Rao 바운드는 동등하다.null

행렬 양식

When there are N parameters, so that θ is an N × 1 vector then the Fisher information takes the form of an N × N matrix.이 행렬을 FIM(Fisher Information Matrix)이라고 하며, 대표적인 요소가 있다.

FIM은 N × N 양의 세미데핀 행렬이다.만약 그것이 양적으로 확실하다면, 그것은 N-차원 매개변수 공간에 리만 메트릭스를 정의한다.항목 정보 기하학은 이것을 사용하여 피셔 정보를 차등 기하학에 연결하며, 그 맥락에서 이 메트릭을 피셔 정보 메트릭이라고 한다.null

특정 규칙성 조건 하에서 피셔 정보 매트릭스는 다음과 같이 기록될 수 있다.

결과는 다음과 같은 여러 가지 면에서 흥미롭다.

  • 상대 엔트로피의 헤시안(Hesian)으로 도출할 수 있다.
  • 그것은 양립할 수 있을 때 피셔-라오 기하학을 정의하기 위한 리만 지표로 사용될 수 있다.[10]
  • 변수의 적절한 변화 후에 유클리드 지표에서 유도된 지표로 이해할 수 있다.
  • 그것의 복잡한 가치 형태에서, 그것은 푸비니-스터디 지표다.
  • 그것은 Wilks의 정리 증명의 핵심 부분으로, 우도 원칙이 필요 없이 (그 조건이 적용되는 조건에 대한) 최대우도 추정에 대한 신뢰 영역 추정을 허용한다.
  • 위의 FIM의 분석적 계산이 어려운 경우, FIM의 추정치로서 음의 로그 우도 함수의 헤시안 몬테카를로 추정치의 평균을 형성할 수 있다.[11][12][13]추정치는 음의 로그 우도함수의 값 또는 음의 로그 우도함수의 구배를 기반으로 할 수 있다. 음의 로그 우도함수에 대한 헤시안 분석 계산은 필요하지 않다.

직교 모수

피셔 정보 매트릭스의 ith 행과 jth 열의 원소가 0일 경우 두 매개변수 θi θj 직교한다고 말한다.직교 모수는 최대우도 추정치가 독립적이며 별도로 계산할 수 있다는 점에서 다루기 쉽다.연구 문제를 다룰 때, 연구자가 문제와 관련된 밀도의 직교 파라메트리지를 검색하는 데 시간을 투자하는 것은 매우 일반적이다.[citation needed]null

단수통계모형

피셔 정보 매트릭스가 모든 θ에 대해 양수확정이라면 해당 통계 모델정규라고 하고, 그렇지 않으면 통계 모델은 단수라고 한다.[14]단일 통계 모델의 예로는 정상 혼합물, 이항 혼합물, 다항 혼합물, 베이지안 네트워크, 신경 네트워크, 방사상 기반 기능, 숨겨진 마르코프 모델, 확률적 맥락 없는 그래머, 감소된 순위 퇴행, 볼츠만 기계 등이 있다.null

머신러닝에서 통계적 모델을 고안해 무작위 현상에서 숨겨진 구조를 추출하면 자연스럽게 단수가 된다.[15]null

다변량 정규 분포

N-변수 다변량 정규 의 FIM은 X~ N( ( (μ ), ( ) {\teta )\rigma (\에 특별한 형식이 있다.매개 변수의 K-dimensional 벡터θ)[θ 1. 깨지θ K]T{\displaystyle \theta){\begin{bmatrix}\theta _{1}&, \dots &, \theta _{K}\end{bmatrix}}^{\textsf{T}}}과 정상적인 변수의 벡털 X)[X1쭉 펼쳐져 XN]T{\displaystyle X={\begin{bmatrix}X_{1}&amp자.;\dots, X_ &{N}\end{bmatrix}}^{\textsf{T}}}. 이러한 확률 변수의 평균 값이μ(θ))[μ 1(θ)…μ N(θ)]T{\displaystyle\,\mu(\theta)={\begin{bmatrix}\mu _ᆱ(\theta)&, \dots &, \mu _ᆲ(\theta)\end{bmatrix}}^{\textsf{T}}}, Σ{\displaystyle \,\Sigma(\thet(θ) 주었다고 가정하자.a)}be 공분산 행렬 다음, 1, mn\의 경우 FIM의 (m, n) 항목은 다음과 같다.[16]

여기서 ( ) 은(는) 벡터의 전치를 나타내며, )은 제곱 행렬추적을 나타내며, 다음:

( )= \ 이(가 상수인 경우가 매우 일반적이라는 점에 유의하십시오.그러면

이 경우 피셔 정보 매트릭스는 최소 제곱 추정 이론의 정규 방정식의 계수 행렬로 식별할 수 있다.null

또 다른 특별한 경우는 평균과 공분산이 두 개의 서로 다른 벡터 파라미터(예: β와 when)에 의존할 때 발생한다.이는 특히 공간 데이터 분석에서 널리 사용되며, 종종 상관 관계가 있는 잔차가 있는 선형 모형을 사용한다.이 경우,[17]

어디에

특성.

체인 룰

엔트로피상호 정보와 유사하게 피셔 정보도 연쇄 규칙 분해를 가지고 있다.특히 XY가 공동으로 분포하는 랜덤 변수라면 다음과 같다.[18]

where and is the Fisher information of Y relative to 주어진 특정 X = xY의 조건부 밀도와 관련하여 계산된 }.

특별한 경우, 두 랜덤 변수가 독립적일 경우, 두 랜덤 변수가 산출하는 정보는 각 랜덤 변수의 정보를 개별적으로 합한 것이다.

따라서, n개독립적이고 동일한 분포의 관측치 랜덤 표본에 있는 정보는 크기 1의 표본에 있는 정보의 n배이다.

충분한 통계량

충분한 통계에 의해 제공되는 정보는 표본 X의 정보와 동일하다.이는 충분한 통계량을 위해 네이먼의 인자화 기준을 사용함으로써 알 수 있다.θ에 T(X)가 충분하면

일부 기능 g 및 h.θ로부터 h(X)의 독립성은 함축하고 있다.

그리고 정보의 동일성은 피셔 정보의 정의로부터 나타난다.보다 일반적으로 T = t(X)통계라면,

T충분한 통계치경우에만 동등하게.[19]null

리파라메트리징

피셔 정보는 문제의 파라메트리제이션에 따라 달라진다.만약 and과 η이 추정 문제의 두 스칼라 파라메트리즈이고, θof의 연속적으로 다른 함수라면, then은 η의 함수다.

여기서 각각 η과 of의 피셔 정보 조치다.[20]null

In the vector case, suppose and are k-vectors which parametrize an estimation problem, and suppose that is a continuously differentiable function of 그럼,[21]

여기서 k × k Jacobian 행렬 boldsymbol{의 (i, j)번째 는 다음과 같이 정의된다.

그리고 여기서 은(는) J{\{\의 전치 행렬이다.

정보 기하학에서 이것은 리만 다지관의 좌표 변화로 보여지며, 곡률의 본질적 속성은 다른 파라메트리제이션 하에서 변하지 않는다.일반적으로 피셔 정보 매트릭스는 열역학 상태의 다지관에 대한 리만 메트릭(더 정밀하게, Fisher-Rao 메트릭)을 제공하며, 위상 전환 분류에 대한 정보-기하학적 복잡성 측정(예: 열역학 메트릭 텐서의 스칼라 곡률)을 (그리고에서만) 에서(그리고에서만) 분산시키는 정보-기하학적 복잡성 측정으로 사용할 수 있다.위상 전환 [22]지점null

열역학적 맥락에서 피셔 정보 매트릭스는 해당 순서 매개변수의 변화 속도와 직접 관련이 있다.[23]특히, 그러한 관계는 피셔 정보 매트릭스의 개별 요소의 분류를 통한 2차 단계 전환을 식별한다.null

등측 부등식

피셔 정보 매트릭스는 등측 불평등과 같은 불평등에서 역할을 한다.[24]주어진 엔트로피가 있는 모든 확률 분포 중에서 피셔 정보 매트릭스가 가장 작은 추적을 갖는 분포는 가우스 분포다.이것은 주어진 부피를 가진 모든 경계 세트 중에서 구가 가장 작은 표면적을 갖는 것과 같다.null

증명에는 밀도함수 f이(가) 있는 다변량 랜덤 변수 X을(를) 취하고 위치 파라미터를 하여 밀도{- ) {}\}\}\n 다음, 민코프스키-스티너 공식과 유사하게 X 의 "표면 면적"을 정의한다.

여기서 은 공분산 행렬이 가우스 변수 I I엔트로피 파워 ( 는 "유효한 서포트 세트의 볼륨"[25]이기 때문에 "표면 면적"이라는 명칭이 적합하므로 S( X) 은 민코스키-스테이너 공식과 마찬가지로 유효 서포트 세트의 볼륨의 "변형"이다.나머지 증명은 엔트로피 권력 불평등을 사용하는데, 이는 브룬-밍코프스키 불평등과 같다.Fisher 정보 매트릭스의 은 S( ) S의 인자로 밝혀졌다

적용들

실험의 최적 설계

피셔 정보는 최적의 실험 설계에 널리 사용된다.추정자-분산과 피셔 정보의 상호성 때문에, 분산최소화하는 것은 정보극대화에 해당한다.null

선형(또는 선형화된) 통계 모형에 여러 모수가 있는 경우 모수 추정기의 평균벡터이고 그 분산행렬이다.분산 행렬의 역행렬을 "정보 행렬"이라고 한다.모수 벡터 추정기의 분산이 행렬이기 때문에 "분산을 최소화"하는 문제가 복잡하다.통계학자는 통계이론을 사용하여 실제 가치 요약 통계를 사용하여 정보 매트릭스를 압축한다. 즉, 실제 가치 함수로서 이러한 "정보 기준"을 최대화할 수 있다.null

전통적으로 통계학자들은 공분산 행렬(비편향 추정기)의 일부 요약 통계량을 고려하여 추정기와 설계를 평가했으며, 일반적으로 양의 실제 값(결정 인자 또는 행렬 트레이스)이 있다.긍정적인 실제 숫자로 작업하면 다음과 같은 몇 가지 이점을 얻을 수 있다.단일 모수의 추정기가 양의 분산을 갖는 경우, 분산과 피셔 정보는 모두 양의 실제 수이다. 따라서 이들은 음이 아닌 실수의 볼록 콘의 구성원이다(비영(0) 멤버는 이 원뿔에 왕복선이 있다).null

몇 가지 파라미터의 경우 공분산 행렬과 정보 행렬은 부분적으로 순서가 정해진 벡터 공간에 있는 비 음의 정의 대칭 행렬의 볼록 콘의 요소다.이 원뿔은 매트릭스 덧셈과 반전, 그리고 양수 실수와 행렬의 곱셈에 따라 닫힌다.매트릭스 이론과 뢰너 질서의 설명서가 푸켈쉐임에서 나타난다.[26]null

전통적인 최적성 기준은 불변 이론의 의미에서 정보 매트릭스의 불변성 기준이며, 대수적으로 전통적인 최적성 기준은 (어류) 정보 매트릭스의 고유값함수(최적설계 참조)이다.null

베이시안 통계학에서 제프리스 이전

베이시안 통계에서 피셔 정보는 제프리스 이전의 계산에 사용되는데, 이것은 연속적인 분포 매개변수에 대한 표준적이고 비정보적인 사전이다.[27]null

계산신경과학

피셔 정보는 신경 코드의 정확성에 대한 한계를 찾기 위해 사용되어 왔다.이 경우 X는 일반적으로 저차원 변수 θ(부작용 변수 등)을 나타내는 많은 뉴런의 관절 반응이다.특히 신경 반응의 소음에서 상관관계의 역할이 연구되었다.[28]null

물리적 법칙의 파생

피셔 정보는 논란이 되고 있는 주장인 물리적 법률의 기초로서 프리든에 의해 제시된 논란의 원칙에서 중심적인 역할을 한다.[29]null

머신러닝

피셔 정보는 인공신경망에서 치명적인 망각을 줄여주는 [30]탄성체중합체 같은 기계학습 기법에 사용된다.null

피셔 정보는 2차 구배 강하 네트워크 훈련에서 손실 함수의 헤시안 대안으로 사용될 수 있다.[31]null

상대 엔트로피와의 관계

피셔 정보는 상대 엔트로피와 관련이 있다.[32]두 분포 (와) 사이의 상대적 엔트로피 또는 Kullback-Leibler 차이점은 다음과 같이 기록할 수 있다.

확률 f ; ) {\ 파라미터를 byparam { {\에 따라 가정 내 두 분포 사이의 Kullback-Leibler 차이를 다음과 같이 기록할 수 있다.

(가) 고정된 경우, family =distributions = {\ 에 가까운 θ 의 경우, 일련의 이전 식을 두 번째 순서로 확장시킬 수 있다.

그러나 2차 주문 파생상품은 다음과 같이 기재할 수 있다.

따라서 피셔 정보는 매개변수에 대한 조건부 분포의 상대 엔트로피의 곡면성을 나타낸다.null

역사

피셔 정보는 몇몇 초기 통계학자들, 특히 F. Y. Edgeworth에 의해 논의되었다.[33]예를 들어, 새비지는[34] 다음과 같이 말한다. "그것에서 [어부 정보]는 어느 정도 예상되었다(Edgeworth 1908–9 esp. 502, 507–8, 662, 677–8, 82–5). 그리고 그가 [Edgeworth] Pearson과 Filon을 포함하여 언급하고 있다[. .].이 초기 작품에는 많은 초기 역사적 자료와[35] 많은 리뷰가 있다.[36][37][38]null

참고 항목

정보 이론에 채택된 기타 조치:

메모들

  1. ^ 레만 & 카셀라, 페이지 115
  2. ^ Lucien Le Cam (1986) 통계적 의사결정 이론의 점증법 방법: 336쪽과 618–621쪽 (본 미세스와 번스타인)
  3. ^ 프리든&가텐비(2013년)
  4. ^ Suba Rao. "Lectures on statistical inference" (PDF).
  5. ^ 피셔(1922년)
  6. ^ Lehmann & Casella, eq. (2.5.16), Lemema 5.3, 페이지 116.
  7. ^ Schervish, Mark J. (1995). Theory of Statistics. New York, NY: Springer New York. p. 111. ISBN 978-1-4612-4250-5. OCLC 852790658.
  8. ^ 크레이머(1946)
  9. ^ 라오 (1945년)
  10. ^ Nielsen, Frank (2010). "Cramer-Rao lower bound and information geometry". Connected at Infinity II: 18–37. arXiv:1301.3578.
  11. ^ Spall, J. C. (2005). "Monte Carlo Computation of the Fisher Information Matrix in Nonstandard Settings". Journal of Computational and Graphical Statistics. 14 (4): 889–909. doi:10.1198/106186005X78800. S2CID 16090098.
  12. ^ Spall, J. C. (2008) "피셔 정보 매트릭스의 몬테카를로 추정에 대한 개선된 방법," 2008년 6월 11-13일 시애틀, WA, 11-13일 미국 통제 회의의 진행, 페이지 2395–2400. https://doi.org/10.1109/ACC.2008.4586850
  13. ^ Das, S.; Spall, J. C.; Ghanem, R. (2010). "Efficient Monte Carlo Computation of Fisher Information Matrix Using Prior Information". Computational Statistics and Data Analysis. 54 (2): 272–289. doi:10.1016/j.csda.2009.09.018.
  14. ^ Watanabe, S. (2008), Accardi, L.; Freudenberg, W.; Ohya, M. (eds.), "Algebraic geometrical method in singular statistical estimation", Quantum Bio-Informatics, World Scientific: 325–336, Bibcode:2008qbi..conf..325W, doi:10.1142/9789812793171_0024, ISBN 978-981-279-316-4.
  15. ^ Watanabe, S (2013). "A Widely Applicable Bayesian Information Criterion". Journal of Machine Learning Research. 14: 867–897.
  16. ^ Malagò, Luigi; Pistone, Giovanni (2015). Information geometry of the Gaussian distribution in view of stochastic optimization. Proceedings of the 2015 ACM Conference on Foundations of Genetic Algorithms XIII. pp. 150–162. doi:10.1145/2725494.2725510. ISBN 9781450334341. S2CID 693896.
  17. ^ Mardia, K. V.; Marshall, R. J. (1984). "Maximum likelihood estimation of models for residual covariance in spatial regression". Biometrika. 71 (1): 135–46. doi:10.1093/biomet/71.1.135.
  18. ^ Zamir, R. (1998). "A proof of the Fisher information inequality via a data processing argument". IEEE Transactions on Information Theory. 44 (3): 1246–1250. CiteSeerX 10.1.1.49.6628. doi:10.1109/18.669301.
  19. ^ Schervish, Mark J. (1995). Theory Statistics. Springer-Verlag. p. 113.
  20. ^ 레만 & 카셀라, eq. (2.5.11)
  21. ^ 레만 & 카셀라, eq(2.6.16)
  22. ^ Janke, W.; Johnston, D. A.; Kenna, R. (2004). "Information Geometry and Phase Transitions". Physica A. 336 (1–2): 181. arXiv:cond-mat/0401092. Bibcode:2004PhyA..336..181J. doi:10.1016/j.physa.2004.01.023. S2CID 119085942.
  23. ^ Prokopenko, M.; Lizier, Joseph T.; Lizier, J. T.; Obst, O.; Wang, X. R. (2011). "Relating Fisher information to order parameters". Physical Review E. 84 (4): 041116. Bibcode:2011PhRvE..84d1116P. doi:10.1103/PhysRevE.84.041116. PMID 22181096. S2CID 18366894.
  24. ^ Costa, M.; Cover, T. (Nov 1984). "On the similarity of the entropy power inequality and the Brunn-Minkowski inequality". IEEE Transactions on Information Theory. 30 (6): 837–839. doi:10.1109/TIT.1984.1056983. ISSN 1557-9654.
  25. ^ Cover, Thomas M. (2006). Elements of information theory. Joy A. Thomas (2nd ed.). Hoboken, N.J.: Wiley-Interscience. p. 256. ISBN 0-471-24195-4. OCLC 59879802.
  26. ^ Pukelsheim, Friedrick (1993). Optimal Design of Experiments. New York: Wiley. ISBN 978-0-471-61971-0.
  27. ^ Bernardo, Jose M.; Smith, Adrian F. M. (1994). Bayesian Theory. New York: John Wiley & Sons. ISBN 978-0-471-92416-6.
  28. ^ Abbott, Larry F.; Dayan, Peter (1999). "The effect of correlated variability on the accuracy of a population code". Neural Computation. 11 (1): 91–101. doi:10.1162/089976699300016827. PMID 9950724. S2CID 2958438.
  29. ^ Streater, R. F. (2007). Lost Causes in and beyond Physics. Springer. p. 69. ISBN 978-3-540-36581-5.
  30. ^ Kirkpatrick, James; Pascanu, Razvan; Rabinowitz, Neil; Veness, Joel; Desjardins, Guillaume; Rusu, Andrei A.; Milan, Kieran; Quan, John; Ramalho, Tiago (2017-03-28). "Overcoming catastrophic forgetting in neural networks". Proceedings of the National Academy of Sciences. 114 (13): 3521–3526. doi:10.1073/pnas.1611835114. ISSN 0027-8424. PMC 5380101. PMID 28292907.
  31. ^ Martens, James (August 2020). "New Insights and Perspectives on the Natural Gradient Method" (PDF). Journal of Machine Learning Research (21). arXiv:1412.1193.
  32. ^ 구리에루 & 몽포르(1995) 페이지 87
  33. ^ 새비지(1976년)
  34. ^ 새비지(1976년), 156페이지
  35. ^ 에지워스 (1908년 9월, 1908년 12월)
  36. ^ 프랫 (1976년)
  37. ^ 스티글러(1978, 1986, 1999)
  38. ^ 할드(1998, 1999)

참조