발산(통계)

Divergence (statistics)

정보기하학에서 발산(divergence)은 통계적 거리의 일종이다.통계적 다양체의 확률분포에서 다른 확률분포로의 분리를 확립하는 이항함수이다.

가장 단순한 산차는 유클리드 거리 제곱(SED)이며 산차는 SED의 일반화라고 볼 수 있다.또 다른 가장 중요한 차이는 정보 이론의 중심인 상대적 엔트로피(컬백-라이블러 발산, KL 발산)이다.f-divergenes와 Bregman divergenes 등 수많은 특이적 발산 및 발산 클래스가 있다(see 예 참조).

정의.

n {\n 미분 [a] 매니폴드M {\ M이 주어진경우, M {\ M 2{\ C - D : × [ ,] D M [ 만족하는 경우:[1][2]

  1. , ) { D , q ) \ 0( 모든p , 、 M { displaystyle , \ M) ( non - negativity ) 、
  2. ( , ) { D)= } (p q{ p } (양성)인 에만)
  3. pM { p \ ( p, + D ( , + )는 p{ p}로부터의 극소 d { dp}에 대한 양의 2차 형식입니다.

통계 적용에서 M(\ M 일반적으로 확률 분포 모수군의 모수 공간이다.

조건 3은 DD가 p마다 M(\)에 내부곱을 하는 것을 의미합니다이므로 이D\ C}는 M M에서 리만 을 정의합니다. \ M}

pM { p M에서 x { x를 사용하여 로컬 좌표 차트를 작성할 수 있습니다.그러면 분산은 다음과 같습니다.

서 gp ( n× {n의 매트릭스입니다.은 좌표x {x로 표현되는 p { p 리만 메트릭입니다.

조건 3의 치수 분석 결과, 발산에는 거리 [3]제곱의 차원이 있습니다.

듀얼 D ( { D { * } )는 다음과 같이 정의됩니다.

D D D D하는 경우 D D 원시 발산이라고 .

D D의 경우 대칭버전은 듀얼 [3]컨버전스를 사용하여 평균을 구합니다.

다른 유사한 개념과의 차이점

메트릭과 달리 분산은 대칭일 필요가 없으며,[3] 애플리케이션에서는 비대칭성이 중요합니다.따라서 p와 q 사이의 발산보다는 p에서 q로의 발산 또는 p에서 q로의 차이를 비대칭으로 언급하는 경우가 많다.두 번째로, 분기는 직선 거리가 아닌 제곱 거리를 일반화해서 삼각 부등식을 만족시키지 않지만, 일부 분기는 피타고라스 정리의 일반화를 만족시킨다.

일반적으로 "분산"은 모든 종류의 함수 Dq { D를 말합니다.서 p {q}는 조건 1, 2를 만족시키는 확률 분포 또는 고려 대상 객체입니다.조건 3은 정보 기하학에서 사용되는 "분산"에 필요합니다.

예를 들어, 일반적으로 사용되는 통계적 분산인 총 변동 거리는 조건 3을 충족하지 않습니다.

표기법

분산 표기법은 몇 가지 규칙이 있지만 필드마다 크게 다릅니다.

분산은 일반적으로 D,)(\ D와 같이 대문자 D로 표기되어 있으며, 이는 소문자 'd'로 표기되어 있는 메트릭 거리와 구별됩니다.여러 개의 분산을 사용하는 경우 일반적으로 text})과 같이 첨자로 구분됩니다.KL}}: Kullback-Leibler divergence(KL 다이버전스).

특히 비대칭성을 강조하기 위해 파라미터 간에 다른 구분자를 사용하는 경우가 많습니다.정보이론에서는 ( pq D ( \ q );이것은 조건부 의 표기법 ( A P ( A와 비슷하지만 구별되며, 이 표기법에서는 상대적인 측정으로서 발산 해석을 강조한다.KL 분기를 위해 켜집니다.대신 [b]콜론을 (p :q ) \ D ( : )。이것은, 2 개의 분포를 서포트하는 상대 정보를 강조합니다.

파라미터의 표기법도 다릅니다. P P 파라미터를 확률 분포로 해석합니다. { x (\}는 공간 내의 점으로 기하학적으로 해석합니다. 1, 2 _},\}}) , displaystyle 입니다.2}}은는) 측정값으로 해석합니다.

기하학적 특성

만약 우리가 S를 통계적 다양체로 제한한다면, 분산의 많은 속성을 도출할 수 있다. 즉, 유한 차원 좌표계 θ로 매개변수를 구할 수 있고, 따라서 분포 p θ S에 대해 p = p(p)로 쓸 수 있다.

의 점 p, q θ S에 대해 좌표 θpθq 다음과 같은 D(p, q)의 편도함수를 나타낸다.

이제 이러한 함수를 대각선 p = q로 제한하고 다음을 나타냅니다.

정의상, 함수 D(p, q)는 p = q에서 최소화된다.

여기서 행렬(D) g는 양의 반확정이며 매니폴드 S에 고유한 리만 메트릭을 정의합니다.

발산 D(···)는 계수를 갖는 고유한 비틀림 없는 아핀 연결 (D)θ도 정의한다.

이 접속의 dual은 dual divergence D*에 의해 생성됩니다.

따라서, 발산 D(·, ·)는 통계 다양체에 고유한 이원론적 구조(g(D), (D)θ, (D*)θ)를 생성한다.통계 다양체의 모든 비틀림 없는 이원론적 구조는 (단,[5] 고유할 필요는 없는) 글로벌하게 정의된 발산 함수에서 유도된다.

예를 들어, D가 어떤 함수 δ(·)에 대해 f-진입[6] 경우, 메트릭(Df) g = c·g 및 접속 (Df)= (α)θ를 생성합니다.여기서 g는 표준 Fisher 정보 메트릭이고, (α)θ는 α-connection, c = θ(1), α = 3 + 2 θ(1)/θ(1)이다.

가장 중요한 두 가지 분산은 정보 이론과 통계의 중심인 상대적 엔트로피(Kullback-Leibler divergence, KL divergence)와 유클리드 거리 제곱(SED)이다.이 두 분기를 최소화하는 것이 [7]특히 로지스틱 회귀와 선형 회귀에서 최대 엔트로피와 최소 제곱의 원리를 통해 선형문제를 해결하는 주요 방법입니다.

분기의 가장 중요한 두 가지 클래스는 f-분산 브레그만 분산이다. 그러나 다른 유형의 발산함수도 문헌에서 볼 수 있다.f-diversion과 Bregman diversion 둘 다인 유일한 diversion은 Kullback-Leibler [8]diversion이다. 제곱 유클리드 diversion은 Bregman diversion( 2 { x에 대응하지만 f-diversions는 아니다.)

f-인스턴스

() - , ) \ ( \ infty , \ )\ ( \ ) ) f ( 0 ) t → + f ( t ) , () \ f ( 0 ) = \ _ 0 + ()} 、

Kullback-Leibler 발산:
Hellinger 거리 제곱:
Jensen-Shannon 발산:
α 수렴
카이스트 다이버전스:
(α,β)-제품[citation needed] 발산:

브레그만 발산

브레그만 분기는 볼록 집합의 볼록 함수에 대응한다.Bregman 발생기로 알려진 볼록 집합에서 엄밀하게 볼록하고 연속적으로 미분 가능한 함수 F가 주어졌을 때, Bregman 확산은 볼록성을 측정한다. 즉, q에서 F의 선형 근사의 오차는 p에서의 의 근사치이다.

브레그만 발산으로의 이중 발산이란 원래 발산인 브레그만 발생기의 볼록 켤레* F에 의해 생성된 발산이다.예를 들어, 유클리드 거리 제곱의 경우 생성기는 x x이고 상대 엔트로피의 경우 생성기는 의 엔트로피 로그x({x입니다.

역사

"분산"이라는 용어의 사용(즉, 함수와 다양한 통계적 거리)은 시간이 지남에 따라 크게 달라졌지만, 2000년경에는 특히 교과서 Amari & Nagaoka(2000)[1]에서 정보 기하학 내의 현재 사용에 대해 결정되었다.

통계적 거리에 대한 "분산"이라는 용어는 1910년부터 1940년까지 다양한 맥락에서 비공식적으로 사용되었다.공식적인 사용은 적어도 바타차리야 거리를 정의한 "확률 분포에 의해 정의된 두 통계 모집단 간 발산 측정"이라는 제목의 바타차리야(1943년)바타차랴를 정의한 "두 다항 모집단 간 발산 측정"이라는 제목의 바타차랴(1946년)로 거슬러 올라간다.ngle. 이 용어는 Kullback & Leibler(1951)Kullback-Leibler diversion과 교과서 Kullback(1959)에서의 사용에 의해 대중화되었다."분산"이라는 용어는 일반적으로 Ali & Silvey(1966)가 통계적 거리를 위해 사용했다.Adhikari & Joshi(1956년) Kullback(1959년, 페이지 6-7, 1.3 Divergence)에 통계적 거리 사용에 대한 많은 언급이 있다.

Kullback & Leibler(1951)는 비대칭 함수를 "구별을 위한 평균 정보"라고 언급하면서 대칭적 발산(이 함수는 1948년에[9] 해롤드 제프리스에 의해 이미 정의되어 사용됨)을 언급하기 위해 실제로 "분산"을 사용했다.반면 [10]Kullback(1959)은 비대칭 함수를 "방향적 발산"[11]이라고 언급했다.알리&Silvey(1966년)일반적으로"발산 계수"로 그러한 기능할 것이라고 하며, 기존의 많은 기능 f-divergences로,"수렴각 제프리스의 사람됨을 꿰뚫어"(오늘"Jeffreys 발산")로 제프리스의 기능, 그리고 Kullback–Leibler의 비대칭 기능(각 방향으로)에 Kullback's"이라고 표현될 수 있는 것을 보였다 언급했다.한d 라이블러의 차별적 정보 측정치(오늘날 "컬백-라이블러 발산").[12]

발산(이 기사의 주제)의 정보 기하학적 정의는 "준거리" Amari(1982, 페이지 369) 오류를 한 대체 용어로 언급되었다. 및 "대조 함수" Eguchi(1985)Amari no (1985)에서 "분산"를 사용했다.도움말이며 [1][2]일반 클래스의 표준이 되었습니다.

"분산"이라는 용어는 거리(미터)와 대조적이다. 대칭화된 분산은 삼각 [13]부등식을 만족시키지 않기 때문이다.예를 들어, "Bregman distance"라는 용어는 여전히 존재하지만 "Bregman diversion"이라는 용어가 선호됩니다.

통지에 따라 Kullback & Leibler(1951)는 비대칭 함수를I나타내고, Ali & Silvey(1966)는 소문자 'd'를 d 로 나타냅니다(\

「 」를 참조해 주세요.

메모들

  1. ^ 2차 도함수만 필요하기 때문에 전체적으로 미분성 클래스2 C(연속적인 1차 도함수와 2차 도함수로 연속)만 필요하다.실제로, 일반적으로 사용되는 통계 다양체와 분산은 무한히 구별 가능하다("평활").
  2. ^ 콜론은 Kullback & Leibler(1951, 페이지 80)에서 사용됩니다.여기서 })과μ2 \ _ 사이의 KL 차이는I(됩니다

레퍼런스

  1. ^ a b c 아마리 & 나가오카 2000, 3.2장.
  2. ^ a b Amari 2016, 페이지 10, 정의 1.1.
  3. ^ a b c 아마리 2016, 페이지 10
  4. ^ 에구치(1992년)
  5. ^ 마츠모토(1993)
  6. ^ Nielsen, F.; Nock, R. (2013). "On the Chi square and higher-order Chi distances for approximating f-divergences". IEEE Signal Processing Letters. 21: 10–13. arXiv:1309.3029. doi:10.1109/LSP.2013.2288355.
  7. ^ Csiszar 1991. 오류:: 1991)
  8. ^ Jiao, Jiantao; Courtade, Thomas; No, Albert; Venkat, Kartik; Weissman, Tsachy (December 2014). "Information Measures: the Curious Case of the Binary Alphabet". IEEE Transactions on Information Theory. 60 (12): 7616–7626. doi:10.1109/TIT.2014.2360184. ISSN 0018-9448.
  9. ^ Jeffreys 1948, 페이지 158. 오류:: (
  10. ^ 쿨백 & 라이블러 1951, 페이지 80
  11. ^ Kullback 1959, 7페이지
  12. ^ Ali & Silvey 1966, 139페이지
  13. ^ Kullback 1959, 6페이지

참고 문헌