통계적 거리

Statistical distance

통계, 확률론정보론에서 통계적 거리는 두 개의 랜덤 변수 또는 두 의 확률 분포 또는 표본이 될 수 있는 두 개의 통계 개체 사이의 거리를 수량화하거나 개별 표본과 모집단 또는 더 넓은 표본 사이의 거리를 수량화할 수 있습니다.

모집단 사이의 거리는 두 확률 분포 사이의 거리를 측정하는 것으로 해석될 수 있으며, 따라서 이들은 본질적으로 확률 측도 사이의 거리를 측정하는 것입니다.통계적 거리 측정이 랜덤 변수 의 차이와 관련된 경우, 통계적 [1]의존성이 있을 수 있으며, 따라서 이러한 거리는 확률 측정 사이의 거리 측정과 직접 관련이 없다.다시 말하지만, 랜덤 변수 사이의 거리 측정은 변수들의 개별 값보다는 변수들 사이의 의존성 정도에 관련될 수 있다.

통계적 거리 측정은 일반적으로 측정기준이 아니며 대칭일 필요는 없다.거리 제곱을 일반화하는 일부 유형의 거리 측도를 (통계적) 분산이라고 합니다.

용어.

거리에 대한 다양한 개념을 지칭하기 위해 많은 용어가 사용된다. 이들은 종종 혼동스러울 정도로 유사하며, 저자 간 및 시간에 따라 느슨하게 또는 정확한 기술적 의미로 일관되지 않게 사용될 수 있다."거리" 외에도, 유사 용어에는 편차, 편차, 불일치, 구별 및 발산뿐만 아니라 대조 함수 및 메트릭같은 다른 용어들이 포함된다.정보 이론의 용어는 교차 엔트로피, 상대 엔트로피, 식별 정보정보 게인을 포함합니다.

측정 기준으로서의 거리

측정 기준

집합 X의 메트릭함수(거리 함수 또는 단순 거리라고 함) d : X × XR+(여기+ R은 이 아닌 실수의 집합)이다.X모든 x, y, z에 대해 이 기능은 다음 조건을 만족시키기 위해 필요합니다.

  1. d(x, y) 0 0 (부정성 없음)
  2. d(x, y) = x = y경우에만 0입니다.조건 1과 조건 2가 함께 정의되는 에 주의해 주십시오).
  3. d(x, y) = d(y, x) (표준)
  4. d(x, z) d d(x, y) + d(y, z) (가산성 / 삼각 부등식).

일반화된 지표

많은 통계적 거리는 적절한 메트릭의 속성이 하나 이상 부족하기 때문에 메트릭이 아닙니다.예를 들어, 의사 측정법은 "긍정적 정의성"(또는 "불가항력의 동일성") 속성을 위반하고, 준측정법은 대칭 특성을 위반하며(3), 반측정법삼각 부등식(4)을 위반한다.(1)과 (2)를 만족하는 통계적 거리를 발산이라고 한다.

측정 기준

발산

「 」를 참조해 주세요.

메모들

  1. ^ Dodge, Y. (2003)—거리 입력

외부 링크

레퍼런스

  • Dodge, Y. (2003) 옥스퍼드 통계 용어 사전, OUP. ISBN0-19-920613-9