적층 평활

Additive smoothing

통계학에서 적층 평활라플라스 평활이라고[1] 하며(이미지 처리에 사용되는 라플라스틱 평활과 혼동되지 않음) 또는 Lidstone 평활범주형 데이터평활하는 데 사용되는 기법이다. Given a set of observation counts from a -dimensional multinomial distribution with trials, a "smoo카운트의 "d" 버전은 추정자에게 다음을 제공한다.

여기서 평활 카운트 i= (와) "pseudocount" α > 0은 평활 파라미터다. α = 0은 평활하지 않는 것에 해당한다. (이 매개변수는 아래의 § Phasocount에 설명되어 있다.) 수축 추정자의 첨가 smoothing의 한 종류 그 결과로 인한 견적은 경험적 확률 사이)나는/N{\textstyle \textstyle{x_{나는}/N}}(상대 도수) 것이고, 통일된 확률 1/d{\textstyle \textstyle{는 1/d}}. 세습의 Invoking 라플라스의 규칙, 일부 저자들-LSB- cita 주장해 왔다.tion tha 해결을 필요한는 1이어야 하지만(이 경우 애드원 평활이라는[2][3] 용어도 사용),[further explanation needed] 실제로는 일반적으로 더 작은 값이 선택된다.

베이지안적 관점에서 이것은 선행분포로서 매개변수 α를 갖는 대칭적 디리클레 분포를 사용하여 후분포기대치에 해당한다. 범주의 수가 2인 특별한 경우, 이것은 이항 분포의 모수에 앞서 베타 분포를 결합으로 사용하는 것과 같다.

역사

라플레이스는 내일 태양이 떠오를 가능성을 추정하려고 할 때 이 스무딩 기법을 생각해 냈다. 그의 근거는 해가 뜨는 날들을 대량으로 표본으로 제시해도, 우리는 여전히 태양이 내일(일출문제라고 알려진)도 여전히 뜰 것이라고 완전히 확신할 수 없다는 것이었다.[4]

유사산

유사분산0으로 알려져 있지 않은 경우, 해당 데이터의 모형에 기대되는 확률을 변경하기 위해 관측된 사례의 수에 추가된 양(이름에도 불구하고 일반적으로 정수는 아님)이다. 으로 말하면,값 α {\ \textstyle {\의 사이비 카운트가 {\의 추가 카운트가 있는 각 범주와 유사하게 후분포 안에 들어가 있기 때문에 그렇게 이름이 붙여졌다 i 의 빈도가 x 인 경우.{ 샘플 중 \ {에 대한 경험적 확률 (는)

추가적으로 평활했을 때의 후확률은

각 카운트 (를) preii만큼 늘리듯이.

때로는 주관적인 값인 선행지식에 따라 유사분산은 음이 아닌 유한값을 가질 수 있다. pi의 소수 자릿수가 글자일 가능성, 또는 pi에 대한 유효한 프로그램이 실행될 때 편지를 인쇄하는 컴퓨터처럼 거부되어 계수되지 않을 물리적 가능성 등 정의상 불가능할 경우 0(또는 무시될 가능성)일 수 있다.0과 1에 관심이 있는. 일반적으로 어떤 값도 유한한 시간 내에 계산하거나 관측할 수 없을 가능성도 있다(정지 문제 참조). 그러나 적어도 하나의 가능성은 0이 아닌 유사 분산을 가져야 하며, 그렇지 않으면 첫 번째 관측치 이전에 어떤 예측도 계산할 수 없다. 유사산의 상대적 값은 해당 가능성의 상대적 사전 기대 확률을 나타낸다. 매우 클 수 있는 유사 산물의 합은 예상 확률을 결정할 때 모든 실제 관측치(각각 하나씩)와 비교한 사전 지식의 추정 가중치를 나타낸다.

관찰된 데이터 세트 또는 샘플에서는 특히 낮은 확률의 이벤트와 작은 데이터 세트가 발생하지 않을 가능성이 있다. 따라서 관측된 주파수는 0이며, 이는 명백히 0의 확률을 의미한다. 특히 인공신경망과 숨겨진 마르코프 모델같은 확률 기반 기계 학습 기법에서는 이러한 지나친 단순화는 부정확하고 종종 도움이 되지 않는다. 드물지만 불가능하지는 않은 사건의 확률을 인위적으로 조정하여 그러한 확률을 정확히 0이 아니게 함으로써 빈도 0 문제를 피한다. 크롬웰의 법칙도 봐

가장 간단한 접근법은 제로카운트 가능성을 포함하여 각각의 관측된 사건 수에 하나를 추가하는 것이다. 이것을 라플레이스의 후계 규칙이라고 부르기도 한다. 이 접근방식은 가능한 각 사건의 확률에 대해 균일한 사전 분포를 가정하는 것과 같다(각 확률이 0과 1 사이에 있고, 모두 합쳐서 1인 단순함).

Jeffreys의 사전 접근법을 사용하여, 각각의 가능한 결과에 1/2의 가산이 추가되어야 한다.

가산은 사전 지식이 전혀 없는 경우에만 하나로 설정해야 한다 — 무관심의 원칙을 참조한다. 그러나 적절한 사전 지식이 있는 경우, 그 반대되는 증거에도 불구하고 사전 확률을 올바른 것으로 간주해야 한다는 예상에 비례하여 합계를 조정해야 한다. 실제 가치에 대한 사전 지식이 있기 때문에(조폐 조건 동전의 경우, 말하자면) 더 높은 값이 적절하며, 편향 가능성이 있지만( 구부러진 동전의 경우, 예를 들어) 알 수 없는 사전 지식이 있기 때문에 더 낮은 값이 필요하다.

더 복잡한 접근법은 다른 요인으로부터 발생하는 사건의 확률을 추정하고 그에 따라 조정하는 것이다.

특히 이항 데이터의 경우 유사 분산을 동기화하는 한 가지 방법은 구간 추정의 중간점, 특히 이항 비율 신뢰 구간에 대한 공식을 통해서이다. 가장 잘 알려진 것은 윌슨(1927년)에드윈 비드웰 윌슨 덕분이다. 에서 z 표준 편차에 해당하는 윌슨 점수 간격의 중간점은 다음과 같다.

95% 구간( 1약 1에 대해 z= 2 표준 편차를 취하면 각 결과에 대해 2가 유사하게 계산되므로, 총 4가 "플러스 4 규칙"으로 알려져 있다.

이것은 또한 Agresti-Coull 간격의 중간점이다. (Agresti & Coull 1998).

알려진 발병률에 따라 일반화됨

Often you are testing the bias of an unknown trial population against a control population with known parameters (incidence rates) . In this case the uniform probability d {\textstyle 은(는) 평활 추정기를 계산하기 위해 제어 모집단 의 알려진 발생률로 대체해야 한다

일관성 검사로서 경험적 추정기가 발생률과 동일한 경우, 즉 = 평활 추정기는 과 독립적이며 발생률과도 같다.

적용들

분류

적층 평활은 일반적으로 순진한 베이즈 분류자의 구성요소다.

통계 언어 모델링

자연어 처리와 정보 검색의 단어 모델 봉지에서, 데이터는 문서에서 각 단어의 발생 횟수로 구성된다. 가법 평활은 표본에서 발생하지 않는 단어에 0이 아닌 확률을 할당할 수 있다. 최근의 연구에서는 언어 모델 기반의 의사-유연성 피드백 및 권고자 시스템과 같은 여러 검색 작업에서 첨가제 스무딩이 다른 확률 스무딩 방법보다 더 효과적이라는 것이 입증되었다.[5][6]

참고 항목

참조

  1. ^ C.D. 매닝, P. 라그하반, H. 슈트체(2008) 정보 검색 소개. 캠브리지 대학 출판부, 260페이지.
  2. ^ Jurafsky, Daniel; Martin, James H. (June 2008). Speech and Language Processing (2nd ed.). Prentice Hall. p. 132. ISBN 978-0-13-187321-6.
  3. ^ Russell, Stuart; Norvig, Peter (2010). Artificial Intelligence: A Modern Approach (2nd ed.). Pearson Education, Inc. p. 863.
  4. ^ 강의 5 기계학습(스탠포드) 1시간10분 강의 시작
  5. ^ Hazimeh, Hussein; Zhai, ChengXiang. "Axiomatic Analysis of Smoothing Methods in Language Models for Pseudo-Relevance Feedback". ICTIR '15 Proceedings of the 2015 International Conference on the Theory of Information Retrieval.
  6. ^ Valcarce, Daniel; Parapar, Javier; Barreiro, Álvaro. "Additive Smoothing for Relevance-Based Language Modelling of Recommender Systems". CERI '16 Proceedings of the 4th Spanish Conference on Information Retrieval.

원천

외부 링크