정보 이론에서, 전형적인 집합은 그들의 원천 분포의 엔트로피의 음의 힘으로 상승된 두 개에 가까운 일련의 집합이다.이 집합이 1에 가까운 총 확률을 갖는 것은 많은 수의 법칙의 일종인 점증적 설비 특성(AEP)의 결과물이다.전형성의 개념은 순서의 확률과 관련이 있을 뿐 실제 순서는 아니다.
이것은 데이터를 압축하기 위한 이론적 수단을 제공하고, 평균적으로 nH(X)비트를 사용하여 어떤 시퀀스 X를n 나타낼 수 있게 해주기 때문에, 압축 이론에 큰 활용을 가지고 있으며, 따라서 출처로부터의 정보의 척도로 엔트로피를 사용하는 것을 정당화한다.
또한 AEP는 많은 종류의 고정된 에고딕 공정에 대해 증명될 수 있으며, 일반적인 세트가 더 일반적인 경우에 정의될 수 있다.
유한한 알파벳1 X {\에 걸쳐 정의된 i.i.d 분포X에서 시퀀스 x, ...를n 추출한 경우, 일반적인 집합인ε(n) A X{\ {\ {을를)는 다음을 충족하는 시퀀스로 정의된다(n).
, where
X의 정보 엔트로피다.위의 확률은 단지 2의nε 요인 안에 있을 필요가 있다.모든 측면에서 로그를 취하여 -n으로 나누면 이 정의는 다음과 같이 동등하게 명시될 수 있다.
I.I.D 시퀀스에 대해서는, 그 이후부터.
우리는 더 많이 가지고 있다.
대수의 법칙에 의해, 충분히 큰 n을 위하여.
특성.
일반적인 집합의 기본 특성은 분포 X에서 많은 n개의 독립 랜덤 표본을 추출하는 경우, 일반적인 집합이 가능한 모든 시퀀스 중 극히 일부만 구성하더라도 결과 시퀀스1(x2, x, ..., x)가n 일반적인 집합의 구성원이 될 가능성이 매우 높다는 것이다.형식적으로 > 을를) 지정하면 다음과 같은 n을 선택할 수 있다.
X에서(n) 추출한 시퀀스가ε(n) A에서 추출될 확률은 1 - , 즉 P [ () -≥ 1 - }}}}}}}}}}.
에 대한 분포가 균일하지 않으면 일반적인 시퀀스의 일부는
n이 매우 커짐에 따라, ( )< X ,{\ H} {\} 이 X {\ {\의 카디널리티인 경우
AEP가 있는 일반 확률적 공정 {X(t)}의 경우, (취약하게) 일반적인 세트는 p(x10τ, x, ..., x)로 대체되는 p(x, x2, ..., x)와n 유사하게 정의될 수 있다(즉, 표본이 시간 간격[0, ]]으로 제한된 확률), n은 시간 간격에서 프로세스의 자유도가 되고 H(X)는 엔트로피율이 된다.공정이 연속적으로 값진 경우 차등 엔트로피가 대신 사용된다.
예
역직관적으로, 가장 가능성이 높은 순서는 종종 일반적인 집합의 구성원이 아니다.예를 들어 X가 p(0)=0.1과 p(1)=0.9를 갖는 i.i.d 베르누이 랜덤 변수라고 가정하자.n개의 독립 시험에서, p(1)>p(0) 이후, 가장 가능성이 높은 결과 순서는 모든 1의 순서, (1,1, ...,1)이다.여기서 X의 엔트로피는 H(X)=0.469인 반면
따라서 n의 값을 아무리 크게 취하더라도 평균 로그 확률이 임의로 랜덤 변수 X의 엔트로피에 근접할 수 없기 때문에 이 시퀀스는 일반적인 집합에 있지 않다.
베르누이 랜덤 변수의 경우, 전형적 집합은 n개의 독립 시행에서 평균 숫자가 0과 1인 시퀀스로 구성된다.이는 쉽게 입증된다.p(1) = p 및 p(0) = 1-p인 경우 m 1을 사용한 n개의 시행에 대해 다음이 있다.
베르누이 재판의 연속에서 평균 1의 수는 m = np이다.그러므로, 우리는
이 예에서, n=10일 경우, 일반적인 집합은 전체 시퀀스에서 단일 0을 갖는 모든 시퀀스로 구성된다.p(0)=p(1)=0.5인 경우, 가능한 모든 이진 시퀀스는 일반적인 집합에 속한다.
매우 일반적인 시퀀스(강력한 전형성, 문자 전형성)
시퀀스 x1, ..., x가n 유한 문자 또는 무한 문자 에 걸쳐 정의된 특정 결합 분포에서 추출된 경우 강력하고 일반적인 집합인ε,strong(n) A X {\을(를) 만족하는 시퀀스 집합으로 정의된다.
여기서 ( ) 은 시퀀스에서 특정 기호가 발생하는 수입니다.
강한 전형적인 시퀀스 또한 약하게 전형적이라는 것을 보여줄 수 있다(다른 상수 ε으로), 따라서 이름이다.그러나 이 두 형태는 동등하지 않다.강한 전형성은 종종 기억력이 없는 채널에 대한 이론들을 증명하는데 있어서 일하기 더 쉽다.그러나 정의에서 명백하게 알 수 있듯이, 이러한 형식의 전형성은 유한한 지지를 갖는 임의 변수에 대해서만 정의된다.
공동 표준 시퀀스
Two sequences and are jointly ε-typical if the pair is ε-typical with respect to the joint distribution y_}}) 및 x은( ) ^{n 및 p그러한 모든 시퀀스 쌍, y ) 의 집합은 (, ) 로 표시된다 공동으로 ε-일반 n-tuple 시퀀스 집합이 정의된다.
및 Y은는주변 가한 의 두 독립된 가되도록 그 다음 ε>0에 대해, 충분히 큰 n에 대해, 공동으로 전형적인 시퀀스는 다음과 같은 특성을 만족시킨다.
정보이론에서, 전형적 세트 인코딩은 고정된 길이 블록 코드를 가진 전형적인 확률적 소스의 집합에 있는 시퀀스만 인코딩한다.일반적인 세트의 크기가 약 2이므로nH(X) 코딩에는 nH(X) 비트만 필요함과 동시에 인코딩 오류 가능성이 ε으로 제한되도록 한다.점증적으로, 그것은 AEP에 의해 무손실이며 선원의 엔트로피 비율과 같은 최소 비율을 달성한다.
정보이론에서 전형적인 집합 디코딩은 무작위 코딩과 함께 사용되어 전송된 메시지를 관측과 공동으로 ε-일반적인 코드 워드를 가진 것으로 추정한다.
여기서 , ( w), y 는 메시지 추정치, w 각각 이다. is defined with respect to the joint distribution where is the transition probability채널 통계를 특징짓는 ( ) 는 임의 코드북에서 코드 워드를 생성하는 데 사용되는 일부 입력 분포다.
Cover, Thomas M. (2006). "Chapter 3: Asymptotic Equipartition Property, Chapter 5: Data Compression, Chapter 8: Channel Capacity". Elements of Information Theory. John Wiley & Sons. ISBN0-471-24195-4.