선형대수학 에서의 특정 적용의 경우, 유한한 양 의 랜덤 행렬 의 최대 고유값 의 확률 분포 의 속성을 아는 것이 유용하다.{ X k } {\displaystyle \{\mathbf {X} _{k}\}}} 이 (가) 임의 행렬의 유한 시퀀스라고 가정해 보십시오.잘 알려진 체르노프 (Chernoff)가 스칼라 합계에 바인딩된 것과 유사하게, 주어진 매개변수 t 에 대해 다음과 같은 바운드가 모색된다.
PR { λ 맥스. ( ∑ k X k ) ≥ t } {\displaystyle \Pr \왼쪽\{\lambda _{\max }\왼쪽(\sum _{k}\mathbf {X} _{k}\오른쪽)\geq t\right\}}}} 다음의 이론들은 다양한 가정 하에서 이 일반적인 질문에 답한다; 이러한 가정들은 그들의 고전적이고 스칼라적인 상대와 유사하게 아래에 이름지어진다. 이러한 모든 이론은 (Tropp 2010 )에서 아래에 도출된 일반적인 결과의 특정 적용으로서 찾을 수 있다. 관련 작품 요약을 한다.
매트릭스 가우스 및 라데마허 시리즈 자가 합격 매트릭스 차원 d {\displaystyle d} 및 {\displaystyle \{\mathbf {A} _{k}\} 의 고정된 자체 적응형 행렬을 유한 염기서열로 간주하고, { ξk }{\displaystyle \{\xi_{k}\}}}}}}} 을 독립 된 표준 랜덤 변수의 유한열로 간주한다 .
그런 다음 모든 t ≥ 0 {\displaystyle t\geq 0} 에 대해,
PR { λ 맥스. ( ∑ k ξ k A k ) ≥ t } ≤ d ⋅ e − t 2 / 2 σ 2 {\displaystyle \Pr \left\{\lambda_{\text{max}\왼쪽(\sum _{k}\xi _{k}\mathbf {A}\i}\mathbf {A}_{k}\req t\cdot e^{2}/2}\sigma^{2}}}}}}}}} 어디에
σ 2 = ‖ ∑ k A k 2 ‖ . {\displaystyle \sigma ^{2}={\bigg \vert }\vert }\sum _{k}\mathbf {A} _{k}^{2}{\bigg \vert }}}} 사각 케이스 Consider a finite sequence { B k } {\displaystyle \{\mathbf {B} _{k}\}} of fixed, self-adjoint matrices with dimension d 1 × d 2 {\displaystyle d_{1}\times d_{2}} , and let { ξ k } {\displaystyle \{\xi _{k}\}} be a finite sequence of independent standard normal or independent Rademacher random variables. 분산 모수 정의
σ 2 = 맥스. { ‖ ∑ k B k B k ∗ ‖ , ‖ ∑ k B k ∗ B k ‖ } . {\displaystyle \sigma ^{2}=\max \left\{{\bigg \Vert }\sum _{k}\mathbf {B} _{k}\mathbf {B} _{k}^{*}{\bigg \Vert },{\bigg \Vert }\sum _{k}\mathbf {B} _{k}^{*}\mathbf {B} _{k}{\bigg \Vert }\right\}. } 그런 다음 모든 t ≥ 0 {\displaystyle t\geq 0} 에 대해,
PR { ‖ ∑ k ξ k B k ‖ ≥ t } ≤ ( d 1 + d 2 ) ⋅ e − t 2 / 2 σ 2 . {\displaystyle \Pr \left\{\bigg \vert _{k}\sum _{k}\xi _{k}\mathbf {B} _{k}{k}{k}\bigg \vert }\geq\right\}\leq(d_{{1}+d}}})\cdot e^{-t{-t{-t}}{-t^{2\cd}}}}}}}}}{-t{-t^{{{ } 매트릭스 체르노프 불평등 고전적인 Chernoff 경계 는 독립 변수, 비부정 변수 및 균일하게 경계된 랜덤 변수의 합계에 관한 것이다. 매트릭스 설정에서, 유사한 정리는 균일한 고유값의 구속에 따른 양의-세미드피니트 무작위 행렬의 합계와 관련이 있다.
매트릭스 체르노프 1세 차원 d {\displaystyle \{\displaystyle \{\mathbf { X} _{k}\}} 의 독립적이고 랜덤하며 자기 성장의 행렬을 고려하십시오. 각 랜덤 행렬이 충족된다고 가정하십시오.
X k ⪰ 0 그리고 λ 맥스. ( X k ) ≤ R {\displaystyle \mathbf {X} _{k}\succeq \mathbf {0} \quad {\text{and}}\quad \lambda _{\text{max}}(\mathbf {X}_{k}\leq R}) 거의 틀림없이
정의
μ 분 = λ 분 ( ∑ k E X k ) 그리고 μ 맥스. = λ 맥스. ( ∑ k E X k ) . {\displaystyle \mu _{\text{min}}=\lambda _{\text{min}}\left(\sum _{k}\mathbb {E} \,\mathbf {X} _{k}\right)\quad {\text{and}}\quad \mu _{\text{max}}=\lambda _{\text{max}}\left(\sum _{k}\mathbb {E} \,\mathbf {X} _{k}\right). } 그러면
PR { λ 분 ( ∑ k X k ) ≤ ( 1 − δ ) μ 분 } ≤ d ⋅ [ e − δ ( 1 − δ ) 1 − δ ] μ 분 / R 을 위해 δ ∈ [ 0 , 1 ) 그리고 {\displaystyle \Pr \left\{\lambda _{\text{min}}\left(\sum _{k}\mathbf {X} _{k}\right)\leq (1-\delta )\mu _{\text{min}}\right\}\leq d\cdot \left[{\frac {e^{-\delta }}{(1-\delta )^{1-\delta }}}\right]^{\mu _{\text{min}}/R}\quad {\text{for }}\delta \in [0,1){\text{, and}}} PR { λ 맥스. ( ∑ k X k ) ≥ ( 1 + δ ) μ 맥스. } ≤ d ⋅ [ e δ ( 1 + δ ) 1 + δ ] μ 맥스. / R 을 위해 δ ≥ 0. {\displaystyle \Pr \left\{\lambda _{\text{max}}\left(\sum _{k}\mathbf {X} _{k}\right)\geq (1+\delta )\mu _{\text{max}}\right\}\leq d\cdot \left[{\frac {e^{\delta }}{(1+\delta )^{1+\delta }}}\right]^{\mu _{\text{max}}/R}\quad {\text{for }}\delta \geq 0.} 매트릭스 체르노프 2세 만족스러운 독립, 랜덤, 임의, 자체 승인 행렬의 시퀀스 { X k : 1 , 2 , …, n } {\displaystyle \{\mathbf {X} _{k}:k=1,2,\ldots,n\}} 을(를) 고려하십시오.
X k ⪰ 0 그리고 λ 맥스. ( X k ) ≤ 1 {\displaystyle \mathbf {X} _{k}\succeq \mathbf {0} \quad {\text{and}}\quad \lambda _{\text{max}}(\mathbf {X}_{k}\leq 1}) 거의 틀림없이
평균 기대치의 최소 및 최대 고유값을 계산한다.
μ ¯ 분 = λ 분 ( 1 n ∑ k = 1 n E X k ) 그리고 μ ¯ 맥스. = λ 맥스. ( 1 n ∑ k = 1 n E X k ) . {\displaystyle {\bar {\mu }}_{\text{min}}=\lambda _{\text{min}}\left({\frac {1}{n}}\sum _{k=1}^{n}\mathbb {E} \,\mathbf {X} _{k}\right)\quad {\text{and}}\quad {\bar {\mu }}_{\text{max}}=\lambda _{\text{max}}\left({\frac {1}{n}}\sum _{k=1}^{n}\mathbb {E} \,\mathbf {X} _{k}\right). } 그러면
PR { λ 분 ( 1 n ∑ k = 1 n X k ) ≤ α } ≤ d ⋅ e − n D ( α ‖ μ ¯ 분 ) 을 위해 0 ≤ α ≤ μ ¯ 분 그리고 {\displaystyle \Pr \left\{\lambda _{\text{min}}\left({\frac {1}{n}}\sum _{k=1}^{n}\mathbf {X} _{k}\right)\leq \alpha \right\}\leq d\cdot e^{-nD(\alpha \Vert {\bar {\mu }}_{\text{min}})}\quad {\text{for }}0\leq \alpha \leq {\bar {\mu }}_{\text{min}}{\text{, and}}} PR { λ 맥스. ( 1 n ∑ k = 1 n X k ) ≥ α } ≤ d ⋅ e − n D ( α ‖ μ ¯ 맥스. ) 을 위해 μ ¯ 맥스. ≤ α ≤ 1. {\displaystyle \Pr \left\{\lambda _{\text{max}}\left({\frac {1}{n}}\sum _{k=1}^{n}\mathbf {X} _{k}\right)\geq \alpha \right\}\leq d\cdot e^{-nD(\alpha \Vert {\bar {\mu }}_{\text{max}})}\quad {\text{for }}{\bar {\mu }}_{\text{max}}\leq \alpha \leq 1.} 2진수 정보 다양성은 다음과 같이 정의된다.
D ( a ‖ u ) = a ( 통나무를 하다 a − 통나무를 하다 u ) + ( 1 − a ) ( 통나무를 하다 ( 1 − a ) − 통나무를 하다 ( 1 − u ) ) {\displaystyle D(a\Vert u)=a\left(\log a-\log u\오른쪽)+(1-a)\left(\log(1-a)-\log(1-u)\right)} a , u ∈ [ 0 , 1 ] {\displaystyle a,u\in [0,1]} 에 대해 .
매트릭스 베넷과 번스타인의 불평등 스칼라 설정에서 베넷과 번스타인의 불평등 은 경계가 있거나 하위인 독립된 0만 랜덤 변수의 합계의 위쪽 꼬리를 설명한다. 행렬의 경우, 유사한 결과는 0평균 랜덤 행렬의 합계와 관련이 있다.
경계 케이스 차원 d {\displaystyle \{\displaystyle \{\mathbf { X} _{k}\}} 의 독립적이고 랜덤하며 자기 성장의 행렬을 고려하십시오. 각 랜덤 행렬이 충족된다고 가정하십시오.
X k ⪰ 0 그리고 λ 맥스. ( X k ) ≤ R {\displaystyle \mathbf {X} _{k}\succeq \mathbf {0} \quad {\text{and}}\quad \lambda _{\text{max}}(\mathbf {X}_{k}\leq R}) 거의 틀림없이
총 분산의 정규 분산을 계산한다.
σ 2 = ‖ ∑ k E ( X k 2 ) ‖ . {\displaystyle \sigma ^{2}={\bigg \vert }\vert }\sum _{k}\mathb {E} \,(\mathbf {X} _{k}^{2}){\bigg \Vert }}}}} 그리고 다음의 불평등 사슬은 모든 t t 0 {\displaystyle t\geq 0} 에 대해 유지된다.
PR { λ 맥스. ( ∑ k X k ) ≥ t } ≤ d ⋅ 생략하다 ( − σ 2 R 2 ⋅ h ( R t σ 2 ) ) ≤ d ⋅ 생략하다 ( − t 2 σ 2 + R t / 3 ) ≤ { d ⋅ 생략하다 ( − 3 t 2 / 8 σ 2 ) 을 위해 t ≤ σ 2 / R ; d ⋅ 생략하다 ( − 3 t / 8 R ) 을 위해 t ≥ σ 2 / R . {\displaystyle{\begin{정렬}\Pr \left\{\lambda_{\text{맥스}}\left(\sum_{k}\mathbf{X}_{k}\right)\geqt\right\}&\leqd\cdot \exp \left(-{\frac{\sigma ^{2}}{R^{2}}}\cdot h\left({\frac{그러나}{\sigma ^{2}}}\right)\right)\\&, \leqd\cdot \exp \left({\frac{{2}}{\sigma ^{2}+Rt/3}}\right -t^)\\&, \leq{\begin{경우}d\cdot \exp(-3t^{2}/8\sigma ^.{2})\quad&{ \text{{}t\leq \sigma ^{2}/R;\d\cdot \exp(-3t/8R)\quad &{{}t\geq \sigma ^{2}/R의 경우. \\end{case}\end{aigned}}} 함수 h( u ) {\displaystyle h(u)} 은 u 0 {\displaystyle u\geq 0} 에 대해 h( u ) = ( 1 + u ) 로그 (1 + u )-u}로 정의 된다.
부차적인 경우 차원 d {\displaystyle \{\displaystyle \{\mathbf {X} _{k}\}} 의 독립 , 랜덤, 자체 승인 행렬을 고려하십시오.
E X k = 0 그리고 E ( X k p ) ⪯ p ! 2 ⋅ R p − 2 A k 2 {\displaystyle \mathbb {E} \,\mathbf {X} _{k}=\mathbf {0} \quad {\text{and}\}\quad \mathb {E} \, (\mathbf {X} _{k^{p})\p! }}{2}}\cdot R^{p-2}\mathbf {A} _{k}^{2}} p = 2 , 3 , 4 , …의 경우, {\displaystyle p=2,3,4,\ldots }.
분산 모수 계산,
σ 2 = ‖ ∑ k A k 2 ‖ . {\displaystyle \sigma ^{2}={\bigg \vert }\vert }\sum _{k}\mathbf {A} _{k}^{2}{\bigg \vert }}}} 그리고 다음의 불평등 사슬은 모든 t t 0 {\displaystyle t\geq 0} 에 대해 유지된다.
PR { λ 맥스. ( ∑ k X k ) ≥ t } ≤ d ⋅ 생략하다 ( − t 2 / 2 σ 2 + R t ) ≤ { d ⋅ 생략하다 ( − t 2 / 4 σ 2 ) 을 위해 t ≤ σ 2 / R ; d ⋅ 생략하다 ( − t / 4 R ) 을 위해 t ≥ σ 2 / R . {\displaystyle {\begin{aligned}\Pr \left\{\lambda _{\text{max}}\left(\sum _{k}\mathbf {X} _{k}\right)\geq t\right\}&\leq d\cdot \exp \left({\frac {-t^{2}/2}{\sigma ^{2}+Rt}}\right)\\&\leq {\begin{cases}d\cdot \exp(-t^{2}/4\sigma ^{2})\quad &{\text{for }}t\leq \sigma ^{2}/R;\\d\cdot \exp(-t/4R)\quad &{\text{for }}t\geq \sigma ^{2}/R. \\end{case}\end{aigned}}} 사각 케이스 차원 d 1 × d 2 {\ displaystyle \{\displaybf {Z} _{k}\}\ displaystyle d_{1}\times d_{2 }}개의 개별 랜덤 행렬이 충족된다고 가정하십시오.
E Z k = 0 그리고 ‖ Z k ‖ ≤ R {\displaystyle \mathbb {E} \,\mathbf {Z} _{k}=\mathbf {0} \quad {\text{and}}\quad \vert \mathbf {Z} _{k}\leq R} 거의 틀림없이 분산 모수 정의
σ 2 = 맥스. { ‖ ∑ k E ( Z k Z k ∗ ) ‖ , ‖ ∑ k E ( Z k ∗ Z k ) ‖ } . {\displaystyle \sigma ^{2}=\max \left\{{\bigg \Vert }\sum _{k}\mathbb {E} \,(\mathbf {Z} _{k}\mathbf {Z} _{k}^{*}){\bigg \Vert },{\bigg \Vert }\sum _{k}\mathbb {E} \,(\mathbf {Z} _{k}^{*}\mathbf {Z} _{k}){\bigg \Vert }\right\}. } 그런 다음 모든 t ≥ 0 {\displaystyle t\geq 0} 에 대해
PR { ‖ ∑ k Z k ‖ ≥ t } ≤ ( d 1 + d 2 ) ⋅ 생략하다 ( − t 2 / 2 σ 2 + R t / 3 ) {\displaystyle \Pr \left\{{\bigg \Vert }\sum _{k}\mathbf {Z} _{k}{\bigg \Vert }\geq t\right\}\leq (d_{1}+d_{2})\cdot \exp \left({\frac {-t^{2}/2}{\sigma ^{2}+Rt/3}}\right)} 쥐다[1]
매트릭스 아즈마, 호프딩, 맥디아미드 불평등 매트릭스 아즈마 아즈마의 불평등 스칼라 버전 은 스칼라 마팅게일 이 평균값에 대해 정상적인 농도를 보이며, 편차에 대한 척도는 차이 시퀀스의 총 제곱 범위에 의해 제어된다고 명시한다. 다음은 매트릭스 설정의 확장이다.
차원 d {\displaystyle d} 이( 가) 있는 자기 성직 행렬의 유한 적응 시퀀스 {X} _{k}\}\} 과(와) 충족되는 자기 성직 행렬의 고정 시퀀스 {A }{\displaystyle \{\mathbf {A} _{k}\}\}}}}}을(와)를 고려하십시오.
E k − 1 X k = 0 그리고 X k 2 ⪯ A k 2 {\displaystyle \mathbb {E} _{k-1}\,\mathbf {X} \quad {\text{and}\}\quad \mathbf {X}{k}^{k}^{k}}}}\preceq \mathbf {A}{{k}^2}}: 거의 틀림없이
분산 모수 계산,
σ 2 = ‖ ∑ k A k 2 ‖ . {\displaystyle \sigma ^{2}={\bigg \vert }\vert }\sum _{k}\mathbf {A} _{k}^{2}{\bigg \vert }}}} 그런 다음 모든 t ≥ 0 {\displaystyle t\geq 0} 에 대해
PR { λ 맥스. ( ∑ k X k ) ≥ t } ≤ d ⋅ e − t 2 / 8 σ 2 {\displaystyle \Pr \왼쪽\{\lambda _{\text{max}\왼쪽(\sum_{k}\mathbf {X}_{k}\오른쪽)\geq t\right\}\leq d^{-t^{2}/8\sigma ^{2}}} 상수 1/8은 추가 정보가 있을 때 1/2로 개선할 수 있다. 각 합계 X k {\displaystyle \mathbf { X} _{ k}이(가) 조건부 대칭인 경우에 한 가지 경우가 발생한다. 다른 예에서는 X k {\ displaystyle \mathbf {X} _{k}} 이(가) 거의 확실히 A k {\displaystyle \mathbf {A} _{k} 와(와) 통근한다는 가정을 요구한다.
매트릭스 호프딩 매트릭스 아즈마의 산지가 독립적이라는 추가 가정을 하면 호프딩의 불평등 행렬이 확장된다.
차원 d {\displaystyle d} 이( 가) 있는 독립, 랜덤, 자기 성직 행렬의 유한 시퀀스 {X} _{k }\}\}을(를) 고려하고, {A } {\displaystyle \{\mathbf {A} _{k}\}}}}} 을(를) 고정된 자가 성직 행렬의 시퀀스로 간주하십시오. 각 랜덤 행렬이 만족한다고 가정해 보십시오.
E X k = 0 그리고 X k 2 ⪯ A k 2 {\displaystyle \mathbb{E} \mathbf {X} _{k}=\mathbf {0} \quad {\text{and}\}\quad \mathbf {X} _{k}^{k}}}\preceq \mathbf {A}_{{{}}}:{2}}: 거의 틀림없이
그런 다음 모든 t ≥ 0 {\displaystyle t\geq 0} 에 대해
PR { λ 맥스. ( ∑ k X k ) ≥ t } ≤ d ⋅ e − t 2 / 8 σ 2 {\displaystyle \Pr \왼쪽\{\lambda _{\text{max}\왼쪽(\sum_{k}\mathbf {X}_{k}\오른쪽)\geq t\right\}\leq d^{-t^{2}/8\sigma ^{2}}} 어디에
σ 2 = ‖ ∑ k A k 2 ‖ . {\displaystyle \sigma ^{2}={\bigg \vert }\vert }\sum _{k}\mathbf {A} _{k}^{2}{\bigg \vert }}}} 이 결과의 개선 은 (Mackey et al . 2012): 모든 t 0 0[\displaystyle t\geq 0}에 대해 확립되었다.
PR { λ 맥스. ( ∑ k X k ) ≥ t } ≤ d ⋅ e − t 2 / 2 σ 2 {\displaystyle \Pr \왼쪽\{\lambda _{\text{max}\왼쪽(\sum_{k}\mathbf {X}_{k}\오른쪽)\geq t\right\}\leq d^{-t^{2}/2\sigma ^{2}}} 어디에
σ 2 = 1 2 ‖ ∑ k A k 2 + E X k 2 ‖ ≤ ‖ ∑ k A k 2 ‖ . {\displaystyle \sigma ^{2}={\frac {1}{2}}{\bigg \Vert }\sum _{k}\mathbf {A} _{k}^{2}+\mathbb {E} \,\mathbf {X} _{k}^{2}{\bigg \Vert }\leq {\bigg \Vert }\sum _{k}\mathbf {A} _{k}^{2}{\bigg \Vert }.} 행렬 경계 차이(McDiarmid) 스칼라 환경에서 맥디아미드의 불평등 은 아즈마의 불평등 을 Dob martingale 에 적용함으로써 차이를 좁히는 하나의 공통적인 방법을 제공한다. 한정된 차이 불평등의 버전은 행렬 설정에 있다.
Let { Z k : k = 1 , 2 , … , n } {\displaystyle \{Z_{k}:k=1,2,\ldots ,n\}} be an independent, family of random variables, and let H {\displaystyle \mathbf {H} } be a function that maps n {\displaystyle n} variables to a self-adjoint matrix of dimension d {\displaystyle d} . Consider a sequence { A k } {\displaystyle \{\mathbf {A} _{k}\} 을 (를) 만족하는 고정 자가 승인 행렬
( H ( z 1 , … , z k , … , z n ) − H ( z 1 , … , z k ′ , … , z n ) ) 2 ⪯ A k 2 , {\displaystyle \left(\mathbf {H} (z_{1},\ldots ,z_{k},\ldots ,z_{n})-\mathbf {H} (z_{1},\ldots ,z'_{k},\ldots ,z_{n})\right)^{2}\preceq \mathbf {A} _{k}^{2},} 여기서 각 인덱스 i {\displaystyle z_ {i } 및 z i ′ {\ displaystyle z' _{i} 의 가능 한 모든 값 에 대한 범위. 분산 매개 변수를 계산하십시오.
σ 2 = ‖ ∑ k A k 2 ‖ . {\displaystyle \sigma ^{2}={\bigg \vert }\vert }\sum _{k}\mathbf {A} _{k}^{2}{\bigg \vert }}}} 그런 다음 모든 t ≥ 0 {\displaystyle t\geq 0} 에 대해
PR { λ 맥스. ( H ( z ) − E H ( z ) ) ≥ t } ≤ d ⋅ e − t 2 / 8 σ 2 , {\displaystyle \Pr \left\{\lambda _{\text{max}}\left(\mathbf {H} (\mathbf {z} )-\mathbb {E} \,\mathbf {H} (\mathbf {z} )\right)\geq t\right\}\leq d\cdot e^{-t^{2}/8\sigma ^{2}},} 여기서 z = ( Z 1 , … , Z n ) {\displaystyle \mathbf {z} =(Z_{1},\ldots, Z_{n }}}.
이 결과의 개선은 (Paulin, Mackey & Tropp 2013 )에서 확립되었다(Paulin, Mackey & Tropp 2016 참조): 모든 t ≤ 0 [\displaystyle t\geq 0}
PR { λ 맥스. ( H ( z ) − E H ( z ) ) ≥ t } ≤ d ⋅ e − t 2 / σ 2 , {\displaystyle \Pr \left\{\lambda _{\text{max}}\left(\mathbf {H} (\mathbf {z} )-\mathbb {E} \,\mathbf {H} (\mathbf {z} )\right)\geq t\right\}\leq d\cdot e^{-t^{2}/\sigma ^{2}},} where z = ( Z 1 , … , Z n ) {\displaystyle \mathbf {z} =(Z_{1},\ldots ,Z_{n})} and σ 2 = ‖ ∑ k A k 2 ‖ . {\displaystyle \sigma ^{2}={\bigg \Vert }\sum _{k}\mathbf {A} _{k}^{2}{\bigg \Vert }.}
관련 이론 조사 이 유형의 첫 번째 경계는 (Ahlswede & Winter 2003 )에 의해 도출되었다. 자가 적응 행렬 가우스 및 라데마커 경계에는 위의 정리 를 기억하십시오. 차원 d {\displaystyle d} 이(가) 있는 고정된 자체 적응형 행렬의 유한 시퀀스 {A } {\displaystyle d} {k }\ displaystyle \{\xi _{k}}}} 에 대해 독립 표준 정규 또는 독립 Rademacher 랜덤 변수의 유한 시퀀스인 경우
PR { λ 맥스. ( ∑ k ξ k A k ) ≥ t } ≤ d ⋅ e − t 2 / 2 σ 2 {\displaystyle \Pr \left\{\lambda_{\text{max}\왼쪽(\sum _{k}\xi _{k}\mathbf {A}\i}\mathbf {A}_{k}\req t\cdot e^{2}/2}\sigma^{2}}}}}}}}} 어디에
σ 2 = ‖ ∑ k A k 2 ‖ . {\displaystyle \sigma ^{2}={\bigg \vert }\vert }\sum _{k}\mathbf {A} _{k}^{2}{\bigg \vert }}}} Ahlswede와 Winter는 같은 결과를 주었을 것이다.
σ A W 2 = ∑ k λ max (A k 2 ) {\ displaystyle \sigma _{ AW}^{2}=\sum _{k}\lambda _{\max }\왼쪽(\ mathbf {A} _{k}^{ 2}\오른쪽 )} . 이에 비해 위의 정리에서 σ 2 {\ displaystyle \sigma ^{2 }}은 σ {\displaystyle \Sigma } 과 λ max {\ displaystyle \lambda _{\max }} 로 통근한다. 즉, 가장 큰 고유값의 합보다 합이 가장 큰 고유값이다. 앨스웨드-윈터 값(표준 삼각형 불평등 기준)보다 결코 크지 않지만 훨씬 더 작을 수 있다. 따라서 위의 정리는 알스웨데-윈터 결과보다 더 엄격한 경계를 부여한다.
(Ahlswede & Winter 2003 )의 주요 기여는 스칼라 체르노프 바운드(Chernoff bound# 참조)를 증명하는 데 사용되는 라플라스 변환법의 연장이었다. 자가 부착 행렬의 경우 가법(절대 오차) 에 대한 정리 . 아래 파생 에서 주어진 절차. 이 주제에 관한 최근의 모든 작품들은 이와 같은 절차를 따르며, 주요한 차이점들은 이후의 단계들로부터 따르게 된다. 알스웨데 & 윈터 골든 사용- 톰슨 부등식 은 진행되나 트로프(Tropp 2010 )는 리브의 정리 를 사용한다.
우측을 거의 일정하게 유지하면서 시리즈 길이(n )와 행렬(d )의 치수를 변경하려고 한다고 가정합시다. 그런 다음 n은 d 의 로그에 따라 대략적으로 달라져야 한다. 몇몇 논문이 차원에 의존하지 않고 구속을 확립하려고 시도했다. 루델슨과 베르시닌(Rudelson & Vershyinn 2007 )은 두 벡터의 외부 제품인 매트릭스에 대해 결과를 제공한다. (Magen & Zouzias 2010 )은 하위 매트릭스에 대한 치수 의존성 없이 결과를 제공 한다. 원래 결과는 알스웨데-윈터 접근방식에서 독립적으로 도출되었지만 (올리베이라 2010b ) 하프 오류: 목표 없음: CITREFOLIVEira2010b(도움말 ) 는 알스웨데-윈터 접근방식을 사용하여 유사한 결과를 증명한다.
마지막으로 올리베이라(Oliviera 2010a ) harv error: no target: CITREFOliviera2010a(도움말 ) 는 알스웨데-윈터 프레임워크와는 독립적으로 매트릭스 마팅ales에 대한 결과를 증명한다. 트로프(Tropp 2011 )는 알스웨데-윈터 프레임워크를 사용하여 결과를 약간 개선한다. 이 글에는 두 가지 결과가 모두 나와 있지 않다.
파생 및 증명 알스웨데와 겨울 (Ahlswede & Winter 2003 )에서 발견된 라플라스 변환 인수는 그 자체로 중요한 결과물이다: Let Y {\ displaystyle \mathbf {Y}}} 은(는) 임의의 자기 적응 행렬이다 . 그러면
PR { λ 맥스. ( Y ) ≥ t } ≤ 바 조로 θ > 0 { e − θ t ⋅ E [ tr e θ Y ] } . {\displaystyle \Pr \left\{\lambda _{\max }(Y)\geq t\right\}\leq \inf _{\theta >0}\left\{e^{-\theta t}\cdot \operatorname {E} \left[\operatorname {tr} e^{\theta \mathbf {Y} }\right]\right\}. } 이를 증명하려면 θ > 0 {\displaystyle \theta >0} 을(를) 수정하십시오. 그러면
PR { λ 맥스. ( Y ) ≥ t } = PR { λ 맥스. ( θ Y ) ≥ θ t } = PR { e λ 맥스. ( θ Y ) ≥ e θ t } ≤ e − θ t E e λ 맥스. ( θ Y ) ≤ e − θ t E tr e ( θ Y ) {\displaystyle{\begin{정렬}\Pr \left\ᆭ(\mathbf{Y})\geq t\right\}&=\Pr \left\ᆮ(\mathbf{\theta Y})\geq \theta t\right\}\\&, =\Pr \left\ᆯ(\theta \mathbf{Y})}\geq e^{\theta지}\right\}\\&, \leq e^{-\theta지}\operatorname{E}e^ᆳ(\theta \mathbf{Y})}\\&,\leq e^{-\the.분명 t}\operatorna me {E} \operatorname {tr} e^{{(\teta \mathbf {Y} )}\end{arged}}}} 두 번째에서 마지막 불평등은 마르코프의 불평등 이다. The last inequality holds since e λ max θ Y = λ max e θ Y ≤ tr e θ Y {\displaystyle e^{\lambda _{\max }\theta \mathbf {Y} }=\lambda _{\max }e^{\theta \mathbf {Y} }\leq \operatorname {tr} e^{\theta \mathbf {Y} }} . Since the left-most quantity is independent of θ {\displaystyle \theta } , the infimum over θ > 0 {\displaystyle \theta >0} 은(는) 그것에 대한 상한으로 남아 있다.
Thus, our task is to understand E tr e θ Y {\displaystyle \operatorname {E} \operatorname {tr} e^{\theta \mathbf {Y} }} Nevertheless, since trace and expectation are both linear, we can commute them, so it is sufficient to consider E e θ Y := M Y ( θ ) {\displaystyle \operatorname {E} e^{\theta \mathbf {Y} } :=\mathbf {M} _{\mathbf {Y} }}(\theta )}, 이것을 행렬 생성 함수라고 부른다.여기서 (Ahlswede & Winter 2003 )와 (Tropp 2010 )의 방법이 갈라진다. 바로 이어지는 프레젠테이션(Alswede & Winter 2003 )이 이어진다.
더 골든-톰슨 부등식 은 다음을 암시한다.
tr M X 1 + X 2 ( θ ) ≤ tr [ ( E e θ X 1 ) ( E e θ X 2 ) ] = tr M X 1 ( θ ) M X 2 ( θ ) {\displaystyle \operatorname {tr} \mathbf {M} _{\mathbf {X} _{1}+\mathbf {X} _{2}}(\theta )\leq \operatorname {tr} \left[\left(\operatorname {E} e^{\theta \mathbf {X} _{1}}\ right)\left(\operatorname {E} e^{\theta \mathbf {X} _{2}}\right)\right]=\operatorname {tr} \mathbf {M} _{\mathbf {X} _{1}}(\theta )\mathbf {M} _{\mathbf {X} _{2}}(\theta )} , where we used the linearity of expectation several times. Suppose Y = ∑ k X k {\displaystyle \mathbf {Y} =\sum _{k}\mathbf {X} _{k}} . We can find an upper bound for tr M Y ( θ ) {\displaystyle \operatorname {tr} \mathbf {M} _{\mathbf {Y} }(\theta )} by iterating this result. tr (A B ) ≤ tr (A ) λ max ( B ) {\displaystyle \operatorname {tr}(\mathbf {AB} )\leq \operatorname {tr}(\mathbf {A} )\lambda _{\max }(\mathbf {B} )} )} )}}}}}}}}}}}}}}, 그 다음.
tr M Y ( θ ) ≤ tr [ ( E e ∑ k = 1 n − 1 θ X k ) ( E e θ X n ) ] ≤ tr ( E e ∑ k = 1 n − 1 θ X k ) λ 맥스. ( E e θ X n ) . {\displaystyle \operatorname {tr} \mathbf {M} _{\mathbf {Y} }(\theta )\leq \operatorname {tr} \left[\left(\operatorname {E} e^{\sum _{k=1}^{n-1}\theta \mathbf {X} _{k}}\right)\left(\operatorname {E} e^{\theta \mathbf {X} _{n}}\right)\right]\leq \operatorname {tr} \left(\operatorname {E} e^{\sum _{k=1}^{n-1}\theta \mathbf {X} _{k}}\right)\lambda _{\ 최대 }(\operatorname {E} e^{\theta \mathbf {X} _{n}). } 이걸 반복하면
tr M Y ( θ ) ≤ ( tr I ) [ Π k λ 맥스. ( E e θ X k ) ] = d e ∑ k λ 맥스. ( 통나무를 하다 E e θ X k ) {\displaystyle \operatorname {tr} \mathbf {M} _{\mathbf {Y} }(\theta )\leq (\operatorname {tr} \mathbf {I} )\left[\Pi _{k}\lambda _{\max }(\operatorname {E} e^{\theta \mathbf {X} _{k}})\right]=de^{\sum _{k}\lambda _{\max }\left(\log \operatorname {E} e^{\theta \mathbf {X} _{k}}\right) }} 지금까지 우리 는 최소값의 한계를 found {\displaystyle \theta } 에 대해 발견했다. 그 결과, 이것은 한계일 수 있다. 어쨌든 알스웨데-윈터 바운드가 어떻게 가장 큰 고유값의 합으로 발생하는지 알 수 있다.
트로프 (Tropp 2010 )의 주요 공헌은 (Ahlswede & Winter 2003 )이 황금-을 적용했던 리브의 정리 적용이다. 톰슨 부등식 .Tropp의 골격은 다음 과 같다: H {\displaystyle H} 이 (가) 고정 자가 적응 행렬이고 X {\displaystyle X} 이 (가 ) 임의의 자가 적응 행렬이면
E tr e H + X ≤ tr e H + 통나무를 하다 ( E e X ) {\displaystyle \operatorname {E} \operatorname {tr} e^{\mathbf {H} +\mathbf {X} }\leq \operatorname {tr} e^{\mathbf {H} +\log(\operatorname {E}{\mathbf {X}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} 증명: Let Y = e X {\ displaystyle \mathbf {Y} = e^{\mathbf {X }}}}}}}}. 그렇다면 Lieb의 정리로는 다음과 같은 것을 알 수 있다.
f ( Y ) = tr e H + 통나무를 하다 ( Y ) {\displaystyle f(\mathbf {Y} )=\operatorname {tr} e^{\mathbf {H} +\log(\mathbf {Y} )}}}}}} 오목하다 마지막 단계는 젠센의 불평등 을 이용하여 함수 내부의 기대치를 움직이는 것이다.
E tr e H + 통나무를 하다 ( Y ) ≤ tr e H + 통나무를 하다 ( E Y ) . {\displaystyle \operatorname {E} \operatorname {tr} e^{\mathbf {H} +\log(\mathbf {Y} )}\leq \operatorname {tr}E^{\mathbf {H} +\log(\operatorname {E} \mathbf {Y}}}}}}}}}}}}}}). 이것은 우리에게 논문의 주요 결과를 제공한다: 매트릭스 생성함수의 로그의 하위 부가성.
로그 mgf의 하위 가독성 X k {\ displaystyle \mathbf {X} _{k}}} 을(를) 독립적이고 무작위적인 자기 적응 행렬의 유한 시퀀스가 되도록 한다.그런 다음 모든 θ ∈ R {\displaystyle \theta \in \mathb {R },
tr M ∑ k X k ( θ ) ≤ tr e ∑ k 통나무를 하다 M X k ( θ ) {\displaystyle \mathbf {tr} \mathbf {M} _{\sum _{k}(\theta )\leq \operatorname {tr} e^{{k}\logmathbf {M} _{\mathbf {X}}{k}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}} 증명: θ = 1 {\displaystyle \theta =1 }. 정의를 확대하면 다음과 같은 것을 보여줄 필요가 있다.
E tr e ∑ k θ X k ≤ tr e ∑ k 통나무를 하다 E e θ X k . {\displaystyle \operatorname {E} \operatorname {tr} e^{\sum _{k}\leq \operatorname {tr} e^{}{k}\log \operatorname {E} e^{\ta \mathbf {X} _{k}}}}}}}. } 그 증거를 완성하기 위해 우리 는 완전한 기대의 법칙 을 사용한다. E k {\ displaystyle \operatorname {E} _{k }} 에 기대 조건을 붙이십시오. X i {\ displaystyle \mathbf {X} _{1},\dots,\mathbf {X} _{k}. 모든 Xi 가 독립적이라고 가정하므로,
E k − 1 e X k = E e X k . {\displaystyle \operatorname {E} _{k-1}e^{\mathbf {X} _{k}=\mathbf {X} _{k}}} Define Ξ k = log E k − 1 e X k = log M X k ( θ ) {\displaystyle \mathbf {\Xi } _{k}=\log \operatorname {E} _{k-1}e^{\mathbf {X} _{k}}=\log \mathbf {M} _{\mathbf {X} _{k}}(\theta )} .
마침내, 우리는
E tr e ∑ k = 1 n X k = E 0 ⋯ E n − 1 tr e ∑ k = 1 n − 1 X k + X n ≤ E 0 ⋯ E n − 2 tr e ∑ k = 1 n − 1 X k + 통나무를 하다 ( E n − 1 e X n ) = E 0 ⋯ E n − 2 tr e ∑ k = 1 n − 2 X k + X n − 1 + Ξ n ⋮ = tr e ∑ k = 1 n Ξ k {\displaystyle{\begin{정렬}\operatorname{E}\operatorname{tr}e^{\sum_{k=1}^{n}\mathbf{X}_{k}}&=\operatorname{E}_{0}\cdots{X}_{k}+\mathbf{X}_{n}}\\& e^{\sum_{k=1}^{n-1}\mathbf, \leq\operatorname{E}_{0}\cdots{E}_{n-2}\operatorname{tr}e^{\sum_{k=1}^{n-1}\mathbf{X}\operatorname{E}_{n-1}\operatorname{tr}\operatorname._{k}+\l og(\operatorname {E} _{n-1}e^{\mathbf {X} _{n}})}\\&=\operatorname {E} _{0}\cdots \operatorname {E} _{n-2}\operatorname {tr} e^{\sum _{k=1}^{n-2}\mathbf {X} _{k}+\mathbf {X} _{n-1}+\mathbf {\Xi } _{n}}\\&\vdots \\&=\operatorname {tr} e^{\sum _{k=1}^{n}\mathbf {\Xi } _{k}}\end{aligned}}} 매 단계마다 우리는 트로프의 코롤리를 사용한다.
H m = ∑ k = 1 m − 1 X k + ∑ k = m + 1 n Ξ k {\displaystyle \mathbf {H} _{m}=\sum _{m-1}^{k}\mathbf {X} _{k}+\sum _{k=m+1}^{n}}\mathbf {\Xi}}}} 마스터 테일 바운드 이전 결과에서 바로 다음과 같다.
PR { λ 맥스. ( ∑ k X k ) ≥ t } ≤ 바 조로 θ > 0 { e − θ t tr e ∑ k 통나무를 하다 M X k ( θ ) } {\displaystyle \Pr \left\{\lambda _{\max }\left(\sum _{k}\mathbf {X} _{k}\right)\geq t\right\}\leq \inf _{\theta >0}\left\{e^{-\theta t}\operatorname {tr} e^{\sum _{k}\log \mathbf {M} _{\mathbf {X} _{k}}(\theta )}\right\}} 위에 제시된 모든 이론들은 이 한계에서 파생된 것이다; 그 이론들은 최소를 한계로 묶기 위한 다양한 방법으로 구성된다. 이 단계들은 주어진 증거보다 훨씬 간단하다.
참조 Ahlswede, R.; Winter, A. (2003). "Strong Converse for Identification via Quantum Channels". IEEE Transactions on Information Theory . 48 (3): 569–579. arXiv :quant-ph/0012127 . doi :10.1109/18.985947 . S2CID 523176 . Mackey, L.; Jordan, M. I.; Chen, R. Y.; Farrell, B.; Tropp, J. A. (2012). "Matrix Concentration Inequalities via the Method of Exchangeable Pairs". The Annals of Probability . 42 (3): 906–945. arXiv :1201.6002 . doi :10.1214/13-AOP892 . S2CID 9635314 . Magen, A. ; Zouzias, A. (2010). "Low-Rank Matrix-valued Chernoff Bounds and Approximate Matrix Multiplication". arXiv :1005.2724 [cs.DS ]. Oliveira, R.I. (2010). "Concentration of the adjacency matrix and of the Laplacian in random graphs with independent edges". arXiv :0911.0600 [math.CO ]. Oliveira, R.I. (2010). "Sums of random Hermitian matrices and an inequality by Rudelson". arXiv :1004.3821 [math.PR ]. Paulin, D.; Mackey, L.; Tropp, J. A. (2013). "Deriving Matrix Concentration Inequalities from Kernel Couplings". arXiv :1305.0612 [math.PR ]. Paulin, D.; Mackey, L.; Tropp, J. A. (2016). "Efron–Stein inequalities for random matrices". The Annals of Probability . 44 (5): 3431–3473. arXiv :1408.3470 . doi :10.1214/15-AOP1054 . S2CID 16263460 . Rudelson, M.; Vershynin, R. (2007). "Sampling from large matrices: an approach through geometric functional analysis". J. Assoc. Comput. Mach. (4 ed.). 54 . arXiv :math/9608208 . Bibcode :1996math......8208R . doi :10.1145/1255443.1255449 . S2CID 6054789 . Tropp, J. (2011). "Freedman's inequality for matrix martingales". arXiv :1101.3039 [math.PR ]. Tropp, J. (2010). "User-friendly tail bounds for sums of random matrices". Foundations of Computational Mathematics . 12 (4): 389–434. arXiv :1004.4389 . doi :10.1007/s10208-011-9099-z . S2CID 17735965 .