볼츠만 기계

A graphical representation of an example Boltzmann machine.

Boltzmann 기계의 그래픽 표현.각 무방향 에지는 종속성을 나타냅니다.이 예에서는 3개의 숨겨진 장치와 4개의 가시 장치가 있습니다.이것은 제한된 볼츠만 기계가 아닙니다.

볼츠만 기계(외부 필드 또는 확률적 이징-렌즈-리틀 모델을 사용하여 쉐링턴-커크패트릭 모델이라고도 함)는 외부 필드, 즉 확률적 이징 모델인 셰링턴-커크패트릭 ^[1]모델을 가진 확률적 스핀 유리 모델이다.그것은 인지과학의 ^[2]맥락에서 적용되는 통계물리학 기법이다.마르코프 랜덤 ^[3]필드로도 분류됩니다.

볼츠만 기계는 이론적으로 (Hebb의 법칙에 의해 훈련되는) 훈련 알고리즘의 국소성과 헵의 특성, 그리고 그들의 병렬성과 단순한 물리적 과정과의 역학 유사성 때문에 흥미를 끈다.제한되지 않은 연결성을 가진 볼츠만 기계는 기계 학습 또는 추론의 실제 문제에 유용하다는 것이 입증되지 않았지만, 연결성이 적절하게 제한된다면 실제 ^[4]문제에 유용하게 사용될 수 있을 만큼 충분히 효율적으로 학습할 수 있다.

통계역학에서 볼츠만 분포의 이름을 따왔으며, 표본함수에 사용된다.Geoffrey Hinton, Terry Sejnowski 및 Yann LeCun에 의해 인지과학 커뮤니티 및 기계학습 ^[5]분야에서 크게 대중화되고 홍보되었습니다.기계 학습 내의 보다 일반적인 클래스로서 이러한 모델은 "에너지 기반 모델"(EBM)이라고 불립니다. 왜냐하면 스핀 글래스의 해밀턴이 학습 ^[6]과제를 정의하기 위한 출발점으로 사용되기 때문입니다.

구조.

A graphical representation of an example Boltzmann machine with weight labels.

Boltzmann 기계의 그래픽 표현으로, 몇 개의 중량 라벨이 붙어 있습니다.각 무방향 엣지는 의존관계를 나타내며

w_{ij}

는

(\

입니다.이 예에서는 3개의 숨겨진 단위(파란색)와 4개의 표시 단위(흰색)가 있습니다.이것은 제한된 볼츠만 기계가 아닙니다.

Sherrington-Kirkpatrick 모델과 같이 볼츠만 기계는 네트워크 전체에 대해 정의된 총 에너지(Hamiltonian )를 가진 유닛의 네트워크입니다.그 단위는 2진수 결과를 낳는다.볼츠만 기계의 무게는 확률적이다.Boltzmann 기계의 글로벌 $에너지$ E(\ $displaystyle$ E)는 홉필드 네트워크 및 Ising 모델의 형태와 동일합니다.

(\displaystyle E=-\left(\sum _{i},s_{i},s_{j}+\sum _{i}\theta _{i},s_{i}\right)})

장소:

$w_{ij}$ $w_{ij}$ j { $display$ $style$ $w$ _ { $ij$ $i$ $w_{ij}$ $j$ 、 $유닛$ j 와 $유닛$ i $사이$ 의 접속 강도입니다.
$s_{i}$ i $(\$ $i})$ 는 $s_{i}$ $유닛$ i $s_{i}\in \{0,1\}$ $displaystyle$ i $i$ 의 상태({ $0,1$ 입니다.
$§$ $(디스플레이$ $스타일$ ) _ ${$ $i})$ 는 글로벌 에너지 기능에서단위 i( $디스플레이 스타일$ i $i$ )의 편향입니다. $-\theta _{i}$ - $-\theta _{i}$ i \ $displaystyle -$ \ $theta$ _ { $i$ } ) 、유닛의 액티베이션 임계값입니다.

$w_{ij}$ $w_{ij}$ { $displaystyle$ $w_{ij}}$ 의 $w_{ij}$ 가중치는 대각선을 따라 0이 $W=[w_{ij}]$ $W=[w_{ij}]$ 행렬 W $=$ [ $w$ j $]$ { $w$ _ { ij $W=[w_{ij}]$ } with $W=[w_{ij}]$ 。

단위 상태 확률

무게의 대칭 매트릭스를 가정하여 $\Delta E_{i}$ $\Delta E_{i}$ i \ $Delta E_{i$ 라고 쓰여진 단일 $단위$ i \ $displaystyle$ i \ $displaystyle$ 1 대 1 (on)과 같은 $i$ 전지구 에너지 차이는 다음과 같습니다.

\displaystyle \Delta E_{i}=\sum _{j>i}w_{j}+\sum _{j}w_{ji},s_{j}+\theta _{i}

이는 두 상태의 에너지 차이로 표현될 수 있다.

\displaystyle \Delta E_{i}=E_{\text{i=off}}-E_{\text{i=on}}}

각 상태의 에너지를 볼츠만 계수(상태 에너지가 해당 상태의 음의 로그 확률에 비례하는 볼츠만 분포의 특성)에 따른 상대적 확률로 대입하면 다음과 같이 계산됩니다.

(\displaystyle \Delta E_{i}=-k_{B},T\ln(-k_{i=off})-(-k_{B},T\ln(p_{\text{i=on}}}))

$k_{B}$ 서 k B $(\$ 는 $k_{B}$ 볼츠만의 상수이며 온도 $T$ (\ $displaystyle$ T $T$ 의 인위적인 개념에 흡수됩니다. 그런 다음 용어를 재정렬하고 장치가 켜지거나 꺼질 확률은 1이어야 합니다.

(\displaystyle\frac\Delta E_{i}}{T}}=\ln(p_{\text{i=on}})-\ln(p_{\text{i=off}})}}}:

(\displaystyle\frac\Delta E_{i}}{T}}=\ln(p_{\text{i=on}})-\ln(1-p_{\text{i=on}})}}:

(\displaystyle\frac\Delta E_{i}}{T}}=\ln \leftfrac {p_{\text{i=on}}{1-p_{\text{i=on}}}}\right}

- {\frac {Delta E_{i}}{T}}=\ln \leftfrac {1-p_{\text{i=on}}{p_{\text{i=on}}}}\right

- {\frac {Delta E_{i}}{T}}=\ln \leftflac {1} {p_{\text{i=on}}}}-1\right

\displaystyle \exp \left(-\frac {Delta E_{i}}){T}}\right)=param frac {1}{p_{\text{i=on}}}}}-1}

${$ 의 $p_{\text{i=on}}$ $,$ i\ $displaystyle$ i} -th $i$ $i$ 이 켜질 확률은 다음과 같습니다.

p_{\text{i=on}}=black{1}{1+\exp}{\frac{Delta E_{i}}{T}}}}

여기서 $스칼라$ T(\ $displaystyle$ T $)$ 는 $T$ 시스템 온도입니다.이 관계는 Boltzmann 기계의 변형에서 확률식에서 찾을 수 있는 로지스틱 함수의 근원입니다.

평형 상태

네트워크는 유닛 선택과 스테이트 리셋을 반복함으로써 가동됩니다.특정 온도에서 충분히 오랜 시간 가동한 후 네트워크의 글로벌 상태가 될 확률은 볼츠만 분포에 따라 해당 글로벌 상태의 에너지에만 의존하며 프로세스가 시작된 초기 상태에는 의존하지 않습니다.이는 지구 상태의 로그 확률이 에너지에서 선형으로 변한다는 것을 의미한다.이 관계는 기계가 "열 평형 상태"일 때 참이며, 이는 전역 상태의 확률 분포가 수렴되었음을 의미합니다.네트워크를 고온에서 가동하면 온도가 점차 낮아져 저온에서 열평형에 도달합니다.그런 다음 에너지 수준이 전지구 최소값 부근에서 변동하는 분포로 수렴할 수 있습니다.이 과정을 시뮬레이션 어닐링이라고 합니다.

이들 상태의 외부 분포에 따라 네트워크가 글로벌 상태로 수렴되도록 훈련하려면 확률이 가장 높은 글로벌 상태가 가장 낮은 에너지를 얻도록 가중치를 설정해야 합니다.이것은 트레이닝에 의해서 행해집니다.

트레이닝

볼츠만 기계의 단위는 '보이는' 단위 V와 '숨겨진' 단위 H로 나뉩니다.눈에 보이는 단위는 '환경'으로부터 정보를 수신하는 단위입니다. 즉, 트레이닝 세트는 세트 V 위의 이진 벡터 세트입니다.트레이닝 세트에 대한 분포는 $P^{+}(V)$ P + ( $P^{+}(V)$ ) { $displaystyle$ P $^{+}(V$ 로 $P^{+}(V)$ 됩니다.

Boltzmann 기계가 열평형에 도달함에 따라 전역 상태의 분포가 수렴됩니다.이 분포를 숨겨진 단위에서 한계화한 후 P $P^{-}(V)$ - $P^{-}(V)$ ( $P^{-}(V)$ ) \ $displaystyle$ P $^{$ - } $P^{-}(V)$ ( V $)$ 로 $P^{-}(V)$ .

우리의 목표는 기계에서 $P^{-}(V)$ 되는 $P^{-}(V)$ - $P^{-}(V)$ ( $P^{-}(V)$ V ) \ $displaystyle$ P^ { - } $P^{-}(V)$ ( V )를 $P^{-}(V)$ 사용하여 $P^{+}(V)$ "실제" $P^{+}(V)$ P + $P^{+}(V)$ ( $P^{+}(V)$ ) \ $displaystyle$ P^ { + } ( $V$ )을 근사하는 것입니다.두 분포의 유사성은 Kullback-Leibler divergence $,$ $G$ \ $display G$

G=\sum _{v}{P^{+}(v)\ln \leftflac {P^{+}(v)}{P^{-}(v)}}\right}}

여기서 합계는 V $(\displaystyle$ V $V$ 의 모든 가능한 상태에 대한 것입니다 $.$ $G$ (\ $displaystyle$ G $)$ 는 $G$ 가중치의 함수입니다. 왜냐하면 G는 가중치의 에너지를 결정하며, 에너지는 볼츠만 분포에서 약속한 대로 P $P^{-}(v)$ - ( $P^{-}(v)$ $)(\displaystyle$ P $^{-}(v$ 를 $P^{-}(v)$ 합니다.G $(\displaystyle$ G $G$ $G$ 의 경사 강하 알고리즘은 무게에 대한 G $(\displaystyle$ $G$ $)$ 의 $G$ 편미분을 빼서 주어진 무게 $w_{ij}$ { $ij}$ 를 $w_{ij}$ 변경합니다.

볼츠만 기계 훈련은 두 단계를 번갈아 거칩니다.하나는 "양" 단계로, 가시적인 유닛의 상태가 훈련 세트에서 샘플링된 특정 이진 상태 벡터에 고정됩니다( $P^{+}$ $P^{+}$ ${\$ P $^{+}}).$ 다른 하나는 네트워크를 자유롭게 가동할 수 있는 "부정적" 단계입니다. 즉, 외부 데이터에 의해 어떤 장치도 상태가 결정되지 않습니다.주어진 무게 $\$ 에 대한 구배는 다음 ^[7]방정식으로 구할 수 있습니다.

{\frac {G}}{\partial {w_{ij}}=-{\frac {1}{R}[p_{ij}-p_{ij}^{-}}

여기서:

$p_{ij}^{+}$ $p_{ij}^{+}$ j $p_{ij}^{+}$ + ({ $displaystyle p_$ {ij $}^{+})$ 는 $p_{ij}^{+}$ 기계가 양의 단계에서 평형 상태에 있을 때 i와 j가 모두 켜질 확률입니다.
$p_{ij}^{-}$ $p_{ij}^{-}$ j $p_{ij}^{-}$ - {\ $displaystyle p_{ij}^{-}}$ 는 $p_{ij}^{-}$ 기계가 음의 위상에서 평형 상태에 있을 때 i와 j가 모두 켜질 확률입니다.
$(\displaystyle$ R $)$ 은 $R$ 학습률을 나타냅니다.

이 결과는 열평형 상태에서 네트워크가 자유 동작 중일 때 글로벌 상태 $s$ 의 $확률$ $P^{-}(s)$ - $P^{-}(s)$ ( $P^{-}(s)$ ) ${\$ $displaystyle$ P $^{-}(s)$ 가 $P^{-}(s)$ 볼츠만 분포에 의해 주어진다는 사실에서 비롯된다.

가중치를 변경하는 데 필요한 유일한 정보가 "국소" 정보에 의해 제공되기 때문에 이 학습 규칙은 생물학적으로 타당하다.즉, 연결(시냅스, 생물학적으로)은 두 개의 뉴런을 연결하는 것 이외의 어떤 정보도 필요로 하지 않습니다.이는 역전파 등 많은 다른 뉴럴 네트워크트레이닝 알고리즘에서의 접속에 필요한 정보보다 생물학적으로 더 현실적입니다.

Boltzmann 기계의 훈련에는 기계 학습에 많이 사용되는 전자파 알고리즘이 사용되지 않습니다.KL-Divergence를 최소화함으로써 데이터의 로그 우도를 최대화하는 것과 같습니다.따라서 훈련 절차는 관찰된 데이터의 로그 우도에 대해 경사 상승을 수행합니다.이는 M 단계 동안 전체 데이터 우도의 예상 값을 최대화하기 전에 숨겨진 노드의 후방 분포를 계산해야 하는 전자파 알고리즘과 대조적이다.

편견 훈련은 비슷하지만 단일 노드 액티비티만 사용합니다.

{\frac {G}} {\frac {1} {R} =-{\frac {1} {R} [p_{i}-p_{i} {{-}

문제

이론적으로 볼츠만 기계는 다소 일반적인 계산 매체이다.예를 들어, 사진 교육을 받은 경우, 기계는 이론적으로 사진의 분포를 모델링하고, 예를 들어 부분 사진을 완성하기 위해 그 모델을 사용할 수 있습니다.

안타깝게도 볼츠만 기계는 심각한 실제 문제를 경험합니다. 즉, 기계가 사소한 ^{[citation needed]}크기보다 더 큰 크기로 확장되면 학습이 올바르게 중단되는 것처럼 보인다는 것입니다.이는 특히 다음과 같은 중요한 영향에 기인합니다.

평형 통계를 수집하기 위해 필요한 시간 순서는 기계의 크기와^{[citation needed]} 연결 강도의 크기에 따라 기하급수적으로 증가한다.
접속 강도는 접속된 유닛의 활성화 확률이 0과 1 사이의 중간일 때 가소성이 높아져 이른바 분산 트랩이 발생합니다.순효과는 노이즈가 활동이 포화될 때까지 연결강도를 무작위로 걷게 한다는 것이다.

종류들

제한 볼츠만 기계

제한된 볼츠만 기계의 그래픽 표현.4개의 파란색 단위는 숨겨진 단위를 나타내며, 3개의 빨간색 단위는 가시적인 상태를 나타냅니다.제한된 Boltzmann 기계에서는 숨겨진 장치와 보이는 장치 사이의 연결(의존성)만 존재하며, 동일한 유형의 장치 간에는 아무 연결(숨겨진 연결 또는 가시적인 연결 없음)이 없습니다.

일반적인 볼츠만 기계에서는 학습이 실용적이지 않지만 숨겨진 단위와 가시적 단위 사이의 레이어 내 연결을 허용하지 않는 제한된 볼츠만 기계(RBM)에서는 학습이 상당히 효율적일 수 있다. 즉, 가시적 단위와 숨겨진 단위 사이에는 아무런 연관성이 없다.1개의 RBM을 훈련시킨 후 숨겨진 유닛의 액티비티는 상위 레벨의 RBM을 훈련하기 위한 데이터로 취급할 수 있습니다.RBM을 스태킹하는 이 방법을 사용하면 숨겨진 유닛의 많은 레이어를 효율적으로 트레이닝할 수 있으며 가장 일반적인 딥 러닝 전략 중 하나입니다.새로운 레이어가 추가될 때마다 생성 모델이 개선됩니다.

제한된 Boltzmann 기계로 확장하면 이진수 ^[8]데이터가 아닌 실제 값 데이터를 사용할 수 있습니다.

실용적인 RBM 어플리케이션의 한 예는 음성 ^[9]인식입니다.

딥 볼츠만 기계

딥 볼츠만 머신(DBM)은 숨겨진 랜덤 변수의 여러 층을 가진 이진 쌍 마르코프 랜덤 필드(무방향 확률론적 그래픽 모델)의 한 유형이다.이것은 대칭적으로 결합된 확률적 이진 단위의 네트워크입니다.이 유닛은 일련의 가시 유닛 ${\boldsymbol {\nu }}\in \{0,1\}^{D}$ ${\boldsymbol {\nu }}\in \{0,1\}^{D}$ {{ ${\boldsymbol {\nu }}\in \{0,1\}^{D}$ , ${\boldsymbol {\nu }}\in \{0,1\}^{D}$ ${\boldsymbol {\nu }}\in \{0,1\}^{D}$ { \ ${\boldsymbol {\nu }}\in \{0,1\}^{D}$ { \ bold $symbol$ \ ${ 0$ ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ , 1 \ $in$ \ { 0 , ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ \ }^{ D ${\boldsymbol {\nu }}\in \{0,1\}^{D}$ ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ layers layers ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ layers ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ h h h h ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ h ( ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ ) ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ { ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ , ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ } $F2$ , ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ 、 0 . 0 ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ 1 } ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ 、 ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ 、 ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ ∈ 1 ∈ 1 ∈ 1 、 L ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ ${(2)}\in$ \{ $0,1\}^{F_{2},\ldots,{\boldsymbol {h}^{(L)}\in$ \{ $0,1\}^{F_{L$ 같은 계층의 연결 장치가 없습니다(RBM 등).DBM의 경우 벡터 $is$ 에 할당될 확률은 다음과 같습니다.

{\displaystyle pboldsymbol {nu } = sum frac {1} {Z} } 、 sum _ { h } e^ { \ sum _ { ij }W_{ij}^{(1)\nu _{i}h_{j}^{(1)+\sum _{jl}W_{jl}^{(2)}h_{j}^{(1)}h_{l}^{(2)}+\sum _{lm}W_{lm}^{(3)}h_{l}^{(2)}h_{m}^{(3)}},

${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ 서 h ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ { ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ ( 1 ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ ) , ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ ( ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ ) , ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ ( ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ ) $}$ { $displaystyle$ { $boldsymbol {$ h} $\theta =\{{\boldsymbol {W}}^{(1)},{\boldsymbol {W}}^{(2)},{\boldsymbol {W}}^{(3)}\}$ \ { \ $boldsymbol$ { h} ^{ (1 $)$ }, {\ $boldsymbol {$ h}^{ ( $2)},$ {\} {\} {\ $boldsymboldsymbol$ { $\theta =\{{\boldsymbol {W}}^{(1)},{\boldsymbol {W}}^{(2)},{\boldsymbol {W}}^{(3)}\}$ $}$ = W $\theta =\{{\boldsymbol {W}}^{(1)},{\boldsymbol {W}}^{(2)},{\boldsymbol {W}}^{(3)}\}$ 의 ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ $\theta =\{{\boldsymbol {W}}^{(1)},{\boldsymbol {W}}^{(2)},{\boldsymbol {W}}^{(3)}\}$ 입니다 $\theta =\{{\boldsymbol {W}}^{(1)},{\boldsymbol {W}}^{(2)},{\boldsymbol {W}}^{(3)}\}$ $ldsymbol {W}}^{(3)}\}}$ 는 $\theta =\{{\boldsymbol {W}}^{(1)},{\boldsymbol {W}}^{(2)},{\boldsymbol {W}}^{(3)}\}$ 모델 파라미터로, 숨겨진 상호 ^[10]작용과 숨겨진 상호 작용을 나타냅니다.DBN에서 상위 두 계층만 제한된 Boltzmann 기계(무방향 그래픽 모델)를 형성하고 하위 계층은 방향 생성 모델을 형성합니다.DBM에서는 모든 레이어가 대칭이며 방향이 없습니다.

DBM은 DBM과 마찬가지로 객체 인식이나 음성 인식과 같은 작업에서 입력의 복잡하고 추상적인 내부 표현을 학습할 수 있습니다. 제한적이고 라벨이 지정된 데이터를 사용하여 라벨이 없는 다수의 감각 입력 데이터를 사용하여 작성된 표현을 미세 조정할 수 있습니다.그러나 DBN 및 심층 컨볼루션 뉴럴 네트워크와는 달리, 이들은 상향식 및 하향식 양방향으로 추론 및 훈련 절차를 추구하므로 DBM이 입력 ^[11]^[12]^[13]구조의 표현을 더 잘 공개할 수 있다.

그러나 DBM의 속도가 느리기 때문에 성능과 기능이 제한됩니다.DBM에서는 정확한 최대우도 학습이 어렵기 때문에 대략적인 최대우도 학습만 가능합니다.또 다른 옵션은 마르코프 연쇄 몬테 카를로(MCMC)^[10]를 사용하여 데이터 의존적 기대치를 추정하고 예상 충분한 통계량을 근사하기 위해 평균장 추론을 사용하는 것이다.이 대략적인 추론은 각 테스트 입력에 대해 수행되어야 하며, DBM의 단일 상향식 패스보다 약 25~50배 느립니다.이로 인해 대규모 데이터 세트에서는 공동 최적화가 실용적이지 않고 기능 표현 등의 작업에 DBM을 사용할 수 없게 됩니다.

스파이크 앤 슬래브 RBM

가우스 RBM에서와 같이 실제 값 입력을 사용한 딥 러닝의 필요성은 이진 잠재 ^[14]변수를 사용하여 연속 값 입력을 모델링하는 스파이크 앤 슬래브 RBM(sshRBM)으로 이어졌다.기본 RBM 및 그 바리안트와 마찬가지로 스파이크 앤 슬래브 RBM은 초당 그래프이지만 GRBM과 마찬가지로 가시적인 단위(입력)는 실제 값입니다.차이는 숨겨진 레이어에 있습니다.각 숨겨진 유닛에는 바이너리 스파이크 변수와 실제 값 슬래브 변수가 있습니다.스파이크는 0에 있는 이산 확률 질량인 반면 슬래브는 연속 ^[15]영역에 대한 밀도입니다. 혼합물이 ^[16]선행 영역을 형성합니다.

δ-ssRBM이라고 불리는 ssRBM의 확장은 에너지 함수의 추가 용어를 사용하여 추가적인 모델링 용량을 제공합니다.이러한 항 중 하나를 사용하면 관측치가 주어진 슬래브 변수를 소외시킴으로써 모형이 스파이크 변수의 조건부 분포를 형성할 수 있습니다.

수학의 경우

주요 기사: 깁스 측정 및 로그 선형 모델

보다 일반적인 수학적 설정에서 볼츠만 분포는 깁스 측도로도 알려져 있습니다.통계학 및 기계학습에서는 이를 로그-선형 모델이라고 합니다.딥 러닝에서 볼츠만 분포는 볼츠만 기계와 같은 확률적 신경망의 샘플링 분포에 사용된다.

역사

볼츠만 기계는 셰링턴 커크패트릭의 확률적 아이징 ^[17]모델의 스핀글라스 모델에 기초하고 있다.

인지과학에서 그러한 에너지 기반 모델을 적용하는 데 있어 원래 기여는 힌튼과 세이지노스키의 ^[18]^[19]논문에 나타났다.

John Hopfield에 의한 중요한 출판물은 스핀글라스를 ^[20]언급하며 물리학과 통계역학을 연결시켰다.

더글라스 호프스타터의 카피캣 ^[21]^[22]프로젝트에는 아이싱 모델을 아닐 기브스 샘플링과 함께 적용하는 아이디어가 있습니다.

비슷한 생각들은 폴 스몰렌스키의 "하모니 이론"에서 찾을 수 있다.

볼츠만 기계 공식에서 통계 역학을 사용한 명확한 유추는 물리학에서 차용한 용어(예를 들어, "조화"가 아닌 "에너지")를 사용하게 되었고, 이는 현장에서 표준이 되었다.이 용어의 광범위한 채택은 이 용어의 사용이 통계역학에서 다양한 개념과 방법을 채택하게 된 사실로 인해 촉진되었을 수 있다.추론을 위해 시뮬레이션 어닐링을 사용하는 다양한 제안들은 명백히 독립적이었다.

이징 모델은 언어학, 로봇학, 컴퓨터 비전 및 인공지능에 광범위하게 적용되는 마르코프 랜덤 분야의 특별한 사례로 간주되었습니다.

「」를 참조해 주세요.

제한 볼츠만 기계
헬름홀츠 기계
마르코프 랜덤 필드
이징 모델
홉필드 네트워크
조건부^[23] "로컬" 정보를 사용하는 학습 규칙은 G $\displaystyle$ G의 $반대$ 형식에서 파생할 수 있습니다.

G'=\sum _{v}{P^{-}(v)\ln \left({\frac {P^{-}(v)}{P^{+}(v)}}\right)}

G'=\sum _{v}{P^{-}(v)\ln \left({\frac {P^{-}(v)}{P^{+}(v)}}\right)}

G'=\sum _{v}{P^{-}(v)\ln \left({\frac {P^{-}(v)}{P^{+}(v)}}\right)}

v

G'=\sum _{v}{P^{-}(v)\ln \left({\frac {P^{-}(v)}{P^{+}(v)}}\right)}

- (

G'=\sum _{v}{P^{-}(v)\ln \left({\frac {P^{-}(v)}{P^{+}(v)}}\right)}

) ln

G'=\sum _{v}{P^{-}(v)\ln \left({\frac {P^{-}(v)}{P^{+}(v)}}\right)}

(

G'=\sum _{v}{P^{-}(v)\ln \left({\frac {P^{-}(v)}{P^{+}(v)}}\right)}

- (

G'=\sum _{v}{P^{-}(v)\ln \left({\frac {P^{-}(v)}{P^{+}(v)}}\right)}

)

G'=\sum _{v}{P^{-}(v)\ln \left({\frac {P^{-}(v)}{P^{+}(v)}}\right)}

+ (

G'=\sum _{v}{P^{-}(v)\ln \left({\frac {P^{-}(v)}{P^{+}(v)}}\right)}

) \

displaystyle

G ' = \

sum

_ {

v

} {

P^

{ - } (

v

) \

ln

\

leftflac

{

P^

{ - } ( v )

}

{ P^ { - + } } } } }

G'=\sum _{v}{P^{-}(v)\ln \left({\frac {P^{-}(v)}{P^{+}(v)}}\right)}

}

레퍼런스

^ Sherrington, David; Kirkpatrick, Scott (1975), "Solvable Model of a Spin-Glass", Physical Review Letters, 35 (35): 1792–1796, Bibcode:1975PhRvL..35.1792S, doi:10.1103/PhysRevLett.35.1792
^ Ackley, David H; Hinton Geoffrey E; Sejnowski, Terrence J (1985), "A learning algorithm for Boltzmann machines" (PDF), Cognitive Science, 9 (1): 147–169, doi:10.1207/s15516709cog0901_7
^ Hinton, Geoffrey E. (2007-05-24). "Boltzmann machine". Scholarpedia. 2 (5): 1668. Bibcode:2007SchpJ...2.1668H. doi:10.4249/scholarpedia.1668. ISSN 1941-6016.
^ Osborn, Thomas R. (1 January 1990). "Fast Teaching of Boltzmann Machines with Local Inhibition". International Neural Network Conference. Springer Netherlands. pp. 785. doi:10.1007/978-94-009-0643-3_76. ISBN 978-0-7923-0831-7.
^ Ackley, David H; Hinton Geoffrey E; Sejnowski, Terrence J (1985), "A learning algorithm for Boltzmann machines" (PDF), Cognitive Science, 9 (1): 147–169, doi:10.1207/s15516709cog0901_7
^ Nijkamp, E.; Hill, M. E; Han, T. (2020), "On the Anatomy of MCMC-Based Maximum Likelihood Learning of Energy-Based Models", Proceedings of the AAAI Conference on Artificial Intelligence, 4 (34): 5272–5280, doi:10.1609/aaai.v34i04.5973
^ Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J. (1985). "A Learning Algorithm for Boltzmann Machines" (PDF). Cognitive Science. 9 (1): 147–169. doi:10.1207/s15516709cog0901_7. Archived from the original (PDF) on 18 July 2011.
^ Recent Developments in Deep Learning, archived from the original on 2021-12-22, retrieved 2020-02-17
^ Yu, Dong; Dahl, George; Acero, Alex; Deng, Li (2011). "Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition" (PDF). Microsoft Research. 20.
^ ^a ^b Hinton, Geoffrey; Salakhutdinov, Ruslan (2012). "A better way to pretrain deep Boltzmann machines" (PDF). Advances in Neural. 3: 1–9. Archived from the original (PDF) on 2017-08-13. Retrieved 2017-08-18.
^ Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). "Efficient Learning of Deep Boltzmann Machines" (PDF). 3: 448–455. Archived from the original (PDF) on 2015-11-06. Retrieved 2017-08-18. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
^ Bengio, Yoshua; LeCun, Yann (2007). "Scaling Learning Algorithms towards AI" (PDF). 1: 1–41. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
^ Larochelle, Hugo; Salakhutdinov, Ruslan (2010). "Efficient Learning of Deep Boltzmann Machines" (PDF): 693–700. Archived from the original (PDF) on 2017-08-14. Retrieved 2017-08-18. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
^ Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). "A Spike and Slab Restricted Boltzmann Machine" (PDF). JMLR: Workshop and Conference Proceeding. 15: 233–241. Archived from the original (PDF) on 2016-03-04. Retrieved 2019-08-25.
^ Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). "Unsupervised Models of Images by Spike-and-Slab RBMs" (PDF). Proceedings of the 28th International Conference on Machine Learning. Vol. 10. pp. 1–8. Archived from the original (PDF) on 2016-03-04. Retrieved 2019-08-25.
^ Mitchell, T; Beauchamp, J (1988). "Bayesian Variable Selection in Linear Regression". Journal of the American Statistical Association. 83 (404): 1023–1032. doi:10.1080/01621459.1988.10478694.
^ Sherrington, David; Kirkpatrick, Scott (1975-12-29). "Solvable Model of a Spin-Glass". Physical Review Letters. 35 (26): 1792–1796. Bibcode:1975PhRvL..35.1792S. doi:10.1103/physrevlett.35.1792. ISSN 0031-9007.
^ Hinton, Geoffery; Sejnowski, Terrence J. (May 1983). Analyzing Cooperative Computation. 5th Annual Congress of the Cognitive Science Society. Rochester, New York. Retrieved 17 February 2020.
^ Hinton, Geoffrey E.; Sejnowski, Terrence J. (June 1983). Optimal Perceptual Inference. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Washington, D.C.: IEEE Computer Society. pp. 448–453.
^ Hopfield, J. J. (1982). "Neural networks and physical systems with emergent collective computational abilities". Proceedings of the National Academy of Sciences of the United States of America. [s.n.] 79 (8): 2554–8. Bibcode:1982PNAS...79.2554H. doi:10.1073/pnas.79.8.2554. OCLC 848771572. PMC 346238. PMID 6953413.
^ Hofstadter, D. R. (January 1984). The Copycat Project: An Experiment in Nondeterminism and Creative Analogies. Defense Technical Information Center. OCLC 227617764.
^ Hofstadter, Douglas R. (1988). "A Non-Deterministic Approach to Analogy, Involving the Ising Model of Ferromagnetism". In Caianiello, Eduardo R. (ed.). Physics of cognitive processes. Teaneck, New Jersey: World Scientific. ISBN 9971-5-0255-0. OCLC 750950619.
^ Liou, C.-Y.; Lin, S.-L. (1989). "The other variant Boltzmann machine". International Joint Conference on Neural Networks. Washington, D.C., USA: IEEE. pp. 449–454. doi:10.1109/IJCNN.1989.118618.

https://www.mis.mpg.de/preprints/2018/preprint2018_87.pdf

추가 정보

Hinton, G. E.; Sejnowski, T. J. (1986). D. E. Rumelhart; J. L. McClelland (eds.). "Learning and Relearning in Boltzmann Machines" (PDF). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 1: Foundations: 282–317. Archived from the original (PDF) on 2010-07-05.
Hinton, G. E. (2002). "Training Products of Experts by Minimizing Contrastive Divergence" (PDF). Neural Computation. 14 (8): 1771–1800. CiteSeerX 10.1.1.35.8613. doi:10.1162/089976602760128018. PMID 12180402. S2CID 207596505.
Hinton, G. E.; Osindero, S.; Teh, Y. (2006). "A fast learning algorithm for deep belief nets" (PDF). Neural Computation. 18 (7): 1527–1554. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.

외부 링크

[1] Sherrington, David; Kirkpatrick, Scott (1975), "Solvable Model of a Spin-Glass", Physical Review Letters, 35 (35): 1792–1796, Bibcode:1975PhRvL..35.1792S, doi:10.1103/PhysRevLett.35.1792

[2] Ackley, David H; Hinton Geoffrey E; Sejnowski, Terrence J (1985), "A learning algorithm for Boltzmann machines" (PDF), Cognitive Science, 9 (1): 147–169, doi:10.1207/s15516709cog0901_7

[3] Hinton, Geoffrey E. (2007-05-24). "Boltzmann machine". Scholarpedia. 2 (5): 1668. Bibcode:2007SchpJ...2.1668H. doi:10.4249/scholarpedia.1668. ISSN 1941-6016.

[4] Osborn, Thomas R. (1 January 1990). "Fast Teaching of Boltzmann Machines with Local Inhibition". International Neural Network Conference. Springer Netherlands. pp. 785. doi:10.1007/978-94-009-0643-3_76. ISBN 978-0-7923-0831-7.

[5] Ackley, David H; Hinton Geoffrey E; Sejnowski, Terrence J (1985), "A learning algorithm for Boltzmann machines" (PDF), Cognitive Science, 9 (1): 147–169, doi:10.1207/s15516709cog0901_7

[6] Nijkamp, E.; Hill, M. E; Han, T. (2020), "On the Anatomy of MCMC-Based Maximum Likelihood Learning of Energy-Based Models", Proceedings of the AAAI Conference on Artificial Intelligence, 4 (34): 5272–5280, doi:10.1609/aaai.v34i04.5973

[7] Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J. (1985). "A Learning Algorithm for Boltzmann Machines" (PDF). Cognitive Science. 9 (1): 147–169. doi:10.1207/s15516709cog0901_7. Archived from the original (PDF) on 18 July 2011.

[8] Recent Developments in Deep Learning, archived from the original on 2021-12-22, retrieved 2020-02-17

[9] Yu, Dong; Dahl, George; Acero, Alex; Deng, Li (2011). "Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition" (PDF). Microsoft Research. 20.

[ref12-10] Hinton, Geoffrey; Salakhutdinov, Ruslan (2012). "A better way to pretrain deep Boltzmann machines" (PDF). Advances in Neural. 3: 1–9. Archived from the original (PDF) on 2017-08-13. Retrieved 2017-08-18.

[ref32-11] Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). "Efficient Learning of Deep Boltzmann Machines" (PDF). 3: 448–455. Archived from the original (PDF) on 2015-11-06. Retrieved 2017-08-18. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)

[ref42-12] Bengio, Yoshua; LeCun, Yann (2007). "Scaling Learning Algorithms towards AI" (PDF). 1: 1–41. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)

[ref22-13] Larochelle, Hugo; Salakhutdinov, Ruslan (2010). "Efficient Learning of Deep Boltzmann Machines" (PDF): 693–700. Archived from the original (PDF) on 2017-08-14. Retrieved 2017-08-18. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)

[ref30-14] Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). "A Spike and Slab Restricted Boltzmann Machine" (PDF). JMLR: Workshop and Conference Proceeding. 15: 233–241. Archived from the original (PDF) on 2016-03-04. Retrieved 2019-08-25.

[ref322-15] Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). "Unsupervised Models of Images by Spike-and-Slab RBMs" (PDF). Proceedings of the 28th International Conference on Machine Learning. Vol. 10. pp. 1–8. Archived from the original (PDF) on 2016-03-04. Retrieved 2019-08-25.

[ref31-16] Mitchell, T; Beauchamp, J (1988). "Bayesian Variable Selection in Linear Regression". Journal of the American Statistical Association. 83 (404): 1023–1032. doi:10.1080/01621459.1988.10478694.

[17] Sherrington, David; Kirkpatrick, Scott (1975-12-29). "Solvable Model of a Spin-Glass". Physical Review Letters. 35 (26): 1792–1796. Bibcode:1975PhRvL..35.1792S. doi:10.1103/physrevlett.35.1792. ISSN 0031-9007.

[18] Hinton, Geoffery; Sejnowski, Terrence J. (May 1983). Analyzing Cooperative Computation. 5th Annual Congress of the Cognitive Science Society. Rochester, New York. Retrieved 17 February 2020.

[19] Hinton, Geoffrey E.; Sejnowski, Terrence J. (June 1983). Optimal Perceptual Inference. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Washington, D.C.: IEEE Computer Society. pp. 448–453.

[20] Hopfield, J. J. (1982). "Neural networks and physical systems with emergent collective computational abilities". Proceedings of the National Academy of Sciences of the United States of America. [s.n.] 79 (8): 2554–8. Bibcode:1982PNAS...79.2554H. doi:10.1073/pnas.79.8.2554. OCLC 848771572. PMC 346238. PMID 6953413.

[21] Hofstadter, D. R. (January 1984). The Copycat Project: An Experiment in Nondeterminism and Creative Analogies. Defense Technical Information Center. OCLC 227617764.

[22] Hofstadter, Douglas R. (1988). "A Non-Deterministic Approach to Analogy, Involving the Ising Model of Ferromagnetism". In Caianiello, Eduardo R. (ed.). Physics of cognitive processes. Teaneck, New Jersey: World Scientific. ISBN 9971-5-0255-0. OCLC 750950619.

[23] Liou, C.-Y.; Lin, S.-L. (1989). "The other variant Boltzmann machine". International Joint Conference on Neural Networks. Washington, D.C., USA: IEEE. pp. 449–454. doi:10.1109/IJCNN.1989.118618.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

v t 통계역학
이론.	최대 엔트로피의 원리 에르고드 이론
통계 열역학	앙상블 파티션 함수 상태 방정식 열역학 퍼텐셜: U H F G 맥스웰 관계
모델	강자성 모형 이징 포트 하이젠베르크 침투 힘장이 있는 입자 고갈력 레너드존스 퍼텐셜
수학적 접근법	볼츠만 방정식 H-이론 블라소프 방정식 BBGKY 계층 확률 과정 평균장 이론과 등각장 이론
임계 현상	상전이 임계 지수 상관 길이 사이즈 스케일링
엔트로피	볼츠만 샤논 챠리스 레니 폰 노이만
적용들	통계장론 소립자 초유동성 응집 물질 물리학 복잡한 시스템 혼돈 정보 이론 볼츠만 기계

Search

볼츠만 기계

네임스페이스

더

목차

구조.

단위 상태 확률

평형 상태

트레이닝

문제