Q-러닝

Q-learning은 특정 상태에서 행동의 가치를 학습하기 위한 모델 없는 강화 학습 알고리즘입니다.환경 모델(따라서 "모델 프리")을 필요로 하지 않으며, 적응 없이 확률적 전환과 보상에 관한 문제를 처리할 수 있다.

모든 유한 마르코프 의사결정 프로세스(FMDP)에 대해 Q-러닝은 ^[1]현재 상태에서 시작하여 모든 연속 단계에 걸쳐 총 보상의 기대값을 최대화하는 의미에서 최적의 정책을 찾습니다.Q-learning은 무한 탐색 시간과 부분적으로 랜덤한 ^[1]정책이 주어진 주어진 주어진 FMDP에 대해 최적의 액션 선택 정책을 식별할 수 있습니다."Q"는 알고리즘이 계산하는 함수, 즉 주어진 ^[2]상태에서 수행된 동작에 대한 예상 보상입니다.

강화 학습

강화 학습에는 에이전트, 상태 $집합$ S $(\displaystyle$ S $S$ 및 상태별 $동작$ 집합 A(\ $displaystyle$ A $)$ 가 $A$ 포함됩니다. $"A\displaystyle a\in$ A $a\in A$ $a\in A$ 을 실행하면 에이전트는 스테이트에서 스테이트로 이행합니다.특정 상태에서 액션을 실행하면 에이전트에게 보상(숫자 점수)이 제공됩니다.

에이전트의 목표는 총 보상을 극대화하는 것입니다.미래 상태에서 얻을 수 있는 최대 보상을 현재 상태를 달성한 보상에 추가하여 잠재적인 미래 보상에 의해 현재의 행동에 효과적으로 영향을 미침으로써 이를 수행한다.이 잠재적 보상은 현재 상태에서 시작하는 모든 미래 단계의 보상에 대한 기대치의 가중치 합이다.

예를 들어, 보상은 탑승에 소요된 총 시간의 음수로 측정되는 열차 탑승 과정을 고려해 보십시오. (또는, 열차 탑승 비용은 탑승 시간과 동일합니다.)첫 번째 전략은 기차 문이 열리자 마자 문을 열고 들어가 자신을 위한 초기 대기 시간을 최소화하는 것입니다.하지만, 전철이 붐비면, 탑승하려고 할 때 사람들이 내리려고 다투기 때문에, 첫 번째 출입구 후에 천천히 들어갈 수 있습니다.총 탑승 시간 또는 비용은 다음과 같습니다.

0초 대기시간 + 15초 전투시간

다음 날 우연히 다른 사람이 먼저 출발할 때까지 기다리기로 합니다.이로 인해 처음에는 대기 시간이 길어집니다.그러나 출발하는 승객들과 싸우는 데 소비되는 시간은 더 적다.총 탑승 시간이 현재이기 때문에 전반적으로 이 경로는 전날보다 더 높은 보상을 받습니다.

5초 대기시간 + 0초 격투시간

탐구를 통해 초기(환자) 조치가 강제적인 전략보다 더 큰 비용(또는 부정적인 보상)을 발생시켰음에도 불구하고, 전체적인 비용이 낮기 때문에 더 보람 있는 전략이 드러난다.

알고리즘.

Q-Learning 테이블은 0으로 초기화된 액션별 상태이며 각 셀은 트레이닝을 통해 갱신됩니다.

$향후의$ 을 $\Delta t$ 실행한 후 $,$ 담당자는 몇개의 다음 스텝을 $결정$ 합니다.이 스텝의 가중치는 $\gamma ^{\Delta t}$ t \ $displaystyle$ $\gamma$ \ $gamma$ ^ { \ $Delta$ t $\gamma ^{\Delta t}$ 로 계산됩니다. $\gamma$ 서 ${\$ \ $displaystyle$ \ $gamma$ $\gamma$ }(할인율)은 $0\leq \gamma \leq 1$ 0 ~ $(\displaystyle 0\$ leq\ $leq$ 1)의 수치이며 나중에 받은 값보다 높은 값을 반영합니다."좋은 출발"의 ue). $\gamma$ may also be interpreted as the probability to succeed (or survive) at every step $\Delta t$ .

따라서 알고리즘에는 상태-액션 조합의 품질을 계산하는 기능이 있습니다.

Q:S\times A\to \mathbb {R}

S\times

A

\to

\

mathbb {R}

。

$Q$ 을 시작하기 전에 Q $(\displaystyle$ Q $)$ 는 $Q$ 임의의 고정값(프로그래머가 선택)으로 초기화됩니다. $a_{t}$ 으로 t $\$ $displaystyle$ t마다 $t$ 는 $t$ $액션$ 을 $선택$ 하고 보상 r\ $displaystyle$ $a_{t}$ ${t$ 을 준수하며 새로운 $s_{t+1}$ t $s_{t+1}$ $+$ $($ $s_{t}$ t $\$ $s_{t+1})$ 을 입력합니다(이전 상태 $s_{t}$ \displaystyle $s_{t}$ 와 $s_{t}$ 선택한 액션에 따라 달라질 수 있음). $Q {$ $displaystyle$ Q}가 $Q$ 갱신되었습니다.알고리즘의 핵심은 오래된 값과 새로운 정보의 가중 평균을 사용한 단순한 값 반복 업데이트로서의 벨만 방정식입니다.

Q^{new}(s_{t},a_{t})\왼쪽 화살표 {Q(s_{t},a_{t}}_{\text {alpha}_{t})+\underbrace {\bigg}\cdot \brace {text}_{text}_r}_{t}_{\text{new value(일시적 차분 타깃)}}-\underbrace {Q(s_{t},a_{t}}_{\text{old value}}}}_^{\text{일시적 차분}}}}

$r_{t}$ ${\$ $}$ $(0<\alpha \leq 1)$ 상태 $r_{t}$ $s_{t}$ {\ $displaystyle s_{t$ }}에서 $s_{{t}}$ $s_{t+1}$ $s_{t+1}$ + $s_{t+1}$ $displaystyle$ $\alpha$ $s_{t+1$ 로 이행했을 때 받는 보상입니다. $\alpha$ {\ $displaystyle \alpha$ 는 $\alpha$ $(0<\alpha \leq 1)$ 입니다 $(0<\alpha \leq 1)$

$Q^{new}(s_{t},a_{t})$ $Q^{new}(s_{t},a_{t})$ $Q^{new}(s_{t},a_{t})$ ( $Q^{new}(s_{t},a_{t})$ t , $Q^{new}(s_{t},a_{t})$ t $){$ $displaystyle$ Q $^{new}(s_{t,a_{t})}$ 는 $Q^{new}(s_{t},a_{t})$ 다음 3가지 요소의 합계입니다.

$(1-\alpha )Q(s_{t},a_{t})$ ( $(1-\alpha )Q(s_{t},a_{t})$ - $(1-\alpha )Q(s_{t},a_{t})$ α ) $(1-\alpha )Q(s_{t},a_{t})$ ( $(1-\alpha )Q(s_{t},a_{t})$ , $(1-\alpha )Q(s_{t},a_{t})$ ) $(1-\alpha )Q(s_{t},a_{t})$ \ $displaystyle$ ( 1 - \ $alpha$ ) $Q$ ( s $_$ { $t$ , a $_$ { $t$ } ) $(1-\alpha )Q(s_{t},a_{t})$ : 학습 레이트에 의해 가중치가 부여되는 현재 값 $(1-\alpha )Q(s_{t},a_{t})$ 학습률 값이 1에 가까울수록 Q $(\displaystyle$ Q $)$ 의 $Q$ 변화가 빨라집니다.
$\alpha \,r_{t}$ r $\alpha \,r_{t}$ \ $displaystyle$ \alpha $\r_{t$ : $s_{t}$ {{ $displaystyle s_{t$ }} $s_{t}$ (학습률에 $a_{t}$ 가중치 부여됨)에서 $a_{t}$ {\ $displaystyle$ $r_{t$ $}$ $=r(s_{t})$ 를 $r_{t}=r(s_{t},a_{t})$ 취할 경우 얻을 $r_{t}=r(s_{t},a_{t})$ $r_{t}=r(s_{t},a_{t})$ t $r_{t}=r(s_{t},a_{t})$ ( $r_{t}=r(s_{t},a_{t})$ t $)$
$\alpha \gamma \max _{a}Q(s_{t+1},a)$ $\alpha \gamma \max _{a}Q(s_{t+1},a)$ $\alpha \gamma \max _{a}Q(s_{t+1},a)$ a $\alpha \gamma \max _{a}Q(s_{t+1},a)$ ( $\alpha \gamma \max _{a}Q(s_{t+1},a)$ $\alpha \gamma \max _{a}Q(s_{t+1},a)$ + $\alpha \gamma \max _{a}Q(s_{t+1},a)$ , $\alpha \gamma \max _{a}Q(s_{t+1},a)$ ) { $displaystyle \alpha \gamma \max$ _ ${a}Q (s_{t+1$ $})$ $\alpha \gamma \max _{a}Q(s_{t+1},a)$ } : $s_{t+1}$ + $s_{t+1}$ { $displaystyle s_{t+1$ } $s_{t+1}$ (학습률과 할인율에 따라 가중치 부여됨)

알고리즘의 에피소드는 $s_{t+1}$ t $s_{t+1}$ + $({$ 이 $s_{t+1}$ 최종 상태 또는 단말 상태일 때 종료됩니다.그러나 Q-러닝은 (수렴 무한 급수의 속성으로 인해) 에피소드가 없는 작업에서도 학습할 수 있다.할인율이 1보다 작을 경우 문제가 무한 루프를 포함할 수 있더라도 액션 값은 유한합니다.

모든 최종 $s_{f}$ $displaystyle$ $s_{f$ $})$ 에 대해 Q( $s$ f $Q(s_{f},a)$ $a)$ 는 $Q(s_{f},a)$ 업데이트되지 않지만 $s_{f}$ $(\$ $f})$ 에 대해 관찰된 보상 값 $r$ (\ $displaystyle$ r $)$ 로 $r$ 설정됩니다.대부분의 경우 Q $(s$ f, $Q(s_{f},a)$ a $)$ 는 $Q(s_{f},a)$ $취득$ 할 수 $있습니다$ .

변수의 영향

학습률

학습 속도 또는 단계 크기는 새로 획득한 정보가 오래된 정보를 어느 정도 덮어쓰는지 결정합니다.계수가 0인 경우 에이전트는 아무것도 학습하지 않고(사전 지식만 이용), 계수 1인 경우 에이전트는 최신 정보만 고려합니다(가능성을 탐색하기 위해 사전 지식 무시).완전 결정론적 환경에서는 $\alpha _{t}=1$ t $=$ $(\displaystyle \alpha$ _ ${t}=1$ )의 $\alpha _{t}=1$ 학습 속도가 최적이다.문제가 확률적인 경우, 알고리즘은 0으로 감소해야 하는 학습 속도에 대한 몇 가지 기술적 조건 하에서 수렴됩니다.실제에서는 $모든$ t\ $displaystyle$ ^[3]t에 대해 $\alpha _{t}=0.1$ t $=$ $\alpha _{t}=0.1$ .1 $\alpha _{t}=0.1$ {\ $displaystyle \alpha$ _ ${t$ }= $0.1}$ 과 $\alpha _{t}=0.1$ $\alpha _{t}=0.1$ 일정한 학습률이 사용되는 경우가 많다.

할인율

할인율 $\gamma$ {\(\ $displaystyle$ \ $gamma)$ 은 미래 보상의 중요성을 결정합니다 $\gamma$ .계수가 0인 경우 에이전트는 현재 보상(위의 업데이트 $r_{t}$ 에서는 r t { $displaystyle r_{$ })만 고려함으로써 근시안적(또는 근시안적)이 되고, 1에 근접한 요인은 장기적인 높은 보상을 위해 노력하게 됩니다.할인 계수가 1을 충족하거나 초과하면 작용 값이 분산될 수 있습니다. $\gamma =1$ $\gamma =1$ 1 { $displaystyle$ \ $displaystyle =1}$ 의 $\gamma =1$ 경우, 단말 상태가 없거나 에이전트가 단말 상태에 도달하지 않을 경우, 모든 환경 이력은 무한히 길어지고 할인되지 않은 추가 보상을 제공하는 유틸리티는 일반적으로 ^[4]무한하게 됩니다.할인 계수가 1보다 약간 낮더라도 가치 함수를 인공 ^[5]신경망으로 근사할 때 Q-함수 학습은 오류와 불안정성의 전파로 이어진다.이 경우, 낮은 할인율에서 시작하여 최종 가치를 향해 증가시키면 ^[6]학습 속도가 빨라집니다.

초기 조건(Q₀)

Q-learning은 반복 알고리즘이기 때문에 첫 번째 업데이트가 발생하기 전의 초기 조건을 암묵적으로 가정합니다."낙관적인 초기 조건"^[7]이라고도 하는 높은 초기 값은 탐색을 촉진할 수 있습니다. 즉, 어떤 액션이 선택되든 업데이트 규칙에 따라 다른 대안보다 낮은 값이 지정되므로 선택 확률이 높아집니다.첫 번째 $보상$ r $\displaystyle$ r을 $r$ 사용하여 ^[8]초기 조건을 재설정할 수 있습니다.이 아이디어에 따르면 첫 번째 조치를 취했을 때 보상을 사용하여Q(\ $displaystyle$ Q $Q$ 의 값을 설정합니다.이것에 의해, 확정적인 보상이 있는 경우, 즉시 학습할 수 있습니다.초기 조건 재설정(RIC)을 포함하는 모델은 임의 초기 조건(AIC)^[8]을 가정하는 모델보다 참가자의 행동을 더 잘 예측할 것으로 예상된다.RIC는 반복적인 이진 선택 ^[8]실험에서 인간의 행동과 일치하는 것으로 보인다.

실행

Q-learning은 가장 간단한 방법으로 데이터를 테이블에 저장합니다.에이전트가 특정 상태를 방문하여 특정 액션을 수행할 가능성이 점점 낮아지기 때문에 이 접근 방식은 상태/액션 수가 증가함에 따라 흔들립니다.

함수 근사

Q-learning은 함수 ^[9]근사치와 결합할 수 있습니다.이를 통해 상태 공간이 연속적인 경우에도 알고리즘을 더 큰 문제에 적용할 수 있습니다.

한 가지 해결책은 (적용된) 인공 신경망을 함수 ^[10]근사기로 사용하는 것이다.또 다른 가능성은 퍼지 규칙 보간(FRI)을 통합하고 사람이 읽을 수 있는 지식 표현 형식이라는 장점이 있는 이산 Q 테이블 또는 ANN 대신 희박한 퍼지 규칙^[11] 베이스를 사용하는 것이다.알고리즘이 이전에 보이지 않았던 상태로 이전 경험을 일반화할 수 있기 때문에 함수 근사치는 유한 문제에서 학습 속도를 높일 수 있습니다.

양자화

상태/동작 공간을 줄이는 또 다른 기술은 가능한 값을 수량화합니다.손가락에 막대기 균형을 잡는 법을 배우는 예를 들어보자.특정 시점의 상태를 묘사하는 것은 공간에서의 손가락 위치, 속도, 막대기의 각도, 막대기의 각 속도를 포함한다.이것은 하나의 상태, 즉 4개의 값으로 인코딩된 1개의 상태의 스냅샷을 설명하는 4개의 요소 벡터를 생성합니다.문제는 무한히 많은 가능한 상태가 존재한다는 것이다.유효한 액션의 가능한 공간을 축소하기 위해 버킷에 여러 값을 할당할 수 있습니다.손가락의 시작 위치(-Infinity에서 Infinity까지)의 정확한 거리는 알 수 없지만, 오히려 멀리 있는지 여부(Near, Far)는 알 수 없습니다.

역사

Q-learning은 Chris Watkins에 의해 ^[12]1989년에 도입되었습니다.Watkins와 Peter Dayan은 ^[13]1992년에 수렴 증거를 제시했다.

왓킨스는 박사 논문의 제목인 "지연된 보상으로부터 배우는 것"을 말하고 있었다.8년 전인 1981년 보지노브스키의 크로스바 적응 어레이(CAA)^[14]^[15]에 의해 "지연 강화 학습"이라는 이름으로 동일한 문제가 해결되었다.메모리 $W=\|w(a,s)\|$ W $W=\|w(a,s)\|$ ( $W=\|w(a,s)\|$ a , $W=\|w(a,s)\|$ ) $、$ { $displaystyle$ W= \ $w$ ( $a$ , s $)\ }$ 는 $W=\|w(a,s)\|$ 8년 후의 Q-learning의 Q-table과 동일했습니다.아키텍처는 강화 학습에 "상태 평가"라는 용어를 도입했습니다.크로스바 학습 알고리즘은 각 반복에서 다음 계산을 수행합니다.

$상태$ 에서 $액션$ a를 실행한다.
결과 $상태$ s $'$ 를 수신한다.
컴퓨터 상태 $v(s')$ v ( $v(s')$ $v(s')$ ) { $displaystyle$ v ( $s$ ) $v(s')$ ;
크로스바 $w'(a,s)=w(a,s)+v(s')$ w $w'(a,s)=w(a,s)+v(s')$ $w'(a,s)=w(a,s)+v(s')$ , $w'(a,s)=w(a,s)+v(s')$ ) $=$ ( $w'(a,s)=w(a,s)+v(s')$ , $w'(a,s)=w(a,s)+v(s')$ s ) + $w'(a,s)=w(a,s)+v(s')$ ( $w'(a,s)=w(a,s)+v(s')$ ){ $display$ style w' ( a , s )= $w$ ( a , $s$ )+v ( $s$ ) $w'(a,s)=w(a,s)+v(s')$ } 를 갱신합니다.

"2차 강화"라는 용어는 역전파를 통해 상태 값을 모델링하기 위해 동물 학습 이론에서 차용되었다. 결과 상황의 상태 값 $v(s')$ ( $s$ $v(s')$ ) { $displaystyle$ v ( $v(s')$ s )}는 $v(s')$ 이전에 직면한 상황에 역전파된다.CAA는 상태 값을 수직으로 계산하고 액션을 수평으로 계산합니다('크로스바').지연된 강화 학습을 보여주는 시연 그래프는 상태 평가 함수에 의해 계산된 상태(바람직한 상태, 바람직하지 않은 상태 및 중립 상태)를 포함했다.이 학습 시스템은 Q-learning ^[16]알고리즘의 선구자였습니다.

2014년 Google DeepMind는^[17] 전문가 수준의 Atari 2600 게임을 할 수 있는 "심층 강화 학습" 또는 "심층 Q-러닝"이라는 제목의 Q-러닝 애플리케이션을 딥러닝에 특허 등록했습니다.

변종

심층 Q-러닝

DeepMind 시스템은 수용 필드의 효과를 모방하기 위해 타일형 컨볼루션 필터 층이 있는 심층 컨볼루션 뉴럴 네트워크를 사용했습니다.강화학습은 뉴럴 네트워크 등의 비선형 함수 근사기를 사용하여 Q를 나타낼 때 불안정하거나 발산한다.이 불안정성은 관찰 시퀀스에 존재하는 상관관계, Q에 대한 작은 업데이트로 에이전트 및 데이터 배포 정책이 크게 변경될 수 있다는 사실 및 Q와 타깃 값 간의 상관관계에서 비롯됩니다.

이 기술은 생물학적으로 영감을 받은 메커니즘인 경험 리플레이를 사용했는데,^[2] 이 메커니즘은 진행하기 위해 가장 최근의 작용 대신 이전의 작용의 무작위 표본을 사용한다.이렇게 하면 관측 시퀀스에서 상관 관계가 제거되고 데이터 분포의 변화가 완화됩니다.반복 업데이트는 정기적으로만 업데이트되는 목표값으로 Q를 조정하여 ^[18]목표값과의 상관관계를 더욱 줄입니다.

더블 Q 러닝

Q-learning의 미래 최대 근사 액션 값은 현재 액션 선택 정책과 동일한 Q 함수를 사용하여 평가되므로 노이즈가 많은 환경에서는 Q-learning이 액션 값을 과대평가하여 학습이 느려질 수 있습니다.이를 수정하기 위해 Double Q-learning이라는 변종이 제안되었습니다.Double^[19] Q-learning은 정책 외 강화 학습 알고리즘으로 다음 액션 선택에 사용되는 정책과는 다른 정책이 가치 평가에 사용됩니다.

실제로 $({$ Q $^{A})$ 와 $Q^{A}$ $({$ Q $^{B$ 의 두 가지 개별 가치 함수는 서로 대칭적인 방식으로 훈련됩니다.다음으로 더블 Q-learning 업데이트 순서는 다음과 같습니다.

Q_{t+1}^{A}(s_{t},a_{t})=Q_{t}^{A}(s_{t},a_{t})+\alpha _{t}(s_{t},a_{t})\left(r_{t}+\gamma Q_{t}^{B}\left(s_{t+1},\mathop {\operatorname {arg~max} } _{a}Q_{t}^{A}(s_{t+1},a)\right)-Q_{t}^{A}(s_{t},a_{t})\right)

A}(s_{t},a_{t})

=Q_{t

}^{A

}(s_{t},a_{t})+\alpha_{t}(s_{t}+\alpha Q_{t}^{B}\left(s_{t+

1},\

mathop {operatorname {max})_{A}^{A

}

({displaystyle Q_{t+1}^{B}(s_{t,a_{t})=Q_{t}^{B}(s_{t},a_{t})+\alpha_{t}(s_{t}+\alpha Q_{t}^{A}\left(s_{t+1},\mathop {operatorname {max})_{B}^{T}}

이제 할인된 미래의 추정가치를 다른 정책을 사용하여 평가하여 과대평가 문제를 해결합니다.

이 알고리즘은 이후^{[clarification needed]} 2015년에 수정되어 DQN 알고리즘과 같이 딥 러닝과 결합되어 Double DQN이 생성되어 원래의 DQN ^[20]알고리즘을 능가한다.

다른이들

지연 Q-러닝은 온라인 Q-러닝 알고리즘의 대체 실장입니다.아마도 올바른(^[21]PAC) 학습이 있을 것입니다.

Gready GQ는 (선형) 함수 ^[22]근사치와 함께 사용하는 Q-러닝의 변형입니다.Gready GQ의 장점은 동작 값을 추정하기 위해 함수 근사치를 사용하더라도 컨버전스가 보장된다는 것입니다.

분산형 Q-러닝은 Q-러닝의 변종으로서 각 액션의 예상되는 리턴이 아닌 리턴의 분배를 모델화하려고 합니다.심층 신경망에 의한 추정을 용이하게 하고 위험에 민감한 ^[23]제어와 같은 대체 제어 방법을 가능하게 하는 것으로 관찰되었다.

제한 사항

표준 Q-learning 알고리즘( $\displaystyle$ Q $)$ 테이블 $Q$ 사용)은 개별 액션 및 상태 공간에만 적용됩니다.이러한 가치의 이산화는 비효율적인 학습으로 이어지는데, 이는 주로 차원성의 저주 때문이다.그러나 유선형 뉴럴 네트워크 ^[24]Q-러닝과 같이 이 문제를 해결하려는 Q-러닝의 적응이 있습니다.

「」를 참조해 주세요.

레퍼런스

^ ^a ^b Melo, Francisco S. "Convergence of Q-learning: a simple proof" (PDF). {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
^ ^a ^b Matiisen, Tambet (December 19, 2015). "Demystifying Deep Reinforcement Learning". neuro.cs.ut.ee. Computational Neuroscience Lab. Retrieved 2018-04-06.
^ Sutton, Richard; Barto, Andrew (1998). Reinforcement Learning: An Introduction. MIT Press.
^ Russell, Stuart J.; Norvig, Peter (2010). Artificial Intelligence: A Modern Approach (Third ed.). Prentice Hall. p. 649. ISBN 978-0136042594.
^ Baird, Leemon (1995). "Residual algorithms: Reinforcement learning with function approximation" (PDF). ICML: 30–37.
^ François-Lavet, Vincent; Fonteneau, Raphael; Ernst, Damien (2015-12-07). "How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies". arXiv:1512.02011 [cs.LG].
^ Sutton, Richard S.; Barto, Andrew G. "2.7 Optimistic Initial Values". Reinforcement Learning: An Introduction. Archived from the original on 2013-09-08. Retrieved 2013-07-18.
^ ^a ^b ^c Shteingart, Hanan; Neiman, Tal; Loewenstein, Yonatan (May 2013). "The role of first impression in operant learning" (PDF). Journal of Experimental Psychology: General. 142 (2): 476–488. doi:10.1037/a0029550. ISSN 1939-2222. PMID 22924882.
^ Hasselt, Hado van (5 March 2012). "Reinforcement Learning in Continuous State and Action Spaces". In Wiering, Marco; Otterlo, Martijn van (eds.). Reinforcement Learning: State-of-the-Art. Springer Science & Business Media. pp. 207–251. ISBN 978-3-642-27645-3.
^ Tesauro, Gerald (March 1995). "Temporal Difference Learning and TD-Gammon". Communications of the ACM. 38 (3): 58–68. doi:10.1145/203330.203343. S2CID 8763243. Retrieved 2010-02-08.
^ Vincze, David (2017). "Fuzzy rule interpolation and reinforcement learning" (PDF). IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE: 173–178. doi:10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2. S2CID 17590120.
^ Watkins, C.J.C.H. (1989). Learning from Delayed Rewards (PDF) (Ph.D. thesis). University of Cambridge. EThOS uk.bl.ethos.330022.
^ Watkins, Chris; Dayan, Peter (1992). "Q-learning". Machine Learning. 8 (3–4): 279–292. doi:10.1007/BF00992698.
^ Bozinovski, S. (15 July 1999). "Crossbar Adaptive Array: The first connectionist network that solved the delayed reinforcement learning problem". In Dobnikar, Andrej; Steele, Nigel C.; Pearson, David W.; Albrecht, Rudolf F. (eds.). Artificial Neural Nets and Genetic Algorithms: Proceedings of the International Conference in Portorož, Slovenia, 1999. Springer Science & Business Media. pp. 320–325. ISBN 978-3-211-83364-3.
^ Bozinovski, S. (1982). "A self learning system using secondary reinforcement". In Trappl, Robert (ed.). Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. North Holland. pp. 397–402. ISBN 978-0-444-86488-8.
^ Barto, A. (24 February 1997). "Reinforcement learning". In Omidvar, Omid; Elliott, David L. (eds.). Neural Systems for Control. Elsevier. ISBN 978-0-08-053739-9.
^ "Methods and Apparatus for Reinforcement Learning, US Patent #20150100530A1" (PDF). US Patent Office. 9 April 2015. Retrieved 28 July 2018.
^ Mnih, Volodymyr; Kavukcuoglu, Koray; Silver, David; Rusu, Andrei A.; Veness, Joel; Bellemare, Marc G.; Graves, Alex; Riedmiller, Martin; Fidjeland, Andreas K. (Feb 2015). "Human-level control through deep reinforcement learning". Nature. 518 (7540): 529–533. Bibcode:2015Natur.518..529M. doi:10.1038/nature14236. ISSN 0028-0836. PMID 25719670. S2CID 205242740.
^ van Hasselt, Hado (2011). "Double Q-learning" (PDF). Advances in Neural Information Processing Systems. 23: 2613–2622.
^ van Hasselt, Hado; Guez, Arthur; Silver, David (2015). "Deep reinforcement learning with double Q-learning" (PDF). AAAI Conference on Artificial Intelligence: 2094–2100. arXiv:1509.06461.
^ Strehl, Alexander L.; Li, Lihong; Wiewiora, Eric; Langford, John; Littman, Michael L. (2006). "Pac model-free reinforcement learning" (PDF). Proc. 22nd ICML: 881–888.
^ Maei, Hamid; Szepesvári, Csaba; Bhatnagar, Shalabh; Sutton, Richard (2010). "Toward off-policy learning control with function approximation in Proceedings of the 27th International Conference on Machine Learning" (PDF). pp. 719–726. Archived from the original (PDF) on 2012-09-08. Retrieved 2016-01-25.
^ Hessel, Matteo; Modayil, Joseph; van Hasselt, Hado; Schaul, Tom; Ostrovski, Georg; Dabney, Will; Horgan, Dan; Piot, Bilal; Azar, Mohammad; Silver, David (February 2018). "Rainbow: Combining Improvements in Deep Reinforcement Learning". AAAI Conference on Artificial Intelligence. 32. arXiv:1710.02298. doi:10.1609/aaai.v32i1.11796. S2CID 19135734. Retrieved 16 September 2021.
^ Gaskett, Chris; Wettergreen, David; Zelinsky, Alexander (1999). "Q-Learning in Continuous State and Action Spaces" (PDF).

외부 링크

왓킨스, C.J.C.H. (1989)지연된 보상을 통해 학습합니다.영국 케임브리지 대학 박사 학위 논문.
Strehl, Li, Wiewiora, Langford, Littman(2006).PAC 모델 프리 강화 학습
강화 학습: 리처드 서튼과 앤드류 S. 바토의 소개, 온라인 교과서."6.5 Q-Learning: Off-Policy TD Control"을 참조하십시오.
Piqle: 강화 학습을 위한 범용 Java 플랫폼
Q-러닝을 이용해 미로를 통해 개미를 안내하는 '강화학습 메이즈' 시연
Gerald Tesauro의 Q-learning 작업

[auto-1] Melo, Francisco S. "Convergence of Q-learning: a simple proof" (PDF). {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)

[:0-2] Matiisen, Tambet (December 19, 2015). "Demystifying Deep Reinforcement Learning". neuro.cs.ut.ee. Computational Neuroscience Lab. Retrieved 2018-04-06.

[3] Sutton, Richard; Barto, Andrew (1998). Reinforcement Learning: An Introduction. MIT Press.

[4] Russell, Stuart J.; Norvig, Peter (2010). Artificial Intelligence: A Modern Approach (Third ed.). Prentice Hall. p. 649. ISBN 978-0136042594.

[5] Baird, Leemon (1995). "Residual algorithms: Reinforcement learning with function approximation" (PDF). ICML: 30–37.

[6] François-Lavet, Vincent; Fonteneau, Raphael; Ernst, Damien (2015-12-07). "How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies". arXiv:1512.02011 [cs.LG].

[7] Sutton, Richard S.; Barto, Andrew G. "2.7 Optimistic Initial Values". Reinforcement Learning: An Introduction. Archived from the original on 2013-09-08. Retrieved 2013-07-18.

[hshteingart-8] Shteingart, Hanan; Neiman, Tal; Loewenstein, Yonatan (May 2013). "The role of first impression in operant learning" (PDF). Journal of Experimental Psychology: General. 142 (2): 476–488. doi:10.1037/a0029550. ISSN 1939-2222. PMID 22924882.

[9] Hasselt, Hado van (5 March 2012). "Reinforcement Learning in Continuous State and Action Spaces". In Wiering, Marco; Otterlo, Martijn van (eds.). Reinforcement Learning: State-of-the-Art. Springer Science & Business Media. pp. 207–251. ISBN 978-3-642-27645-3.

[CACM-10] Tesauro, Gerald (March 1995). "Temporal Difference Learning and TD-Gammon". Communications of the ACM. 38 (3): 58–68. doi:10.1145/203330.203343. S2CID 8763243. Retrieved 2010-02-08.

[11] Vincze, David (2017). "Fuzzy rule interpolation and reinforcement learning" (PDF). IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE: 173–178. doi:10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2. S2CID 17590120.

[12] Watkins, C.J.C.H. (1989). Learning from Delayed Rewards (PDF) (Ph.D. thesis). University of Cambridge. EThOS uk.bl.ethos.330022.

[13] Watkins, Chris; Dayan, Peter (1992). "Q-learning". Machine Learning. 8 (3–4): 279–292. doi:10.1007/BF00992698.

[DobnikarSteele1999-14] Bozinovski, S. (15 July 1999). "Crossbar Adaptive Array: The first connectionist network that solved the delayed reinforcement learning problem". In Dobnikar, Andrej; Steele, Nigel C.; Pearson, David W.; Albrecht, Rudolf F. (eds.). Artificial Neural Nets and Genetic Algorithms: Proceedings of the International Conference in Portorož, Slovenia, 1999. Springer Science & Business Media. pp. 320–325. ISBN 978-3-211-83364-3.

[Trappl1982-15] Bozinovski, S. (1982). "A self learning system using secondary reinforcement". In Trappl, Robert (ed.). Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. North Holland. pp. 397–402. ISBN 978-0-444-86488-8.

[OmidvarElliott1997-16] Barto, A. (24 February 1997). "Reinforcement learning". In Omidvar, Omid; Elliott, David L. (eds.). Neural Systems for Control. Elsevier. ISBN 978-0-08-053739-9.

[17] "Methods and Apparatus for Reinforcement Learning, US Patent #20150100530A1" (PDF). US Patent Office. 9 April 2015. Retrieved 28 July 2018.

[DQN-18] Mnih, Volodymyr; Kavukcuoglu, Koray; Silver, David; Rusu, Andrei A.; Veness, Joel; Bellemare, Marc G.; Graves, Alex; Riedmiller, Martin; Fidjeland, Andreas K. (Feb 2015). "Human-level control through deep reinforcement learning". Nature. 518 (7540): 529–533. Bibcode:2015Natur.518..529M. doi:10.1038/nature14236. ISSN 0028-0836. PMID 25719670. S2CID 205242740.

[19] van Hasselt, Hado (2011). "Double Q-learning" (PDF). Advances in Neural Information Processing Systems. 23: 2613–2622.

[20] van Hasselt, Hado; Guez, Arthur; Silver, David (2015). "Deep reinforcement learning with double Q-learning" (PDF). AAAI Conference on Artificial Intelligence: 2094–2100. arXiv:1509.06461.

[21] Strehl, Alexander L.; Li, Lihong; Wiewiora, Eric; Langford, John; Littman, Michael L. (2006). "Pac model-free reinforcement learning" (PDF). Proc. 22nd ICML: 881–888.

[22] Maei, Hamid; Szepesvári, Csaba; Bhatnagar, Shalabh; Sutton, Richard (2010). "Toward off-policy learning control with function approximation in Proceedings of the 27th International Conference on Machine Learning" (PDF). pp. 719–726. Archived from the original (PDF) on 2012-09-08. Retrieved 2016-01-25.

[23] Hessel, Matteo; Modayil, Joseph; van Hasselt, Hado; Schaul, Tom; Ostrovski, Georg; Dabney, Will; Horgan, Dan; Piot, Bilal; Azar, Mohammad; Silver, David (February 2018). "Rainbow: Combining Improvements in Deep Reinforcement Learning". AAAI Conference on Artificial Intelligence. 32. arXiv:1710.02298. doi:10.1609/aaai.v32i1.11796. S2CID 19135734. Retrieved 16 September 2021.

[24] Gaskett, Chris; Wettergreen, David; Zelinsky, Alexander (1999). "Q-Learning in Continuous State and Action Spaces" (PDF).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

Search

Q-러닝

네임스페이스

더

목차

강화 학습

알고리즘.

변수의 영향

학습률