학습자동화

Learning automaton

학습 자동화는 1970년대부터 연구된 기계 학습 알고리즘의 한 유형이다.학습 오토마타는 환경으로부터 얻은 과거의 경험을 바탕으로 현재의 행동을 선택한다.환경이 확률적이고 마르코프 의사결정 과정(DP)이 활용되면 강화학습의 범위에 들어간다.

역사

오토마타 학습에 관한 연구는 1960년대 초 소비에트 연방에서 마이클 르보비치 세틀린의 업적으로 거슬러 올라갈 수 있다.일부 동료들과 함께, 그는 오토마타 기능을 설명하기 위해 매트릭스를 사용하는 방법에 대한 논문을 발표했다.또한, Tsetlin은 합리적이고 집단적인 오토마타 행동오토마타 게임에서 일했다.학습 오토마타는 1960년대 미국의 연구에 의해서도 조사되었다.그러나 학습 오토메이션이라는 용어는 1974년 나렌드라, Thathachar가 조사 논문에서 소개할 때까지 사용되지 않았다.

정의

학습 자동화는 환경과의 반복적인 상호작용을 통해 최적의 동작을 학습하는 무작위 환경에 위치한 적응형 의사결정 단위다.동작은 특정 동작을 수행함으로써 자동화가 얻는 환경 반응에 기초하여 업데이트되는 특정 확률 분포에 따라 선택된다.

강화학습 분야에 있어서는 학습 오토마타가 정책적 반복자로 특징지어진다.다른 강화 학습자와는 대조적으로 정책 반복자가 직접 정책 manipulate을 조작한다.정책 반복자의 또 다른 예는 진화 알고리즘이다.

공식적으로 Narendra와 Thhachar는 다음과 같이 구성되는 확률적 자동화를 정의한다.

  • 가능한 입력의 X 세트
  • 가능한 내부 상태의 집합 { = { ,, ..., φ1s } },
  • 설정 α = {α1, ..., αr }의 가능한 출력 또는 작용, rs,
  • 초기 상태 확률 벡터 p(0) = ≪ p1(0), ..., p(0s) ≫,
  • 각 시간 단계 tp(t), 현재 입력 및 현재 상태에서 p(t+1)를 생성하는 계산 가능한 함수 A
  • 시간 단계에서 출력을 생성하는 함수 G: φ → α.

그들은 논문에서 r = sG비주사적인 상태에서 확률적 자동자만을 조사하여 작용과 상태를 혼동할 수 있다.그러한 자동화의 상태는 "분해 상태 이산 파라미터 마르코프 프로세스"[1]의 상태에 해당한다.각 단계 t=0,1,2,3,...에서 자동화는 환경의 입력을 읽고, A에 의해 p(t)를 p(t+1)로 업데이트하고, p(t+1) 확률에 따라 무작위로 후계 상태를 선택하고, 해당 동작을 출력한다.자동화의 환경은 그 작용을 읽고 그 다음 입력을 자동화로 보낸다.입력 집합 X = { 0.1 }을(를) 자주 사용하며, 0과 1은 환경의 비벌벌칙 반응에 각각 해당하며, 이 경우 자동화는 벌칙 반응 횟수를 최소화하는 방법을 배워야 하며, 자동화와 환경의 피드백 루프를 "P-모델"이라고 한다.보다 일반적으로 "Q-모델"은 임의의 유한 입력 집합 X를 허용하며, "S-모델"은 실수의 [0,1] 간격을 X로 사용한다.[2]

단일 학습 자동화의 시각화된 데모[3]/Art Work는 뉴캐슬 대학의 µSystems(마이크로시스템s) 연구 그룹에 의해 개발되었다.

유한 행동 집합 학습 오토마타

유한 작용 집합 학습 오토마타(FALA)는 가능한 작용의 수가 유한한 학습 오토마타의 한 종류 또는 보다 수학적 용어로 작용 집합의 크기가 유한한 학습 오토마타의 한 종류다.[5]

참고 항목

문학

  • Philip Aranzulla 및 John Mellor(홈 페이지):
    • Mellor J 및 Aranzulla P(2000):"Learng [sic] Automata 기반 IP 네트워크 라우팅 스키마 ", Proc.제8회 IFIP ATM 및 IP 네트워크의 성능 모델링 및 평가에 관한 워크숍, 영국 Ilkley의 페이지 56/1-56/12.
    • Aranzulla P와 Mellor J(1997): "ATM 네트워크에 적용할 때 신호 감소가 필요한 두 가지 라우팅 알고리즘 비교", Proc.제14회 영국 정보시스템 성능공학 심포지엄, 영국 맨체스터 UMIST 20/1-20/4페이지.
  • Narendra K., Thathachar M.A.L. (July 1974). "Learning automata – a survey" (PDF). IEEE Transactions on Systems, Man, and Cybernetics. SMC-4 (4): 323–334. CiteSeerX 10.1.1.295.2280. doi:10.1109/tsmc.1974.5408453.{{cite journal}}: CS1 maint: 작성자 매개변수 사용(링크)
  • Tsetlin M.L. 자동화 이론 및 생물학적 시스템 모델링.학술지, 1973.[영구적 데드링크]

참조

  1. ^ (나렌드라, 테하차르, 1974년) p.325 왼쪽
  2. ^ (나렌드라, 테하차르, 1974년) 페이지 325 오른쪽
  3. ^ JieGH (2019-11-11), JieGH/The-Ruler-of-Tsetlin-Automaton, retrieved 2020-07-22
  4. ^ "The-Ruler-of-Tsetlin-Automaton". www.youtube.com. Retrieved 2020-07-22.{{cite web}}: CS1 maint : url-status (링크)
  5. ^ Thathachar, M.A.L.; Sastry, P.S. (December 2002). "Varieties of learning automata: an overview" (PDF). IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics. 32 (6): 711–722. doi:10.1109/TSMCB.2002.1049606. PMID 18244878.