도제학문

Apprenticeship learning

인공지능에서 도제 학습(혹은 시범에서 배우는 것)은 전문가를 관찰함으로써 배우는 과정이다.[1][2]그것은 교육 데이터 집합이 시범 교사에 의한 업무 수행으로 구성되는 감독된 학습의 한 형태로 볼 수 있다.[2]

매핑 함수 접근법

매핑 방법은 상태와 행동 또는 [2]상태로부터 가치를 보상하기 위한 직접 매핑을 구성하여 전문가를 모방하려고 한다.[1]예를 들어, 2002년에 연구원들은 AIBO 로봇에게 기본적인 축구 기술을 가르치기 위해 그러한 접근법을 사용했다.[2]

역강화학습접근법

역보강학습(IRL)은 관찰된 행동에서 보상함수를 도출하는 과정이다.일반적인 '보강학습'은 행동을 학습하기 위해 보상과 벌을 사용하는 반면 IRL에서는 방향이 뒤바뀌고, 로봇이 사람의 행동을 관찰해 그 행동이 어떤 목표를 달성하려고 하는지를 파악한다.[3]IRL 문제는 다음과 같이 정의할 수 있다.[4]

1) 다양한 상황에서 시간에 따른 작용의 측정, 2) 작용제에 대한 감각 입력의 측정, 3) 물리적 환경의 모델(작용제의 신체 포함):에이전트가 최적화하고 있는 보상 기능을 결정한다.

IRL 연구원인 스튜어트 J. 러셀은 IRL이 인간을 관찰하고 그들의 복잡한 "윤리적 가치"를 코드화하는 데 사용될 수 있다고 제안하는데, 이는 언젠가 명시적으로 말할 필요 없이 "고양이를 요리하지 않는 것"을 알 수 있는 "윤리적 로봇"을 만들기 위한 노력이다.[5]시나리오는 '협력 역강화 학습 게임'으로 모델링할 수 있는데, '사람' 플레이어와 '로봇' 플레이어가 협력해서 그 사람의 암묵적인 목표를 확보하는 게임이다.[6][7]

2017년 오픈AI딥마인드는 아타리 게임 등 단순 도메인의 협동 역강화 학습과 백플립 등 간단한 로봇 과제에 딥러닝을 적용했다.인간의 역할은 로봇의 질문에 대답하는 것으로 제한되었으며, 두 가지 다른 동작 중 어떤 것이 선호되는지에 대한 것이었다.연구원들은 이 기법이 현대 시스템에 경제적으로 확장될 수 있다는 증거를 발견했다.[8][9]

역강화학습(AIRP)을 통한 견습은 2004년 버클리 EECS학과 피터 아브벨 교수스탠퍼드대 컴퓨터과학부 앤드루 응 부교수가 개발했다.ARP는 "명시적으로 보상 기능을 부여받지 않고 대신 우리가 배우고자 하는 과제를 시연하는 전문가를 관찰할 수 있는 마르코프 의사결정 과정"을 다룬다.[1]ARP는 명확한 보상 기능이 없는 고도로 역동적인 시나리오의 보상 기능을 직관적으로 모델링하는 데 사용되어 왔다.예를 들어, 운전의 과제를 들어보자. 안전한 추종 거리 유지, 좋은 속도, 너무 자주 차선을 변경하지 않는 것 등 많은 다양한 목표들이 동시에 작동하고 있다.이 일은 언뜻 보기에는 쉬워 보일지 모르지만 사소한 보상 기능이 원하는 정책에 수렴되지 않을 수도 있다.

ARP가 광범위하게 사용된 한 영역은 헬리콥터 제어다.단순한 궤적을 직관적으로 도출할 수 있는 반면, 쇼를 위한 곡예비행과 같은 복잡한 작업은 성공적이었다.여기에는 - 인플레이스 플립, 인플레이스 롤, 루프, 허리케인, 심지어 자동 회전 착륙과 같은 항공기가 포함된다.이 작품은 피터 아브벨, 아담 코츠, 앤드류 응에 의해 개발되었다 - "도제자율 학습을 통한 자율 헬리콥터 비행 기술"[10]

시스템 모델 접근법

시스템 모델은 세계 역학을 모델링하여 전문가 흉내를 내려고 한다.[2]

계획접근법

이 시스템은 전제조건과 포스 조건을 각 행동과 연관시키는 규칙을 학습한다.1994년 한 시연에서 휴머노이드(humanoid)는 반복적인 볼 수집 작업의 두 번의 시범으로부터 일반화된 계획을 배운다.[2]

시연에서 배우는 학습은 작동하는 로봇 제어 시스템을 사용할 수 있고 인간 데모스트레이터가 이를 사용한다는 관점에서 설명되는 경우가 많다.그리고 실제로 소프트웨어가 작동하면 휴먼 오퍼레이터가 로봇 팔을 잡고, 로봇과 함께 움직이면 로봇이 나중에 그 동작을 재현하게 된다.예를 들어, 그는 로봇팔에게 커피메이커 밑에 컵을 넣는 방법과 시동 버튼을 누르는 방법을 가르친다.재생 단계에서 로봇은 이 동작을 1:1로 모방하고 있다.그러나 그것은 시스템이 내부적으로 작동하는 방식이 아니다; 그것은 단지 청중들이 관찰할 수 있는 것이다.사실, 시범을 통해 배우는 것은 훨씬 더 복잡하다.로봇 견습생들의 학습에 관한 첫 작품 중 하나는 1995년 아드리안 스토이카의 박사학위 논문이다.[11]

1997년, 로봇 전문가 스테판 샬사르코지 로봇팔에 대한 연구를 하고 있었다.목표는 간단했다: 진자 스윙업 과제를 해결하라.로봇 자체가 움직임을 실행할 수 있고, 그 결과 진자가 움직이고 있다.문제는 어떤 행동으로 어떤 움직임이 나타날지 불분명하다는 점이다.수학 공식으로 설명할 수 있지만 풀기 어려운 최적의 제어 문제다.샤알의 아이디어는, 브루트 포스 용해기를 사용하는 것이 아니라, 인간 데모대의 움직임을 기록하는 것이었다.진자의 각도는 Y축에서 3초의 시간 동안 기록된다.이것은 패턴을 생성하는 도표로 귀결된다.[12]

시간 경과에 따른 궤적
시간(시간) 각(라디안)
0 -3.0
0.5 -2.8
1.0 -4.5
1.5 -1.0

컴퓨터 애니메이션에서는 그 원리를 스플라인 애니메이션이라고 부른다.[13]즉, x축에는 0.5초, 1.0초, 1.5초, y축에는 주어진 변수가 주어진다.대부분의 경우 그것은 물체의 위치다.반전된 진자에서 그것은 각도다.

전체 과제는 시간의 경과에 따른 각도를 기록하는 것과 기록된 운동을 재현하는 두 부분으로 구성된다.재현 단계는 놀라울 정도로 간단하다.우리가 아는 투입물로서, 진자가 어느 각도를 가져야 하는 시간단계를 가지고 있어야 하는지 알고 있다.시스템을 상태로 가져오는 것을 "추적 제어" 또는 PID 제어라고 한다.즉, 우리는 시간이 지남에 따라 궤적을 가지고 있고, 이 궤도에 시스템을 매핑하기 위한 통제 조치를 찾아야 한다.다른 저자들은 이 원리를 "스티어링 동작"[14]이라고 부르는데, 그 목적은 로봇을 주어진 선으로 가져오는 것이기 때문이다.

참고 항목

참조

  1. ^ a b c "역강화 학습을 통한 응용 학습"Pieter Abbebel, Andrew Ng, 2004년 제21차 기계학습 국제회의(ICML).
  2. ^ a b c d e f Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett (May 2009). "A survey of robot learning from demonstration". Robotics and Autonomous Systems. 57 (5): 469–483. CiteSeerX 10.1.1.145.345. doi:10.1016/j.robot.2008.10.024.
  3. ^ Wolchover, Natalie. "This Artificial Intelligence Pioneer Has a Few Concerns". WIRED. Retrieved 22 January 2018.
  4. ^ Russell, Stuart (1998). "Learning agents for uncertain environments". Proceedings of the eleventh annual conference on Computational learning theory. pp. 101–103. doi:10.1145/279943.279964.
  5. ^ Havens, John C. (23 June 2015). "The ethics of AI: how to stop your robot cooking your cat". the Guardian. Retrieved 22 January 2018.
  6. ^ "Artificial Intelligence And The King Midas Problem". Huffington Post. 12 December 2016. Retrieved 22 January 2018.
  7. ^ Hadfield-Menell, D. Russell, S. J. Abbeel, Pieter & Dragan, A.협력 역강화 학습.신경 정보 처리 시스템의 진보 (pp. 3909-3917)에서.
  8. ^ "Two Giants of AI Team Up to Head Off the Robot Apocalypse". WIRED. 7 July 2017. Retrieved 29 January 2018.
  9. ^ 크리스티아노, P.F., 레이크, J., 브라운, T., 마르틱, M., 레그, S., & 아모디 (2017년)인간의 선호에 따른 심층 강화 학습.신경 정보 처리 시스템의 진보 (pp. 4302-4310)에서.
  10. ^ 피터 아브벨, 아담 코츠, 앤드류 응, "도제자습 학습을 통한 자동 헬리콥터 비행 기술"제29권, 제13권 로보틱스 연구 국제 저널 2010.
  11. ^ Stoica, Adrian (1995). Motion learning by robot apprentices : a fuzzy neural approach (phd thesis). Victoria University of Technology.https://vuir.vu.edu.au/15323/
  12. ^ Atkeson, Christopher G., and Stefan Schaal (1997). Learning tasks from a single demonstration (PDF). Proceedings of International Conference on Robotics and Automation. Vol. 2. IEEE. pp. 1706–1712. CiteSeerX 10.1.1.385.3520. doi:10.1109/robot.1997.614389. ISBN 978-0-7803-3612-4.{{cite book}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  13. ^ Baris Akgun and Maya Cakmak and Karl Jiang and Andrea L. Thomaz (2012). "Keyframe-based Learning from Demonstration" (PDF). International Journal of Social Robotics. 4 (4): 343–355. doi:10.1007/s12369-012-0160-0.
  14. ^ Reynolds, Craig W (1999). Steering behaviors for autonomous characters. Game developers conference. pp. 763–782.