액션 모델 학습

Action model learning

액션 모델 학습(때로는 약칭 액션 학습)은 그 환경 내에서 실행할 수 있는 액션효과전제조건에 대한 소프트웨어 에이전트의 지식의 생성과 수정과 관련된 머신러닝의 영역이다. 이 지식은 보통 논리 기반의 행동 설명 언어로 표현되며 자동화된 계획자의 입력으로 사용된다.

목표가 바뀔 때 행동 모델을 배우는 것은 중요하다. 에이전트가 잠시 활동할 때, 도메인의 활동에 대한 축적된 지식을 활용하여 더 나은 결정을 내릴 수 있다. 따라서 학습 행동 모델은 강화 학습과 다르다. 그것은 세계에서 값비싼 실험 대신 행동에 대한 추론을 가능하게 한다.[1] 행동 모델 학습은 유도 추론의 한 형태로, 대리인의 관찰에 기초하여 새로운 지식이 생성된다. 정확한 입력/출력 쌍은 제시되지 않으며 명시적으로 수정된 조치 모델을 부정확하게 하지 않는다는 점에서 표준 감독 학습과 다르다.

행동 모델 학습에 대한 일반적인 동기는 계획자에 대한 행동 모델의 수동 명세가 종종 어렵고, 시간이 많이 걸리며, 오류가 발생하기 쉬운 작업이라는 사실이다(특히 복잡한 환경에서는).

액션 모델

e =( s, , ){\ e,a로 구성된 교육 E E이(가) 주어진 경우 여기서 , s , s {\ s은 두 개의 연속적인 시간 t, 에서 관찰된 작업 시간이다 step , the goal of action model learning in general is to construct an action model , where is a description of domain dynamics in action description formalism like STRIPS, ADL or PDDL and is a probability function 의 요소에 대해 정의된다 그러나 많은 예술 작용 학습 방법의 상태는 결정론을 가정하고 을(를) 유도하지 않는다 결정론 외에도 개별 방법은 도메인의 다른 속성(예: 부분 관측성 또는 센서 소음)을 다루는 방법에 차이가 있다.

액션 학습 방법

예술 상태

최근의 액션 학습 방법은 다양한 접근방식을 취하며 인공지능계산논리의 다양한 영역에서 다양한 도구를 사용한다. 명제논리에 기초한 방법의 예로서 에이전트 관찰을 사용하여 시간이 경과함에 따라 긴 명제 공식을 구성하고 이후 만족도(SAT) 해결사를 사용하여 해석하는 [1]SLAF(Simulous Learning and Filtering) 알고리즘을 언급할 수 있다. 학습이 만족도 문제(이 경우 가중 MAX-SAT)로 전환되고 SAT 해결기가 사용되는 또 다른 기법은 ARM(Action-Relation Modeling System)에서 구현된다.[3] 액션 학습에 대해 상호 유사하고 완전히 선언적인 두 가지 접근방식은 논리 프로그래밍 패러다임 ASP([4]Answer Set Programming)와 그 확장인 반응형 ASP에 기초하였다.[5] 또 다른 예에서는 상향식 유도 논리 프로그래밍 접근법을 채택했다.[6] 몇몇 다른 해결책들은 직접적으로 논리에 기반하지 않는다. 예를 들어, 퍼셉트론 알고리즘[7] 사용한 액션 모델 학습 또는 가능한 액션 모델의 공간을 통한 다단계 탐욕 검색.[8] 1992년부터의 구 논문에서는 강화 학습의 연장선상에서 액션 모델 학습을 연구하였다.[9]

문학

대부분의 액션 학습 연구 논문은 인공지능(AIR), 인공지능(AIR), 응용 인공지능(AI) 또는 AAAI 컨퍼런스(Journal of Infrastructure Intelligence Research, JAI), 인공지능(AI)에 초점을 맞춘 저널과 컨퍼런스에 게재된다. 주제들의 상호 관련성에도 불구하고, 액션 모델 학습은 보통 ICAPS와 같은 계획 회의에서 다루어지지 않는다.

참고 항목

참조

  1. ^ a b Amir, Eyal; Chang, Allen (2008). "Learning Partially Observable Deterministic Action Models". Journal of Artificial Intelligence Research. 33: 349–402. arXiv:1401.3437. doi:10.1613/jair.2575.
  2. ^ Čertický, Michal (2014). "Real-Time Action Model Learning with Online Algorithm 3SG". Applied Artificial Intelligence. 28 (7): 690–711. doi:10.1080/08839514.2014.927692.
  3. ^ Yang, Qiang; Kangheng, Wu; Yunfei, Jiang (2007). "Learning action models from plan examples using weighted MAX-SAT". Artificial Intelligence. 171 (2–3): 107–143. doi:10.1016/j.artint.2006.11.005.
  4. ^ Balduccini, Marcelo (2007). "Learning Action Descriptions with A-Prolog: Action Language C". AAAI Spring Symposium: Logical Formalizations of Commonsense Reasoning: 13–18.
  5. ^ Čertický, Michal (2012). Action Learning with Reactive Answer Set Programming: Preliminary Report. ICAS 2012, the Eighth International Conference on Autonomic and Autonomous Systems. pp. 107–111. ISBN 9781612081878.
  6. ^ Benson, Scott (1995). "Inductive learning of reactive action models". Machine Learning: Proceedings of the Twelfth International Conference (ICML).
  7. ^ Mourao, Kira; Petrick, Ronald; Steedman, Mark (2010). "Learning action effects in partially observable domains". Frontiers in Artificial Intelligence and Applications. 215 (ECAI 2010): 973–974. doi:10.3233/978-1-60750-606-5-973.
  8. ^ Zettlemoyer, Luke; Pasula, Hanna; Kaelblin, Leslie Pack (2005). "Learning planning rules in noisy stochastic worlds". AAAI: 911–918.
  9. ^ Lin, Long-Ji (1992). "Self-improving reactive agents based on reinforcement learning, planning and teaching". Machine Learning. 8 (3–4): 293–321. doi:10.1023/A:1022628806385.