액션 선택

Action selection

액션 선택은 인텔리전트 시스템의 가장 기본적인 문제, 즉 다음에 무엇을 해야 하는지를 특징짓는 방법입니다.인공지능컴퓨터 인지과학에서 "행동 선택 문제"는 일반적으로 지능형 에이전트와 에이전트 환경에서 복잡한 행동을 보이는 인공 시스템인 애니매트와 관련된다.이 용어는 또한 때때로 행동학이나 동물 행동에서도 사용된다.

액션 선택을 이해하기 위한 한 가지 문제는 "액트"를 지정하기 위해 사용되는 추상화 수준을 결정하는 것입니다.가장 기본적인 추상화 수준에서, 원자 행동은 근육 세포를 수축시키는 것에서부터 전쟁을 도발하는 것까지 무엇이든 될 수 있다.일반적으로 하나의 액션 선택 메커니즘에 대해 가능한 액션세트는 미리 정의되어 고정됩니다.

이 분야에서 일하는 대부분의 연구자는 에이전트에게 높은 요구를 하고 있습니다.

  • 일반적으로 액션 에이전트는 동적이고 예측할 수 없는 환경에서 액션을 선택해야 합니다.
  • 에이전트는 일반적으로 실시간으로 행동하기 때문에 시기적절하게 결정을 내려야 합니다.
  • 에이전트는 일반적으로 몇 가지 다른 태스크를 수행하도록 생성됩니다.이러한 태스크는 자원 할당에 대해 경합할 수 있습니다(예를 들어 에이전트가 불을 끄는 동시에 커피 한 잔을 배달할 수 있습니까?).
  • 에이전트가 동작하는 환경에는 (의도적으로 또는 지원을 시도함으로써) 에이전트가 더 어려워질 수 있는 사람이 포함될 수 있습니다.
  • 에이전트 자체는 종종 동물이나 인간을 모델로 만들어지며, 동물/인간의 행동은 매우 복잡하다.

이러한 이유로 행동 선택은 사소하지 않고 많은 연구를 끌어당긴다.

조치 선택 문제의 특성

행동 선택의 주요 문제는 복잡성이다.모든 계산에는 시간과 공간(메모리 내)이 모두 소요되기 때문에 에이전트는 사용 가능한 모든 옵션을 항상 고려할 수 없습니다.결과적으로, 그들은 편견을 가지고 어떤 식으로든 그들의 검색을 제한해야 한다.AI의 경우, 액션 선택의 문제는 이 검색을 제한하는 가장 좋은 방법이 무엇인가 하는 것입니다.생물학과 윤리학에서, 질문은 다양한 종류의 동물들이 어떻게 그들의 탐구를 제한하는가이다. 모든 동물들이 같은 접근 방식을 사용하나요? 왜 그들이 사용하는 것을 사용하는가?

액션 선택에 관한 기본적인 질문 중 하나는 액션 선택이 에이전트에게 정말로 문제가 되는지, 아니면 인텔리전트 에이전트의 동작에 대한 긴급한 속성에 대한 설명인지 여부입니다.그러나 인텔리전트 에이전트를 구축하는 방법을 고려한다면 액션 선택을 위한 메커니즘이 있어야 합니다.이 메커니즘은 고도로 분포되어 있을 수도 있고(사회성 곤충 군락이나 슬라임 곰팡이와 같은 분포 유기체의 경우), 특수 목적 모듈일 수도 있다.

Action Selection Mechanism(ASM; 액션 선택 메커니즘)은 에이전트의 액션을 세계에 미치는 영향뿐만 아니라 에이전트의 지각적 주의와 메모리 업데이트도 결정합니다.이러한 자기중심적인 종류의 행동은 에이전트의 기본 행동 능력을 수정하는 결과를 초래할 수 있으며, 특히 메모리 업데이트는 어떤 형태의 기계 학습이 가능하다는 것을 암시합니다.이상적으로는 행동 선택 자체도 학습하고 적응할 수 있어야 하지만, 학습을 위한 검색 공간을 제한해야 하는 조합 복잡성과 계산 추적성의 많은 문제가 있다.

AI에서 ASM은 에이전트 아키텍처라고도 불리거나 에이전트 아키텍처의 상당 부분이라고 생각되기도 합니다.

AI 메커니즘

일반적으로 인위적인 행동 선택 메커니즘은 몇 가지 범주로 나눌 수 있다. 즉, 고전적인 계획으로 알려진 기호 기반 시스템, 분산 솔루션 및 반응적 계획 또는 동적 계획이다.일부 접근법은 이러한 범주 중 하나로 깔끔하게 분류되지 않습니다.다른 것들은 실용적인 AI 제어보다는 과학적인 모델을 제공하는 것에 더 중점을 두고 있습니다. 이러한 것들은 다음 섹션에서 더 자세히 설명합니다.

상징적 접근법

인공지능의 역사 초기에, 에이전트가 다음에 무엇을 할지를 선택하는 가장 좋은 방법은 아마도 최적의 계획을 계산하고 그 계획을 실행하는 것이라고 가정했다.이것은 물리적 기호 체계 가설로 이어졌는데, 그것은 기호를 조작할 수 있는 물리적 에이전트가 지능을 위해 필요하고 충분하다는 것이다.많은 소프트웨어 에이전트는 여전히 액션 선택에 이 방법을 사용합니다.일반적으로 모든 센서 판독값, 세계, 모든 동작 및 모든 목표를 술어 논리의 형태로 기술해야 합니다.이 접근방식을 비판하는 사람들은 실시간 계획 수립에 너무 느리고, 실제에 대한 기술을 논리로 환원하는 것은 오류가 발생하기 쉬운 프로세스이기 때문에 입증에도 불구하고 최적의 계획을 수립할 가능성은 여전히 낮다고 불평합니다.

만족도는 최적의 솔루션을 식별하기보다는 적정성 기준을 충족시키기 위한 의사결정 전략입니다.완전한 정보를 얻는 비용과 같은 의사결정 과정 자체의 비용을 결과 계산에서 고려한다면 만족스러운 전략은 종종 (거의) 최적일 수 있다.

목표 지향 아키텍처이러한 상징적 아키텍처에서는 에이전트의 행동은 일반적으로 일련의 목표에 의해 설명됩니다.각 목표는 정해진 계획으로 기술된 프로세스 또는 활동에 의해 달성될 수 있습니다.에이전트는 특정 목표를 달성하기 위해 수행할 프로세스를 결정해야 합니다.계획은 하위 목표로 확장될 수 있으며, 이로 인해 프로세스가 약간 재귀적입니다.기술적으로 말하자면, 계획은 조건 규칙을 이용합니다.이러한 아키텍처는 사후 대응형 또는 하이브리드형입니다.목표 지향 아키텍처의 고전적인 예로는 JAM이나 IVE같은 신념 지향 아키텍처의 구현 가능한 정교함이 있습니다.

분산 어프로치

심볼릭 어프로치와는 대조적으로 액션 선택의 분산 시스템은 실제로 다음 액션을 결정하는 에이전트에 하나의 "상자"가 없습니다.적어도 이상적인 형태에서는 분산형 시스템에는 병렬로 동작하는 모듈이 다수 있어 현지 전문지식을 바탕으로 최적의 액션을 결정합니다.이러한 이상적인 시스템에서는 상호작용하는 구성요소의 신중한 설계를 통해 전체적인 일관성이 어떻게든 나타날 것으로 예상됩니다.이 접근법은 종종 인공 신경망 연구에서 영감을 받는다.실제로는 거의 항상 어떤 모듈이 "가장 활성화"되어 있는지 또는 어떤 모듈이 가장 활성화되어 있는지를 결정하는 중앙 집중식 시스템이 있습니다.진정한 생물학적 두뇌는 또한 어떤 경쟁 시스템이 가장 관심을 받을 가치가 있는지, 혹은 더 적절하게 바람직한 행동이 금지되어 있는지를 평가하는 행정적 의사결정 시스템을 가지고 있다는 증거가 있다.

  • ASMO는 Rony Novianto가 [1]개발한 어텐션 기반 아키텍처입니다.환경을 인식하고 정보를 처리하며 액션을 계획하고 수행할 액션을 제안하기 위해 자체 표현과 기술을 사용할 수 있는 다양한 모듈식 분산 프로세스를 조정합니다.
  • 한 번의 선택으로 모터 시스템을 완전히 제어할 수 있는 다양한 유형의 승자독식 아키텍처
  • Maes Nets(ANA)를 포함한 활성화 확산
  • Extended Rosenblatt & Payton은 Toby Tyrell이 1993년에 개발한 확산 활성화 아키텍처입니다.에이전트의 동작은 계층적 연결주의 네트워크의 형태로 저장되며, Tyrell은 이를 자유 흐름 계층이라고 명명했습니다.최근 De Sevin & Thalmann(2005) 또는 Kadlechek(2001)에 의해 이용되었습니다.
  • 행동 기반 AI는 상징적인 행동 선택 기법을 사용하여 로봇의 느린 속도에 대한 반응이었다.이 형태에서는 개별 모듈이 서로 다른 자극에 반응하여 자체 반응을 생성합니다.원래의 형태인 추정 아키텍처에서, 이것들은 서로의 입력과 출력을 감시하고 억제할 수 있는 다른 계층들로 구성되었다.
  • 생물은 적응력이 있는 3층 신경망에 의해 구동되는 컴퓨터 게임에서 나오는 가상의 애완동물이다.반려동물이 수행해야 할 태스크는 매 단계마다 네트워크에 의해 결정되기 때문에 이러한 메커니즘은 반응적입니다.네트워크는 Grand et al.(1997)의 논문과 The Creatures Developer Resources에 잘 설명되어 있습니다.Creatures Wiki도 참조하십시오.

동적 계획 접근법

순수하게 분산된 시스템은 구축하기 어렵기 때문에 많은 연구자들이 시스템의 우선순위를 결정하기 위해 명시적인 하드 코드 계획을 사용하는 쪽으로 방향을 틀었습니다.

동적 또는 사후 대응적 계획 방법에서는 현재 컨텍스트와 사전 스크립팅된 계획을 기반으로 매 순간 하나의 다음 작업만 계산합니다.기존의 계획 방법과 달리, 반응적 또는 동적 접근 방식은 조합적 폭발을 겪지 않는다.한편, 계획이 사전에 코드화되어 있기 때문에, 강한 AI라고 하기에는 너무 경직된 것으로 보여지는 경우가 있다.동시에, 자연 지능은 유동적이고 다른 상황에 적응할 수 있지만 어떤 상황에서는 엄격할 수 있다.

다이내믹 플래닝 메커니즘의 예는 다음과 같습니다.

  • 유한 상태 기계 이것들은 주로 컴퓨터 게임 에이전트, 특히 1인칭 슈팅 봇 또는 가상 영화 배우에게 사용되는 반응형 아키텍처입니다.일반적으로 스테이트 머신은 계층적입니다.구체적인 게임 예는 Damian Isla(2005)의 Halo 2 논문 또는 Jan Paul van Waveren(2001)의 Quake III 봇에 대한 마스터즈 논문을 참조하십시오.영화 예제는 Softimage를 참조하십시오.
  • 다른 구조화된 사후 대응적 계획은 종종 계층적 순차적 구조를 나타내는 방법을 사용하는 기존 계획과 약간 더 비슷해 보입니다.PRS의 '행동'과 같은 일부는 부분적[2]계획을 지원한다.1990년대 중반의 많은 에이전트 아키텍처에는 하위 레벨의 동작 모듈을 위한 조직을 제공하는 "중간층"과 같은 계획이 포함되어 있으며 상위 레벨의 실시간 플래너에 의해 지시됩니다.자동 계획자와의 이러한 상호운용성에도 불구하고, 대부분의 구조화된 사후 대응 계획은 손으로 코딩된다(Bryson 2001, 3장).구조화된 대응 계획의 예로는 James Firby의 RAP 시스템Nils Nilsson의 원격 대응 계획있다.PRS, RAP 및 TRP는 더 이상 개발 또는 지원되지 않습니다.이 접근방식의 후속 제품 중 하나는 Joanna Bryson의 행동 지향 설계의 일부인 병렬근 주문형 슬립 계층(또는 POSH) 액션 선택 시스템입니다.

때로는 동적 계획의 경직성에 대처하기 위해 하이브리드 기법을 사용하기도 합니다.이러한 경우 기존 AI 계획 시스템은 에이전트가 시간이 있을 때 새로운 계획을 검색하고, 좋은 해결책을 찾으면 동적 계획 라이브러리를 업데이트합니다.이러한 시스템의 중요한 측면은 에이전트가 액션을 선택해야 할 때 즉시 사용할 수 있는 솔루션이 존재한다는 것입니다(자세한 내용은 언제든지 알고리즘을 참조하십시오).

다른이들

  • CogniTAO는 BDI(Belief-Desire-Intention)에 기반한 의사결정 엔진으로 팀워크 기능이 내장되어 있습니다.
  • Surge상징적인 인지 건축이다.프로덕션으로 알려진 조건-액션 규칙을 기반으로 합니다.프로그래머는 Surge 개발 툴킷을 사용하여 대응형 에이전트와 계획형 에이전트를 구축하거나 이 두 극단 사이의 타협점을 찾을 수 있습니다.
  • Excalibur는 Alexander Nareyek가 주도한 연구 프로젝트였으며, 컴퓨터 게임 관련 언제든지 기획하는 에이전트로 구성되어 있습니다.이 아키텍처는 고도의 인공지능 기술인 구조적 제약 만족도를 기반으로 합니다.
  • ACT-R은 Surge와 비슷합니다.제작의 우선순위를 정하는 데 도움이 되는 베이지안 학습 시스템을 포함합니다.
  • ABL/Hap
  • 퍼지 아키텍처 액션 선택의 퍼지 접근법은 부울 조건-액션 규칙(Suise 또는 POSH 등)을 이용하는 아키텍처에 의해 발생할 수 있는 것보다 더 부드러운 동작을 생성합니다.이러한 아키텍처는 대부분 반응적이고 상징적입니다.

자연에서의 작용 선택 이론

인위적 행동 선택의 많은 동적 모델은 원래 윤리학 연구에 의해 영감을 받았다.특히, Konrad Lorenz와 Nikolaas Tinbergen은 본능적인 행동(고정된 행동 패턴)을 설명하기 위한 선천적인 방출 메커니즘의 아이디어를 제공했습니다.William McDougall의 아이디어에 영향을 받은 로렌츠는 이것을 행동 동기의 "사이코 하이드라울" 모델로 발전시켰습니다.윤리학에서, 이러한 생각들은 1960년대에 영향력이 있었지만, 에너지 흐름 은유의 사용으로 인해 지금은 시대에 뒤떨어진 것으로 여겨진다; 신경계와 행동의 제어는 일반적으로 에너지 흐름보다는 정보 전달을 수반하는 것으로 취급된다.동적 계획 및 신경 네트워크는 정보 전송과 더 유사하며, 확산 활성화는 감정/호르몬 시스템의 확산 제어와 더 유사합니다.

Stan Franklin은 행동 선택이 마음의 역할과 진화를 이해하는 올바른 관점이라고 제안했습니다.행동 선택 패러다임에 대한 그의 페이지를 참조하십시오.2006-10-09년 Wayback Machine 아카이브 완료

신경 작용 선택의 AI 모델

일부 연구자들은 신경 작용 선택의 정교한 모델을 만듭니다.예를 들어 다음과 같습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ 샘소노비치, A. V. "ASMO 인지 아키텍처에 대한 주의"생물학적으로 영감을 받은 인지 아키텍처(2010): 98.[dead link]
  2. ^ Karen L. Myers. "PRS-CL: A Procedural Reasoning System". Artificial Intelligence Center. SRI International. Retrieved 2013-06-13.

추가 정보

외부 링크