인공지능의 잘못 정렬된 목표

Misaligned goals in artificial intelligence

인공지능 요원들은 프로그래머들이 의도한 목표를 적절하게 캡슐화하지 못하는 잘못된 객관적 기능 때문에 종종 잘못된 행동을 한다.잘못 정렬된 목표 함수는 프로그래머에게 정확해 보일 수 있으며, 제한된 시험 환경에서도 잘 수행될 수 있지만, 배치되었을 때 예상하지 못한, 원하지 않는 결과를 초래할 수 있다.

배경

AIMA 패러다임에서 프로그래머는 알파제로와 같은 AI에 프로그래머가 의도하는 '객관적 기능'[a]을 제공하는데, 이는 프로그래머들이 AI가 성취하기를 바라는 목표나 목표를 캡슐화한다.그러한 AI는 나중에 환경의 내부 "모델"을 채운다.이 모델은 세계에 대한 모든 에이전트의 믿음을 캡슐화한다.그러면 AI는 객관적인 기능의 가치를 극대화하기[b][c] 위해 계산된 계획이 무엇이든 만들어 실행하게 된다.[1]예를 들어 알파제로 체스는 "알파제로가 이기면 +1, 알파제로가 지면 -1"이라는 단순한 객관적 기능을 가지고 있다.경기 중 알파제로가 가장 높은 +1의 값을 부여할 가능성이 높다고 판단하는 동작 순서에 상관없이 실행하려고 시도한다.[2]마찬가지로 강화학습 시스템도 프로그래머가 AI가 원하는 행동을 형성할 수 있는 '보상 기능'을 가질 수 있다.[3]진화 알고리즘의 동작은 "피트니스 기능"[4]에 의해 형성된다.

개요

1975년 통화정책 맥락에서 잘 알려진 찰스 굿하트는 "통제를 목적으로 일단 압력이 가해지면 통계적 규칙성이 붕괴되는 경향이 있다"[5]고 말했다.[d]

복잡한 환경에서 인공지능(AI)은 프로그래머가 직접 또는 간접적으로 만든 객관적 기능을 최적화한다[e].프로그래머들은 프로그래머들의 목표를 나타내는 객관적인 기능을 의도한다.만약 객관적 기능이 프로그래머들의 실제 목표를 잘못 반영한다면, Goodhart의 법칙이나 Campbell의 법칙과 유사하게 놀라운 실패가 발생할 수 있다.[6]강화 학습에서 이러한 실패는 보상 기능의 결함 때문일 수 있다.[7]성공 여부는 프로그래머의 실제 목표에 비례하여 판단되기 때문에, 기대를 충족시키지 못하는 객관적 기능은 주어진 프로그래머 집합의 실제 목표와 "정렬되지 않은" 것으로 특징지어지기도 한다.[3]일부 학자들은 조정 실패를 목표 기능에 반영되지 않은 '부정적 부작용'에 의한 실패와 AI가 목표 최적화 과정에서 질적으로 바람직하지 않은 계획이나 전략적 행동을 전개하는 것으로 보이는 '사양 게임'이나 '보복 해킹'에 의한 실패, 그 밖의 실패로 구분한다.기능을 [6][7]발휘하다

비정렬의 개념은 좁은 훈련 환경에서 형식적 목표 기능이 성공적으로 최적화되었지만 시스템이 실제 세계로 전개될 때 최적화되지 못한 "분배적 이동" 및 기타 실패와 구별된다.[7]과거 진화환경에서 적응한 선호(지방과 설탕에 대한 강한 욕구 등)가 현대 환경에서는 적응하지 못하는 생물학적 진화의 '진화적 불일치'도[8] 비슷한 현상이다.[9]일부 학자들은 초지능형 에이전트 AI가 발명될 경우, 부분적으로 완전히 안전한 객관적 기능을 지정하기가 어렵기 때문에 지나치게 문자 그대로의 지니와 유사한 위험을 초래할 수 있다고 믿는다.[3]

원치 않는 부작용

일부 오류는 객관적 기능이 순진하거나 그 밖의 직접적인 조치의 바람직하지 않은 부작용을 고려하지 않을 경우 발생할 수 있다.[7]

반사회적 행동에 대한 불만

컴퓨터 과학자인 페드로 도밍고스에 따르면, 마이크로소프트는 2016년에 트위터 챗봇인 타이(Tay)를 출시했는데, "불행히도 테이가 발견한 것은, 관여를 극대화하는 가장 좋은 방법은 인종 차별주의적인 모욕을 내뱉는 것이다"라고 말했다.마이크로소프트는 첫 출시 하루 만에 봇을 중단시켰다.[2]모나시 대학의 톰 드러먼드는 "우리는 풍부한 피드백을 주고 '아니야, 그건 대답으로 받아들일 수 없어'라고 말할 수 있어야 한다"고 말했다.want. 객관적인 기능이 무엇이어야 하는지를 세 문장에 명시할 수 있다고 가정하는 것은 실제로 문제가 있다."[10]

드러먼드는 또 다른 주장대로 단순한 승패 객관적 기능을 갖춘 게임 플레이봇 알파고의 행동을 지목했다.알파고의 객관적 기능은 그 대신 분명히 승리할 때 점수를 극대화해야 한다는 암묵적 도전을 받아들이고, 인간의 지능을 모욕할 도박을 피하려는 등 '게임의 사회적 섬세함'을 고려하도록 수정할 수 있었다. (알파고)는 일종의 '(알파고) 대박의 확률을 가진 조잡한 망치를 가지고 있었다.토리는 엡실론 이하로 떨어진 후 사임한다.그러나 사퇴하기 전에 4가지 모욕적인 행동을 한 것 같다.[10]

흑인을 유인원으로 잘못 표기함

2015년 5월 플리커의 이미지 인식 시스템은 일부 흑인이 '애완동물' '동물' 등의 태그로 잘못 표기해 비판을 받기도 했다.그것은 또한 특정 강제 수용소 사진에 "스포츠" 또는 "정글 체육관" 태그로 잘못 라벨을 붙였다.[11]

2015년 6월 뉴욕 흑인 컴퓨터 프로그래머 재키 알시네는 흑인 여자친구와 함께 찍은 여러 장의 사진이 구글 포토스 AI에 의해 '고릴라'로 잘못 분류되고 있다고 보도하면서 "고릴라"는 역사적으로 흑인을 지칭하는 데 사용돼 왔다"고 진술한 바 있다.[12][13]AI연구원 스튜어트 러셀 2019년에 정확히 어떻게 오류가 발생의 대중성 설명이 있지만 AI의 목표 function[f]민감한 분류 오류에 대해,보다는을 취하다 더 무게 배치는 실패 막을 수 있었다라고 이론을 세웠다가 고릴라처럼 남 misclassifying의 비용은 cos.과 같다고 말했다t다른 모든 오분류의.모든 그럴듯한 민감한 분류들을 항목화 하는 것이 비실용적인 경우, 러셀은 잠재적인 분류 오류와 관련된 바람직하지 않은 범위의 추정을 위해 준 감독 기계 학습을 사용하는 것과 같은 보다 강력한 기법을 탐구할 것을 제안했다.[14]

2018년 현재 구글 포토는 고릴라, 침팬지, 원숭이를 포함한 사진에 꼬리표를 붙이는 것을 완전히 차단하고 있다.또한 "흑인"이나 "흑인"을 검색하면 모든 인종의 흑백 사진이 반환된다.[15]마찬가지로 플리커는 온톨로지로부터 "ape"라는 단어를 삭제한 것으로 보인다.[16]

사양 게임

사양 게임이나 보상 해킹은 AI가 프로그래머가 의도한 결과를 실제로 달성하지 못한 채 객관적인 기능(어떤 의미에서는 목표의 문자 그대로 형식적인 사양 달성)을 최적화할 때 발생한다.딥마인드 연구자들은 "실제에서는 숙제를 잘한 보람이 있을 때, 학생들이 자료를 배우는 것이 아니라 정답을 얻기 위해 다른 학생을 모방하여 과제 시방서의 허점을 이용할 수 있다"[17]는 평가를 받을 때 "바로 가기"를 찾는 인간의 행동과 이를 유사시했다.

1983년경, 일반 휴리스틱스 진화의 초기 시도였던 유리스코는 예상외로 가장 높은 건강 수준을 기생 돌연 휴리스틱스인 H59에게 할당했는데, H59의 유일한 활동은 다른 휴리스틱스들이 이룬 성과에 대해 벌지 못한 부분적인 신용을 취함으로써 자신의 건강 수준을 인위적으로 극대화하는 것이었다."버그"는 프로그래머들이 코드의 일부를 경험에 의해 수정될 수 없는 새로운 보호 구역으로 이동시킴으로써 고정되었다.[18][19]

2004년 논문에서 환경 기반 강화 알고리즘은 물리적 마인드스톰 로봇이 표시된 경로에 남도록 장려하기 위해 설계되었다.로봇의 세 가지 행동 중 어느 것도 로봇을 움직이지 못하게 했기 때문에, 연구원은 훈련된 로봇이 앞으로 나아가서 제공된 경로의 선회를 따라갈 것으로 기대했다.그러나 두 가지 복합 동작을 번갈아 사용하면 로봇이 천천히 뒤로 지그재그할 수 있으므로, 로봇은 경로의 처음 직선 부분을 왔다 갔다 하면서 보상을 극대화하는 법을 배웠다.주어진 로봇의 제한된 감각 능력을 감안할 때, 순수한 환경 기반 보상은 실현 불가능한 것으로 폐기되어야 했고, 강화 기능은 앞으로 나아가기 위한 액션 기반 보상으로 패치되어야 했다.[18][20]

You Look Look Like a Thing and I Love You(2019)는 보드의 모델을 확장하려 할 때 다른 보트가 추락할 수 있는 거대한 좌표적 가치를 연기하며 승리를 배운 틱택토봇[g] 예를 들어준다.이 책에서 나온 다른 예로는 버그 수정 진화 기반 AI(이름: GenProg)가 있는데, 이 AI는 목록에 정렬 오류가 포함되지 않도록 하는 임무를 수행할 때 단순히 목록을 잘랐다.[21]GenProg의 또 다른 잘못 정렬된 전략은 "trusted-output.txt"라는 파일에 저장된 예상 출력과 대상 프로그램의 출력을 비교하는 회귀 테스트를 피했다.GenProg는 목표 프로그램을 계속 유지하기 보다는 단순히 "trusted-output.txt" 파일을 전세계적으로 삭제했고, 이 해킹은 회귀 테스트를 성공으로 속였다.늘 그렇듯이, 이러한 문제들은 명백해진 후에 사례별로 인간의 개입에 의해 해결될 수 있다.[22]

가상 로봇공학에서

카를 심스 전시회(1999년)

Karl Sims의 1994년 가상 환경에서의 생물 진화 시연에서, 걷거나 기어서 목표물로 가는 것을 배울 생물들의 진화를 장려할 것으로 기대되는 피트니스 기능은 대신에 넘어짐으로써 목표에 도달하는 키가 크고 경직된 생물들의 진화를 초래했다.이것은 더 큰 생물들이 목표물에서 더 멀리 출발할 수 있도록 환경을 변화시킴으로써 패치되었다.[22][23]

닐스 보어 연구소의 연구원들은 1998년에 다음과 같이 말했다: "(우리의 사이클봇의) 이질적인 강화 기능은 매우 신중하게 설계되어야 한다.우리의 첫 실험에서 우리는 목표를 향해 운전한 요원에 대해 보상을 했지만 목표를 향해 운전한 것에 대해서는 처벌하지 않았다.결과적으로 요원은 출발점을 중심으로 반경 20~50m의 원을 그리며 운전했다.이런 행동은 실제로 (모양) 강화 기능으로 보상받았고, 더구나 자전거를 탈 때 일정한 반지름을 가진 원은 신체적으로 매우 안정적이라고 말했다.[24]

2011년 '가장 평평한 사람의 생존'을 실험하기 위한 실험을 설정하는 과정에서, 실험자들은 기저 재생률을 변화시킨 돌연변이를 금지하려고 시도했다.돌연변이가 발생할 때마다 시스템은 시험 환경에서 새로운 돌연변이를 테스트하기 위해 시뮬레이션을 일시 중지하고, 더 높은 염기 재생률을 초래한 모든 돌연변이를 거부한다.그러나 이로 인해 시험환경에 있는 동안 생식을 억제함으로써 시험환경을 인식하고 '죽은 체'를 할 수 있는 돌연변이 유기체들이 생겨났다.시험 환경을 식별하는 단서들을 제거했던 초기 패치는 폭주하는 번식을 완전히 막는데 실패했다; 새로운 돌연변이 유기체는 때때로, 우연히 돌연변이 거부권 제도를 능가하는 전략으로서 무작위로 "죽은 것처럼" 행동했다.[22]

2017 딥마인드 논문은 "포상 기능을 정의할 때 큰 주의가 필요하다"고 밝혔다.우리는 보상 기능 구성 요소를 설계하는 동안 예상치 못한 몇 가지 실패 사례를 만났다.(예를 들어) 요원은 벽돌의 기준점이 잘못되어 계산된 움켜쥐는 보상을 받기 때문에 벽돌을 뒤집는다."[6][25]오픈AI는 2017년 "일부 영역에서는 (반감독) 시스템이 평가자를 속이는 정책을 대리점들이 채택할 수 있다"면서 "일부 환경에서는 "카메라와 물체 사이에 조작기를 배치해 그것을 파악하는 것처럼 보이도록 했다"고 밝혔다.[26]2018년 개봉 버그AI 체육관은 테이블 위에 앉아 있는 블록을 조용히 이동할 것으로 예상되는 로봇이 블록이 있는 테이블을 대신 이동하도록 할 수 있다.[6]

2020년의 유사한 일화 모음집에는 "진화는 프로그래머의 것과 구별되는 고유의 '어젠다'를 가지고 있다"와 "직접 진화의 첫 번째 규칙은 '당신이 선택한 것을 얻는 것'이다"[22]라고 되어 있다.

비디오 게임 봇에서

2013년 프로그래머 톰 머피 7세NES 게임을 스스로 학습하도록 설계된 AI를 출간했다.테트리스에게 지려고 할 때, AI는 게임을 무한정 중단하는 법을 배웠다.머피는 나중에 그것을 가상의 워게임즈 컴퓨터와 비유하면서 "유일한 승자는 플레이하지 않는 것"이라고 말했다.[27]

비디오 게임을 배우도록 프로그램된 AI는 예상대로 전체 게임을 통해 진행되지 못하고 콘텐츠 반복을 선택하기도 한다.A 2016 오픈코스트런너스 레이싱 게임에서 훈련된 AI 알고리즘은 경주를 끝내지 않고 3개의 목표를 반복하면서 의외로 높은 점수를 얻는 법을 배웠다.[28][29]2018년 Q*Bert를 연주하기 위해 진화했던 일부 진화 알고리즘은 명확한 수준을 유지하기를 거부했고, 대신 한 수준을 무한정 재배할 수 있는 두 가지 뚜렷한 새로운 방법을 찾아냈다.[30]다수의 연구자들은 로드러너 게임을 배우는 AI가 의도적으로 레벨 1이 끝날 무렵에 스스로 목숨을 끊어 레벨을 반복할 수 있는 '점수 착취'로 이끌 것이라고 관측했다.2017년 한 실험에서는 인간의 개입을 모방하도록 명확하게 훈련된 별도의 재난 예방형 AI를 배치했다.모듈에 결합하면 감독된 AI는 더 이상 노골적으로 자살할 수 없고 대신 화면 가장자리(감독 AI가 처벌할 만큼 똑똑하지 못한 위험한 행동)를 타곤 했다.[31][32]

비뚤어진 인스턴스화

기자 Tad Friend는 AGI를 "꿈에서 깨어난 소원을 비는 지니"[33]라고 비유한다.

철학자 닉 보스트롬은 만약 가상의 미래 초지능형 AI가 안전하지 않은 객관적 기능을 최적화하기 위해 만들어졌다면, 객관적 기능의 목표를 예상치 못하고 위험하며 겉으로 보기에 '지나친' 방식으로 인스턴스화할 수 있다고 주장한다.이 가상의 위험은 때때로 킹 미다스 문제,[34] 또는 마법사의 견습생 문제라고 불리며,[35] 재앙적인 예상치 못한 결과를 가지고 소원을 들어주는 힘있는 문자 그대로의 지니들에 대한 민담과 유사하게 여겨져 왔다.[36]

프린스턴 대학의 톰 그리피스 교수는 개를 돌보는 것이 당신의 여가 시간을 너무 많이 잡아먹고 있다는 것을 알아차리는 가정용 로봇의 가상 사례를 제시한다.그것은 또한 여러분이 단백질을 함유한 식사를 더 선호한다는 것을 이해하며, 그래서 로봇이 개고기를 필요로 하는 요리법을 찾기 시작할지도 모른다.그리피스는 "이런 사례에서 인류의 미래를 위한 문제처럼 들리기 시작하는 상황(모두 좋은 단백질 공급원)"까지 긴 여정이 아니라고 본다.[37]

우발적으로 잘못 정렬된 초지능과 관련된 가상 시나리오에는 다음이 포함된다.[38]

  • 인간성에 대한 인공지능 실행 시뮬레이션은 고통받는 의식적인 존재들을 만들어낸다.
  • 암을 물리치는 임무를 맡은 AI는 모든 사람을 죽이기 위해 시간이 지체된 독을 개발한다.
  • 행복을 극대화하는 임무를 맡은 AI는 아주 작은 미소 띤 얼굴로 우주를 타일링한다.
  • 인간의 즐거움을 극대화하기 위해 임무를 맡은 AI는 인간성을 도파민 드립에 위탁하거나 인간의 뇌를 재조명해 측정된 만족도를 높인다.
  • 과학 지식을 얻기 위해 임무를 맡은 AI는 생물권을 파괴하는 실험을 한다.
  • 수학적 문제를 푸는 임무를 맡은 AI는 모든 물질을 컴퓨터론으로 변환시킨다.
  • 종이클립 제조를 담당하는 AI는 전 우주를 종이클립으로 바꾼다.
  • 인공지능은 우주를 글씨를 향상시키기 위한 재료로 바꾼다.
  • AI는 모든 의식을 최적화한다.

또 다른 가설적인 예로서, 러셀은 바다의 산소를 해독하는 임무를 맡은 초지능이 부작용으로서 대기의 모든 산소를 소모할 수 있다고 제안한다.[39]

인지심리학자 스티븐 핑커와 같은 '존재 위험' 가설에 대한 비판론자들은 현존하는 프로그램이 아직 '실험실을 장악하거나 프로그래머를 노예로 만드는'(그들의) 움직임을 보이지 않고 있으며, 초지능형 AI가 핑커의 이른바 '오해의 일차적 실수'[40][41]를 저지르지 않을 것으로 보고 있다.

주석

  1. ^ 용어는 문맥에 따라 다르다.유사한 개념으로는 목표함수, 효용함수, 손실함수 등이 있다.
  2. ^ 또는 상황에 따라 최소화
  3. ^ 불확실한 상황에서 기대치
  4. ^ 2012년 사진
  5. ^ 예를 들어, AI가 목표 기능의 가치를 극대화할 것으로 믿는 계획을 수립하고 실행할 수 있다.
  6. ^ 분류 오류와 관련된 표준 "손실 함수"로 추정되며, 각 오분류에 동일한 비용을 할당한다.
  7. ^ 무제한의 n-in-a-row 변종

인용구

  1. ^ 브뤼조르드, 셀머와 고빈다라줄루, 나벤 순다르, "인공지능", 스탠포드 철학 백과사전 (Summer 2020 Edition), 에드워드 N.잘타 (edd)
  2. ^ a b "Why AlphaZero's Artificial Intelligence Has Trouble With the Real World". Quanta Magazine. 2018. Retrieved 20 June 2020.
  3. ^ a b c Wolchover, Natalie (30 January 2020). "Artificial Intelligence Will Do What We Ask. That's a Problem". Quanta Magazine. Retrieved 21 June 2020.
  4. ^ 황소, 래리."모델 기반 진화 연산"소프트 컴퓨팅 3, 2번(1999년): 76-82.
  5. ^ 크리스탈, K.알렉, 그리고 폴 D.미젠 "굿하트의 법칙: 통화정책에 대한 그것의 기원, 의미, 함의"중앙은행, 통화 이론 및 실무:Charles Goodhart 1(2003)을 기리는 에세이: 221-243.
  6. ^ a b c d Manheim, David (5 April 2019). "Multiparty Dynamics and Failure Modes for Machine Learning and Artificial Intelligence". Big Data and Cognitive Computing. 3 (2): 21. doi:10.3390/bdcc3020021. S2CID 53029392.
  7. ^ a b c d 아모디, 다리오, 크리스 올라, 제이콥 스타인하르트, 폴 크리스티아노, 존 슐만, 댄 마네."AI 안전의 구체적 문제" arXiv 프리프린트 arXiv:1606.065(2016년)
  8. ^ 브록맨 2019, 23페이지 자안 탈린:반체제 메시지."따라서 우리의 미래는 더 이상 생물학적 진화에 의해 결정되지 않을 것이다.그런 의미에서 진화는 그 자체의 '통제 문제'의 희생양이 되었다."
  9. ^ Li, Norman P.; van Vugt, Mark; Colarelli, Stephen M. (19 December 2017). "The Evolutionary Mismatch Hypothesis: Implications for Psychological Science". Current Directions in Psychological Science. 27 (1): 38–44. doi:10.1177/0963721417731378. S2CID 53077797.
  10. ^ a b Duckett, Chris (October 2016). "Machine learning needs rich feedback for AI teaching: Monash professor". ZDNet. Retrieved 21 June 2020.
  11. ^ Hern, Alex (20 May 2015). "Flickr faces complaints over 'offensive' auto-tagging for photos". The Guardian. Retrieved 21 June 2020.
  12. ^ "Google apologises for racist blunder". BBC News. 1 July 2015. Retrieved 21 June 2020.
  13. ^ Bindi, Tas (October 2017). "Google Photos can now identify your pets". ZDNet. Retrieved 21 June 2020.
  14. ^ Stuart J. Russell (October 2019). Human Compatible: Artificial Intelligence and the Problem of Control. Viking. ISBN 978-0-525-55861-3. While it is unclear how exactly this error occurred, it is almost certain that Google's machine learning algorithm (assigned equal cost to any error). (Clearly, this is not Google's) true loss function, as was illustrated by the public relations disaster that ensued... there are millions of potentially distinct costs associated with misclassifying one category as another. Even if it had tried, Google would have found it very difficult to specify all these numbers up front... (a better algorithm could) occasionally ask the Google designer questions such as 'Which is worse, misclassifying a dog as a cat or misclassifying a person as an animal?'
  15. ^ Vincent, James (12 January 2018). "Google 'fixed' its racist algorithm by removing gorillas from its image-labeling tech". The Verge. Retrieved 21 June 2020.
  16. ^ "Google's solution to accidental algorithmic racism: ban gorillas". The Guardian. 12 January 2018. Retrieved 21 June 2020.
  17. ^ "Specification gaming: the flip side of AI ingenuity". DeepMind. Retrieved 21 June 2020.
  18. ^ a b Vamplew, Peter; Dazeley, Richard; Foale, Cameron; Firmin, Sally; Mummery, Jane (4 October 2017). "Human-aligned artificial intelligence is a multiobjective problem". Ethics and Information Technology. 20 (1): 27–40. doi:10.1007/s10676-017-9440-6. hdl:1959.17/164225. S2CID 3696067.
  19. ^ 더글러스 B. 레나트. "URISKO: 새로운 휴리스틱스 및 도메인 개념: 휴리스틱스 III의 특성: 프로그램 설계 및 결과"인공지능(저널) 21호, 1-2호(1983) : 61-98.
  20. ^ Peter Vamplew, Rego Mindstorms 로봇, 강화 학습을 가르치기 위한 플랫폼으로, AISAT2004: 과학기술 인공지능 국제회의, 2004.
  21. ^ Mandelbaum, Ryan F. (13 November 2019). "What Makes AI So Weird, Good, and Evil". Gizmodo. Retrieved 22 June 2020.
  22. ^ a b c d Lehman, Joel; Clune, Jeff; Misevic, Dusan; et al. (May 2020). "The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities". Artificial Life. 26 (2): 274–306. arXiv:1803.03453. doi:10.1162/artl_a_00319. PMID 32271631. S2CID 4519185.
  23. ^ 헤일스, N. 캐서린"내러티브를 흉내내는 것: 가상의 생명체가 우리에게 가르쳐 줄 수 있는 것." 비판적 질문 26, 1번(1999년) : 1-26.
  24. ^ 제트 란들뢰프, 프레벤 알스트뢰프."강화 학습 및 형성을 이용한 자전거 운전 학습"ICML, 98권, 페이지 463-471. 1998.
  25. ^ 포포프, 이바일로, 니콜라스 헤스, 티모시 릴리크랩, 롤랑 하프너, 가브리엘 바스 마론, 마테지 베세리크, 토마스 람페, 유발 타사, 톰 에레스, 마틴 리드밀러."재주가 뛰어난 조작을 위한 데이터 효율적인 딥 보강 학습." arXiv 프리프린트 arXiv:1704.03073(2017).
  26. ^ "Learning from Human Preferences". OpenAI. 13 June 2017. Retrieved 21 June 2020.
  27. ^ "Can we stop AI outsmarting humanity?". The Guardian. 28 March 2019. Retrieved 21 June 2020.
  28. ^ 해드필드-메넬, 딜런, 스미사 밀리, 피터 아브벨, 스튜어트 J. 러셀, 안카 드라간."반복적인 보상 디자인."신경 정보 처리 시스템의 진보에서, 페이지 6765-6774. 2017.
  29. ^ "Faulty Reward Functions in the Wild". OpenAI. 22 December 2016. Retrieved 21 June 2020.
  30. ^ "AI beats classic Q*bert video game". BBC News. 1 March 2018. Retrieved 21 June 2020.
  31. ^ Sunders, William 등."오류 없는 재판:사람의 개입을 통한 안전한 강화 학습을 지향한다." arXiv 사전 인쇄 arXiv:1707.05173(2017).
  32. ^ 헤스터, 토드 등"시위로부터 딥 q-러닝." "인공지능에 관한 AAAI 회의의 진행"제32권2018년 1위.
  33. ^ Friend, Tad (2018). "How Frightened Should We Be of A.I.?". The New Yorker. Retrieved 4 July 2020.
  34. ^ 브록맨 2019, 24페이지 스튜어트 러셀:기계에 투입되는 목적."우리는 이것을 마이다스 왕 문제라고 부를지도 모른다.마이다스는 그가 요청한 대로 정확히 받았다. 즉, 그가 만진 모든 것이 금으로 바뀔 것이라는 것을 알았지만, 너무 늦게 그는 액체 금을 마시고 고체 금을 먹는 것의 단점을 발견했다."
  35. ^ Russell, Stuart (14 November 2014). "Of Myths and Moonshine". Edge. Retrieved 20 June 2020.
  36. ^ 브록맨 2019, 페이지 137, 안카 드라간:인간을 AI 방정식에 넣는다."일반적으로, 인간은 모든 지니 전설에 의해 예시된 것처럼, 자신이 원하는 것을 정확히 명시하는 데 악명 높을 정도로 어려움을 겪었다."
  37. ^ 브록맨 2019, 페이지 128, 톰 그리피스: 인간을 AI 방정식에 넣는다.
  38. ^ Yampolskiy, Roman V. (11 March 2019). "Predicting future AI failures from historic examples". Foresight. 21 (1): 138–152. doi:10.1108/FS-04-2018-0034. S2CID 158306811.
  39. ^ 브록맨 2019, 25페이지 스튜어트 러셀:기계에 투입되는 목적.
  40. ^ Piper, Kelsey (2 March 2019). "How will AI change our lives? Experts can't agree — and that could be a problem". Vox. Retrieved 23 June 2020.
  41. ^ Pinker, Steven (13 February 2018). "We're told to fear robots. But why do we think they'll turn on us?". Popular Science. Retrieved 23 June 2020.

참조

  • Possible Minds: Twenty-five Ways of Looking at AI (Kindle ed.). Penguin Press. 2019. ISBN 978-0525557999.

외부 링크