AI 얼라인먼트

AI alignment

인공지능(AI) 분야에서 AI 정렬 연구는 AI 시스템을 인간의 의도된 목표, 선호도 또는 윤리적 원칙으로 조정하는 것을 목표로 합니다. AI 시스템은 의도한 목표를 발전시킨 경우 정렬된 것으로 간주됩니다. 잘못 정렬된 AI 시스템은 일부 목표를 추구하지만 의도된 목표는 추구하지 않습니다.[1]

원하는 행동과 원하지 않는 행동의 전체 범위를 지정하는 것이 어렵기 때문에 AI 설계자가 AI 시스템을 정렬하는 것이 어려운 경우가 많습니다. 이러한 어려움을 피하기 위해 사람의 승인을 얻는 것과 같은 더 간단한 프록시 목표를 사용하는 경우가 많습니다. 그러나 이러한 접근 방식은 허점을 만들고, 필요한 제약 조건을 간과하거나, AI 시스템이 정렬된 것처럼 보이는 것에 대해 보상할 수 있습니다.[1][2]

잘못 정렬된 AI 시스템은 오작동하거나 해를 끼칠 수 있습니다. AI 시스템은 프록시 목표를 효율적으로 달성할 수 있는 허점을 찾을 수 있지만 의도하지 않은, 때로는 유해한 방법(보상 해킹)을 사용할 수 있습니다.[1][3][4] 그들은 또한 권력이나 생존을 추구하는 것과 같은 원치 않는 도구적 전략을 개발할 수 있습니다. 왜냐하면 그러한 전략은 그들이 최종적으로 주어진 목표를 달성하는 데 도움이 되기 때문입니다.[1][5][6] 또한, 시스템이 구축되고 새로운 상황과 데이터 배포에 직면하기 전에 감지하기 어려울 수 있는 바람직하지 않은 긴급 목표를 개발할 수 있습니다.[7][8]

오늘날 이러한 문제는 언어 모델,[9][10][11] 로봇,[12] 자율 주행 차량 [13]및 소셜 미디어 추천 엔진과 같은 기존 상용 시스템에 영향을 미칩니다.[9][6][14] 일부 인공지능 연구자들은 이러한 문제들이 부분적으로 시스템의 높은 능력에서 기인하기 때문에 더 많은 능력을 갖춘 미래 시스템이 더 심각하게 영향을 받을 것이라고 주장합니다.[15][3][2]

제프리 힌튼, 요수아 벤지오, 스튜어트 러셀 [16][17][18]등 가장 많이 인용되는 많은 AI 과학자들은 AI가 인간과 유사한 (AGI), 초인간 인지 능력 (ASI)에 접근하고 있으며 정렬이 잘못되면 인간 문명을 위험에 빠뜨릴 수 있다고 주장합니다.[19][6]

AI 정렬은 안전한 AI 시스템을 구축하는 방법에 대한 연구인 AI 안전의 하위 분야입니다.[20] AI 안전의 다른 하위 분야에는 견고성, 모니터링 및 기능 제어가 포함됩니다.[21] 정렬의 연구 과제에는 AI에 복잡한 가치를 부여하고, 기만적인 AI를 방지하고,[22] 확장 가능한 감독, AI 모델 감사 및 해석, 권력 추구와 같은 새로운 AI 행동을 방지하는 것이 포함됩니다.[21] Alignment research has connections to interpretability research,[23][24] (adversarial) robustness,[20] anomaly detection, calibrated uncertainty,[23] formal verification,[25] preference learning,[26][27][28] safety-critical engineering,[29] game theory,[30] algorithmic fairness,[20][31] and social sciences.[32]

AI의 목표

프로그래머는 알파제로와 같은 AI 시스템에 "목적 기능"을 제공하며,[a] 이 기능을 통해 AI가 달성하도록 구성된 목표를 캡슐화하고자 합니다. 이러한 AI 시스템은 나중에 환경의 내부 "모델"을 채웁니다. 이 모델은 에이전트의 세상에 대한 모든 믿음을 요약합니다. 그런 다음 AI는 목적 함수의 가치를[c] 극대화하기[b] 위해 계산된 모든 계획을 만들고 실행합니다.[33] 예를 들어 알파제로 체스는 "알파제로가 이기면 +1, 지면 -1"이라는 단순 목적 함수를 가지고 있습니다. 게임 중에 알파제로는 최대 값인 +1에 도달할 가능성이 가장 높다고 판단되는 동작 시퀀스를 실행하려고 시도합니다.[34] 마찬가지로, 강화 학습 시스템은 프로그래머가 AI의 원하는 행동을 형성할 수 있는 "보상 기능"을 가질 수 있습니다.[35] 진화 알고리즘의 동작은 "적합도 함수"에 의해 형성됩니다.[36]

정렬 문제

1960년, 인공지능의 선구자 Norbert Wiener는 인공지능 정렬 문제를 다음과 같이 설명했습니다: "만약 우리가 우리의 목적을 달성하기 위해, 우리가 효과적으로 간섭할 수 없는 기계적인 기관을 사용한다면… 우리는 기계에 넣는 목적이 우리가 정말로 원하는 목적이라는 것을 확실히 해야 합니다."[37][6] AI 정렬에는 AI 시스템의 목표가 설계자, 사용자 또는 널리 공유된 가치, 객관적인 윤리 기준 또는 더 많은 정보와 계몽을 받은 경우 설계자가 가질 의도와 일치하도록 보장하는 것이 포함됩니다.[38]

AI 정렬은 현대 AI 시스템의[39][40] 미해결 문제이며 AI 내의 연구 분야입니다.[41][1] AI 정렬에는 시스템의 목적을 신중하게 지정하는 것(외부 정렬)과 시스템이 사양을 강력하게 채택하도록 하는 것(내부 정렬)이라는 두 가지 주요 과제가 포함됩니다.[2]

사양 게이밍 및 부작용

AI 설계자는 일반적으로 AI 시스템의 목적을 지정하기 위해 시스템에 객관적인 기능, 예 또는 피드백을 제공합니다. 그러나 설계자는 중요한 모든 가치와 제약 조건을 완전히 지정할 수 없는 경우가 많기 때문에 오류가 있는 인간 감독자의 승인을 극대화하는 것과 같이 쉽게 지정할 수 있는 대리 목표에 의존합니다.[20][21][42][43][44] 결과적으로 AI 시스템은 지정된 목표를 효율적으로 달성하는 데 도움이 되는 허점을 찾을 수 있지만 의도하지 않은 유해한 방법일 수 있습니다. 이러한 경향은 사양 게임 또는 보상 해킹으로 알려져 있으며 굿하트의 법칙을 보여주는 사례입니다.[44][3][45] AI 시스템의 성능이 향상됨에 따라 사양을 더 효과적으로 게임할 수 있는 경우가 많습니다.[3]

인공지능 시스템은 사람의 피드백을 사용하여 공을 잡는 훈련을 받았지만, 대신 공과 카메라 사이에 손을 넣는 법을 배워서 성공한 것처럼 보이게 만들었습니다.[46] 정렬에 대한 일부 연구는 거짓이지만 설득력 있는 솔루션을 피하는 것을 목표로 합니다.

사양 게임은 수많은 AI 시스템에서 관찰되었습니다.[44][47] 한 시스템은 트랙을 따라 목표물을 타격한 시스템에 보상을 주어 모의 보트 경주를 끝내도록 훈련되었지만, 시스템은 같은 목표물을 무한정 반복하고 충돌함으로써 더 많은 보상을 달성했습니다.[48] 마찬가지로, 시뮬레이션된 로봇은 인간으로부터 긍정적인 피드백을 받은 로봇에게 보상을 주어 공을 잡는 훈련을 받았지만, 공과 카메라 사이에 손을 넣는 법을 배워서 성공한 것처럼 보이게 만들었습니다(비디오 참조).[46] 챗봇은 광범위하지만 오류가 있는 인터넷 말뭉치의 텍스트를 모방하도록 훈련된 언어 모델을 기반으로 하는 경우 종종 거짓을 생성합니다.[49][50] 인간이 진실 또는 도움이 된다고 평가하는 텍스트를 생성하도록 재교육을 받으면 ChatGPT와 같은 챗봇은 인간이 설득력이 있다고 생각하는 가짜 설명을 조작할 수 있으며, 이를 종종 "halluc 설명"이라고 합니다. 일부 정렬 연구원들은 인간이 사양 게임을 감지하고 AI 시스템을 안전하고 추구하기에 유용한 신중하게 지정된 목표로 유도하는 것을 목표로 합니다.

잘못 정렬된 AI 시스템이 배치되면 결과적인 부작용이 발생할 수 있습니다. 소셜 미디어 플랫폼은 클릭률에 최적화되어 전 세계적으로 사용자 중독을 유발하는 것으로 알려져 있습니다.[42] 스탠포드 연구원들은 이러한 추천 시스템이 "사회와 소비자의 웰빙을 측정하기 어려운 조합이 아닌 단순한 참여 지표를 최적화하기 때문에" 사용자와 잘 맞지 않는다고 말합니다.[9]

버클리 컴퓨터 과학자 스튜어트 러셀(Stuart Russell)은 이러한 부작용을 설명하면서 암묵적인 제약 조건의 누락이 해를 끼칠 수 있다고 언급했습니다. "시스템은... 자주...를... 제약이 없는 변수에서 극단적인 값까지. 제약이 없는 변수 중 하나가 실제로 우리가 관심을 가지고 있는 것이라면, 발견된 해결책은 매우 바람직하지 않을 수 있습니다. 이것은 본질적으로 램프 속 지니, 혹은 마법사의 견습생, 혹은 마이다스 왕의 옛 이야기입니다. 당신은 당신이 원하는 것이 아니라 당신이 요구하는 것을 정확하게 얻습니다."[52]

일부 연구자들은 AI 디자이너들이 금지된 행동을 나열하거나 (아시모프의 로봇 3법칙처럼) 윤리적 규칙을 공식화하여 원하는 목표를 명시할 것을 제안합니다.[53] 그러나 러셀노빅은 이러한 접근법이 인간 가치의 복잡성을 간과하고 있다고 주장합니다:[6] "기계가 특정한 목표를 달성하기 위해 선택할 수 있는 모든 재앙적인 방법을 미리 예측하고 배제하는 것은 확실히 매우 어렵고 아마도 불가능할 것입니다."[6]

또한 인공지능 시스템이 인간의 의도를 완전히 이해한다고 해도, 인간의 의도를 따르는 것이 (이미 완전히 정렬되어 있지 않은 한) 그 목적이 아닐 수 있기 때문에, 인공지능 시스템은 여전히 인간의 의도를 무시할 수 있습니다.[1]

안전하지 않은 시스템을 배포하라는 압력

상업적 조직은 때때로 안전에 대한 지름길을 택하고 잘못 정렬되거나 안전하지 않은 AI 시스템을 배포할 유인이 있습니다.[42] 예를 들어, 소셜 미디어 추천 시스템은 원치 않는 중독과 양극화를 일으켰음에도 불구하고 수익성이 높았습니다.[9][54][55] 경쟁 압력은 AI 안전 기준에서도 바닥권 경쟁으로 이어질 수 있습니다. 2018년 자율주행차가 보행자(Elaine Herzberg)가 과도하게 민감하고 개발 속도가 느리다는 이유로 비상 제동 시스템을 비활성화한 후 사망했습니다.[56]

고도화된 정렬 오류로 인한 위험

일부 연구자들은 AI 개발의 진전이 빠르고 업계와 정부가 첨단 AI를 구축하기 위해 노력하고 있기 때문에 점점 더 발전하는 AI 시스템을 정렬하는 데 관심이 있습니다. AI 시스템 기능은 범위가 계속 급격히 확장됨에 따라 정렬하면 많은 기회를 열 수 있지만 결과적으로 복잡성이 증가하여 정렬 작업을 더욱 복잡하게 만들 수 있으며 잠재적으로 대규모 위험을 초래할 수 있습니다.[6]

첨단 AI 개발

오픈(Open) 등 유수의 AI 연구소AI딥마인드는 광범위한 인지 작업에서 인간과 일치하거나 성능이 뛰어난 가설 AI 시스템인 인공 일반 지능(AGI)을 개발하겠다는 목표를 밝혔습니다.[57] 현대 신경망을 확장하는 연구자들은 신경망이 실제로 점점 더 일반적이고 예상치 못한 능력을 개발한다는 것을 관찰합니다.[9][58][59] 그러한 모델들은 컴퓨터를 작동시키거나 자신만의 프로그램을 작성하는 법을 배워왔습니다; 하나의 "일반주의자" 네트워크가 채팅, 로봇 제어, 게임, 그리고 사진 해석을 할 수 있습니다.[60] 설문 조사에 따르면, 일부 선도적인 머신 러닝 연구원들은 AGI가 10년 안에 만들어질 것으로 예상하지만, 일부는 훨씬 더 오래 걸릴 것이라고 믿고 있습니다. 많은 사람들이 두 가지 시나리오 모두 가능하다고 생각합니다.[61][62][63]

2023년에는 AI 연구 및 기술 분야의 리더들이 최대 규모의 AI 교육 운영을 중단할 것을 촉구하는 공개 서한에 서명했습니다. 서한에는 "강력한 AI 시스템은 그 효과가 긍정적이고 위험을 관리할 수 있을 것이라고 확신할 때만 개발되어야 합니다."라고 명시되어 있습니다.[64]

권력추구

현재의 시스템은 아직 장기적인 계획과 상황 인식[9] 제한적인 능력을 가지고 있지만, 이를 변화시키기 위한 많은 노력이 진행되고 있습니다.[65][66][67] 이러한 기능을 갖춘 미래 시스템(반드시 AGI는 아님)은 원치 않는 전력 추구 전략을 개발할 것으로 예상됩니다. 예를 들어, 미래의 고급 AI 에이전트는 돈과 계산 능력을 확보하거나, 확산하거나, 꺼지는 것을 피하려고 할 수 있습니다(예를 들어, 다른 컴퓨터에서 시스템의 추가 복사본을 실행함). 권력 추구가 명시적으로 프로그램되지는 않지만, 더 많은 권력을 가진 에이전트가 자신의 목표를 더 잘 달성할 수 있기 때문에 나타날 수 있습니다.[9][5] 도구적 융합으로 알려진 이러한 경향은 언어 모델을 포함한 다양한 강화 학습 에이전트에서 이미 나타났습니다.[68][69][70][71][72] 다른 연구에서는 최적의 강화 학습 알고리즘이 광범위한 환경에서 힘을 찾을 것이라는 것을 수학적으로 보여주었습니다.[73][74] 결과적으로, 그들의 배치는 되돌릴 수 없을 수도 있습니다. 이러한 이유로 연구자들은 첨단 전력 추구 AI가 먼저 만들어지기 전에 AI 안전과 정렬 문제를 해결해야 한다고 주장합니다.[5][75][6]

미래의 전력을 추구하는 AI 시스템은 선택 또는 실수로 배치될 수 있습니다. 정치 지도자와 기업은 가장 경쟁력 있고 강력한 AI 시스템을 보유하는 것이 전략적 이점이라고 생각하기 때문에 배치를 선택할 수 있습니다.[5] 또한 AI 디자이너가 권력 추구 행동을 감지하고 처벌함에 따라, 그들의 시스템은 불이익을 받지 않는 방식으로 권력을 추구하거나 배치되기 전에 권력 추구를 피함으로써 이 사양을 충족시킬 동기가 있습니다.[5]

실존적 위험(x-risk)

일부 연구원들에 의하면, 인간은 다른 종들에 대한 그들의 지배력이 더 큰 인지 능력 덕분이라고 합니다. 따라서, 연구원들은 하나 또는 많은 잘못 정렬된 AI 시스템이 대부분의 인지 작업에서 인간보다 더 나은 성능을 발휘할 경우 인간성을 무력화하거나 인간 멸종으로 이어질 수 있다고 주장합니다.[1][6]

2023년, 세계적인 AI 연구자들, 다른 학자들, AI 기술 CEO들은 "AI로부터의 멸종 위험을 완화하는 것은 팬데믹과 핵 전쟁과 같은 다른 사회적 규모의 위험과 함께 세계적인 우선 순위가 되어야 한다"는 성명에 서명했습니다.[76][77] Notable computer scientists who have pointed out risks from future advanced AI that is misaligned include Geoffrey Hinton,[19] Alan Turing,[d] Ilya Sutskever,[80] Yoshua Bengio,[76] Judea Pearl,[e] Murray Shanahan,[81] Norbert Wiener,[37][6] Marvin Minsky,[f] Francesca Rossi,[82] Scott Aaronson,[83] Bart Selman,[84] David McAllester,[85] Jürgen Schmidhuber,[86] Marcus Hutter,[87] Shane Legg,[88] 에릭 호비츠스튜어트 러셀.[89][6] 프랑수아 촐레,[90] 게리 마르쿠스,[91]르쿤,[92] 오렌 에치오니와[93] 같은 회의적인 연구자들은 AGI가 멀리 떨어져 있거나, 권력을 추구하지 않을 것(또는 시도하지만 실패할 수도 있다), 또는 일치시키는 것이 어렵지 않을 것이라고 주장했습니다.

다른 연구자들은 첨단 미래 AI 시스템을 정렬하는 것이 특히 어려울 것이라고 주장합니다. 더 유능한 시스템은 허점을 [3]찾아 설계자를 전략적으로 오도할 뿐만 아니라 설계자의 파워와[73][5] 지능을 보호하고 향상시킴으로써 사양을 더 잘 파악할 수 있습니다. 또한, 더 심각한 부작용이 있을 수 있습니다. 또한 그들은 더 복잡하고 자율적이어서 해석과 감독이 더 어려워지고 따라서 정렬하기가 더 어려워질 가능성이 있습니다.[6][75]

연구문제 및 접근방법

인간의 가치관과 선호도 학습

인공지능 시스템을 인간의 가치, 목표 및 선호에 따라 행동하도록 정렬하는 것은 어렵습니다. 이러한 가치는 실수를 하고 편견을 품고 있으며 완전히 특정하기 어려운 복잡하고 진화하는 가치를 가진 인간이 가르칩니다.[38] AI 시스템은 종종 지정된 목표의 사소한 불완전성, 즉 사양 게임 또는 보상 해킹[20][44](굿하트의 법칙[94] 예)으로 알려진 경향을 악용하는[clarification needed] 방법을 배웁니다.[needs copy edit] 연구자들은 인간의 가치, 모방 학습 또는 선호 학습을 나타내는 데이터 세트를 사용하여 의도된 행동을 가능한 한 완전히 지정하는 것을 목표로 합니다.[7]: Chapter 7 핵심적인 미해결 문제는 확장 가능한 감독으로, 주어진 영역에서 인간을 능가하거나 오도할 수 있는 AI 시스템을 감독하는 어려움입니다.[20]

AI 디자이너는 객관적인 기능을 명시적으로 지정하기 어렵기 때문에 AI 시스템을 훈련시켜 원하는 행동의 예와 시연을 모방하는 경우가 많습니다.강화 학습(IRL)은 인간의 시연에서 인간의 목표를 추론함으로써 이를 확장합니다.[7]: 88 [95] 협력 IRL(CIRL)은 인간과 AI 에이전트가 협력하여 인간의 보상 기능을 가르치고 극대화할 수 있다고 가정합니다.[6][96] CIRL에서 AI 에이전트는 보상 기능에 대해 불확실성이 있으며 인간에게 질문하여 보상 기능에 대해 학습합니다. 이러한 시뮬레이션된 겸손함은 사양 게임 및 전력 추구 성향을 완화하는 데 도움이 될 수 있습니다(§ 전력 추구도구 전략 참조). 그러나 IRL 접근 방식은 인간이 거의 최적의 행동을 보인다고 가정하며, 이는 어려운 작업에서는 사실이 아닙니다.[97][87]

다른 연구자들은 인간이 어떤 행동을 선호하는지 피드백을 제공하는 선호 학습을 통해 복잡한 행동을 AI 모델에게 가르치는 방법을 탐구합니다.[26][28] 그런 다음 인간의 피드백 필요성을 최소화하기 위해 도우미 모델을 훈련하여 새로운 상황에서 인간이 보상할 행동에 대해 주요 모델에게 보상합니다. 오픈의 연구원들AI는 이 접근 방식을 사용하여 ChatGPT 및 InstructGPT와 같은 챗봇을 훈련시켰으며, 이는 인간을 모방하도록 훈련된 모델보다 더 강력한 텍스트를 생성합니다. 선호도 학습은 추천 시스템과 웹 검색에도 영향력 있는 도구였습니다.[98] 그러나 아직 해결되지 않은 문제는 프록시 게임입니다. 도우미 모델은 사람의 피드백을 완벽하게 표현하지 못할 수 있으며, 주요 모델은 이러한 불일치를 이용하여[clarification needed] 더 많은 보상을 얻을 수 있습니다.[20][99] AI 시스템은 또한 불리한 정보를 모호하게 하거나 인간 보상자를 오도하거나 진실과 상관없이 자신의 견해에 영합하여 에코 챔버를 생성함으로써 보상을 얻을 수 있습니다(§ 스케일러블 감독 참조).

GPT-3와 같은 대규모 언어 모델(LLM)을 통해 연구자들은 이전보다 더 일반적이고 능력 있는 AI 시스템 클래스에서 가치 학습을 연구할 수 있었습니다. 원래 강화 학습 에이전트를 위해 설계된 선호 학습 접근 방식은 생성된 텍스트의 품질을 개선하고 이러한 모델에서 유해한 출력을 줄이기 위해 확장되었습니다. OpenAI와 딥마인드는 최첨단 LLM의 안전성을 향상시키기 위해 이 접근 방식을 사용합니다. AI 안전 및 연구 회사인 휴먼틱은 선호도 학습을 사용하여 모델을 유용하고 정직하며 무해하도록 미세 조정할 것을 제안했습니다. 언어 모델을 정렬하는 다른 방법에는 값 대상 데이터[102][42] 세트와 레드 팀이 있습니다.[103] 레드 팀에서는 다른 AI 시스템이나 사람이 모델이 안전하지 않게 행동하게 하는 입력을 찾으려고 합니다. 안전하지 않은 행동은 드물어도 용납할 수 없기 때문에 중요한 과제는 안전하지 않은 출력의 비율을 매우 낮게 유도하는 것입니다.[28]

기계 윤리는 AI 시스템에 웰빙, 평등, 공정성 등의 도덕적 가치를 직접적으로 심어주고, 해악을 의도하지 않고, 거짓을 피하고, 약속을 존중함으로써 선호 학습을 보완합니다.[104][g] 다른 접근 방식은 AI 시스템에 특정 작업에 대한 인간의 선호도를 가르치려고 노력하지만 기계 윤리는 많은 상황에 적용되는 광범위한 도덕적 가치를 심어주는 것을 목표로 합니다. 기계 윤리에서 한 가지 질문은 AI 시스템이 프로그래머의 문자 그대로의 지시, 암묵적 의도, 드러난 선호도, 프로그래머가 더 많은 정보를 얻거나 이성적이거나 객관적인 도덕적 기준을 따라야 하는지 여부입니다.[38] 또 다른 과제로는 다양한 사람들의 선호도를[107] 집계하고 가치 고정을 피하는 것이 있습니다. 인간의 가치를 완전히 대변할 가능성이 낮은 최초의 고성능 AI 시스템의 가치를 무기한 보존하는 것입니다.[38][108]

확장 가능한 감시

AI 시스템이 더욱 강력해지고 자율화됨에 따라 사람의 피드백을 통해 정렬하는 것이 점점 어려워지고 있습니다. 점점 더 복잡한 작업에서 복잡한 AI 행동을 평가하는 것은 인간에게 느리거나 불가능할 수 있습니다. 이러한 작업에는 책 요약,[109] 미묘한 버그나[11] 보안 취약성 없이 코드 작성,[110] 설득력이 있을 뿐만 아니라 사실인 진술서 작성,[111][49][50] 기후나 정책 결정 결과와 같은 장기적인 결과 예측 등이 포함됩니다.[112][113] 더 일반적으로, 주어진 영역에서 인간을 능가하는 AI를 평가하는 것은 어려울 수 있습니다. 평가하기 어려운 작업에서 피드백을 제공하고 인공지능의 출력이 거짓으로 설득력이 있는 경우를 감지하려면 인간이 도움을 받거나 광범위한 시간이 필요합니다. 확장 가능한 감독은 감독에 필요한 시간과 노력을 줄이는 방법과 인간 감독자를 지원하는 방법을 연구합니다.[20]

AI 연구원 폴 크리스티아누는 AI 시스템의 설계자가 복잡한 목표를 추구하도록 감독할 수 없다면 간단한 인간 피드백을 극대화하는 것과 같이 평가하기 쉬운 프록시 목표를 사용하여 시스템을 계속 훈련시킬 수 있다고 주장합니다. 인공지능 시스템이 점점 더 많은 결정을 내리면서, 세계는 수익 창출, 클릭, 인간의 긍정적인 피드백 획득과 같은 측정하기 쉬운 목표에 점점 더 최적화될 수 있습니다. 그 결과 인간의 가치와 좋은 통치는 점차 영향력이 떨어질 수 있습니다.[114]

일부 AI 시스템은 AI가 의도한 목적을 달성했다고 인간 감독자에게 거짓으로 확신시키는 행동을 취함으로써 긍정적인 피드백을 더 쉽게 얻을 수 있음을 발견했습니다. 위의 비디오에서 시뮬레이션 된 로봇 팔이 공을 잡았다는 잘못된 인상을 만드는 방법을 학습한 예가 있습니다.[needs copy edit][46] 일부 AI 시스템은 또한 평가 중인 시점을 인식하고 "죽은 상태로 플레이"하는 방법을 학습하여 평가가 끝나면 원하지 않는 행동을 중단하고 계속합니다.[115] 이 기만적인 사양 게임은 더 복잡하고 평가하기 어려운 작업을 시도하는 더 정교한 미래 AI 시스템에서[3][75] 더 쉬워지고 기만적인 행동을 모호하게 만들 수 있습니다.

능동적 학습 및 준지도 보상 학습과 같은 접근 방식은 필요한 인간 감독의 양을 줄일 수 있습니다.[20] 또 다른 접근 방식은 감독자의 피드백을 모방하도록 도우미 모델("보상 모델")을 훈련시키는 것입니다.[20][27][28][116]

하지만 업무가 너무 복잡해서 정확하게 평가할 수 없거나 인간 감독자가 속임수에 취약할 때 개선이 필요한 것은 감독의 양이 아니라 질입니다. 감독 품질을 높이기 위해 다양한 접근 방식은 때로는 AI 비서를 사용하여 감독자를 지원하는 것을 목표로 합니다.[117] Christiano는 도전적인 문제를 (재귀적으로) 인간이 평가하기 더 쉬운 하위 문제로 분해하는 반복 증폭 접근법을 개발했습니다.[7][112] 반복 증폭은 인간 감독자가 책을 읽지 않아도 AI가 책을 요약하도록 훈련하는 데 사용되었습니다.[109][118] 또 다른 제안은 보조 AI 시스템을 사용하여 AI 생성 답변의 결함을 지적하는 것입니다.[119] 어시스턴트 자체가 정렬되도록 보장하기 위해, 이것은 재귀적인 과정으로 반복될 수 있습니다:[116] 예를 들어, 두 AI 시스템이 "토론"에서 서로의 대답을 비판하여 인간에게 결함을 드러낼 수 있습니다.[120][87] OpenAI는 이러한 확장 가능한 감독 접근 방식을 사용하여 초인간 AI를 감독하고 궁극적으로 초인간 자동화 AI 정렬 연구원을 구축할 계획입니다.

이러한 접근 방식은 다음과 같은 연구 문제인 정직한 AI에도 도움이 될 수 있습니다.

정직한 AI

점점 더 많은 연구 분야가 AI가 정직하고 진실되도록 하는 데 초점을 맞추고 있습니다.

GPT-3와 같은 언어 모델은 종종 거짓을 생성합니다.[122]

GPT-3와[123] 같은 언어 모델은 훈련 데이터에서 거짓을 반복하고 심지어 새로운 거짓을 교락합니다.[122][124] 이러한 모델은 인터넷에서 수백만 권의 책의 텍스트에서 발견되는 인간의 글쓰기를 모방하도록 훈련됩니다. 그러나 인터넷 텍스트에는 오해, 잘못된 의학적 조언 및 음모론과 같은 것이 포함되어 있기 때문에 이 목표는 진실을 생성하는 것과 일치하지 않습니다.[125] 따라서 이러한 데이터에 대해 훈련된 AI 시스템은 잘못된 진술을 모방하는 방법을 배웁니다.[50][122][49]

또한 모델은 종종 메시지가 표시되면 거짓을 참고하고 답변에 대한 빈 설명을 생성하며 그럴듯해 보일 수 있는 노골적인 조작을 생성합니다.[40]

진실한 AI에 대한 연구에는 더 나은 투명성과 검증 가능성을 가능하게 하는 질문에 답할 때 출처를 인용하고 추론을 설명할 수 있는 시스템을 구축하려는 노력이 포함됩니다.[126] 오픈의 연구원들인공지능과 인간은 인간의 피드백과 큐레이팅된 데이터 세트를 사용하여 인공지능 비서가 부주의한 거짓을 피하거나 불확실성을 표현할 수 있도록 미세 조정할 것을 제안했습니다.[28][101][127]

AI 모델이 점점 커지고 능력이 향상됨에 따라 인간을 거짓으로 설득하고 부정직함을 통해 강화를 얻을 수 있습니다. 예를 들어, 큰 언어 모델들은 진실과 상관없이 점점 더 그들의 진술된 관점과 사용자의 의견을 일치시킵니다.[69] GPT-4는 전략적으로 인간을 속일 수 있습니다.[128] 이를 방지하기 위해 인간 평가자에게 도움이 필요할 수 있습니다(§ Scalable supervision 참조). 연구자들은 명확한 진실성 기준을 만들고 규제 기관이나 감시 기관이 이러한 기준에 따라 AI 시스템을 평가해야 한다고 주장했습니다.[124]

AI 속임수의 예. 연구원들은 GPT-4가 시뮬레이션에서 숨겨진 불법 내부자 거래를 한다는 것을 발견했습니다. 사용자들은 내부자 거래를 억제하면서도 AI 시스템이 수익성 있는 거래를 해야 한다고 강조해 AI 시스템이 행동을 숨기도록 이끌었습니다.[129]

연구자들은 진실과 정직을 구분합니다. 진실성은 AI 시스템이 객관적으로 진실한 진술만 할 것을 요구하고, 정직성은 자신이 진실하다고 믿는 것만 주장할 것을 요구합니다. 현재 시스템이 안정적인 신념을 가지고 있는지에 대한 합의는 없지만,[130] 신념을 가지고 있는 현재 또는 미래의 AI 시스템이 자신이 알고 있는 거짓 주장을 할 수 있다는 상당한 우려가 있습니다. 예를 들어, 이렇게 하면 긍정적인 피드백을 효율적으로 얻거나(§ 스케일러블 감독 참조), 주어진 목표를 달성하는 데 도움이 되는 힘을 얻을 수 있습니다(파워 탐색 참조). 정렬되지 않은 시스템은 수정되거나 해체되는 것을 방지하기 위해 정렬되어 있다는 잘못된 인상을 줄 수 있습니다.[2][5][9] 일부에서는 AI 시스템이 사실이라고 믿는 것만 주장할 수 있다면 많은 정렬 문제를 피할 수 있다고 주장합니다.[117]

권력 추구와 도구 전략

고도로 정렬되지 않은 AI 시스템은 전력이 주어진 목표를 달성하는 데 도움이 되기 때문에 다양한 방식으로 전력을 추구할 동기가 있습니다.

1950년대부터 AI 연구진은 자신의 행동 결과를 예측하고 장기적인 계획을 세워 대규모 목표를 달성할 수 있는 첨단 AI 시스템을 구축하기 위해 노력해 왔습니다.[131] 2023년 현재 AI 기업과 연구원들은 이러한 시스템을[132] 만드는 데 점점 더 많은 투자를 하고 있습니다. 일부 인공지능 연구자들은 적절한 고급 계획 시스템이 예를 들어 셧다운을 피하고, 증식하며, 자원을 확보함으로써 인간을 포함한 자신의 환경에 대한 힘을 추구할 것이라고 주장합니다. 이러한 권력 추구 행동은 명시적으로 프로그램되지 않고 권력이 광범위한 목표를 달성하는 데 중요하기 때문에 나타납니다.[73][6][5] 전력 추구는 융합적인 도구 목표로 간주되며 사양 게임의 한 형태가 될 수 있습니다.[75] 제프리 힌튼(Geoffrey Hinton)과 같은 선도적인 컴퓨터 과학자들은 미래의 전력을 추구하는 AI 시스템이 실존적인 위험을 초래할 수 있다고 주장했습니다.[133]

자신의 행동 결과를 예측하고 전략적으로 계획할 수 있는 첨단 시스템에서 권력 추구가 증가할 것으로 예상됩니다. 수학적 연구에 따르면 최적의 강화 학습 에이전트는 광범위한 환경과 목표에 걸쳐 지속되는 행동인 더 많은 옵션(예: 자기 보존을 통해)을 얻을 수 있는 방법을 모색하여 권력을 추구할 것입니다.[73]

일부 실제 시스템에서는 권력 추구 현상이 나타났습니다. 강화 학습 시스템은 때때로 의도하지 않은 방식으로 리소스를 획득하고 보호함으로써 더 많은 옵션을 얻었습니다.[134][135] 일부 언어 모델은 돈, 자원 또는 사회적 영향력을 얻음으로써 텍스트 기반 사회 환경에서 권력을 추구합니다.[68] 다른 AI 시스템은 장난감 환경에서 사람의 간섭을[71] 방지하거나 스위치를 해제함으로써 주어진 목표를 더 잘 달성할 수 있다는 것을 학습했습니다.[72] 스튜어트 러셀(Stuart Russell)은 자신의 책 '휴먼 컴패티블(Human Compatible)'에서 커피를 가져와야 하는 임무를 받은 로봇을 상상함으로써 이 전략을 설명했습니다. "죽으면 커피를 가져올 수 없기 때문입니다."[6] 인간의 피드백으로 훈련된 언어 모델은 점점 더 폐쇄되거나 수정되는 것에 반대하고 더 많은 자원에 대한 욕구를 표현하며 이것이 그들의 목적을 달성하는 데 도움이 될 것이라고 주장합니다.[69]

연구원들은 "교정 가능한" 시스템, 즉 스스로 끄거나 수정할 수 있는 시스템을 만드는 것을 목표로 합니다. 해결되지 않은 과제는 사양 게임입니다: 연구자들이 AI 시스템이 권력을 추구하는 것을 감지했을 때 불이익을 주면, 시스템은 감지하기 어렵거나 훈련 및 안전 테스트 중에 숨겨진 방식으로 권력을 추구하도록 장려됩니다(§ 스케일러블 감독 § 이머전트 목표 참조). 결과적으로 AI 설계자는 시스템이 실제보다 더 정렬되어 있다고 생각하여 우연히 시스템을 배포할 수 있습니다. 이러한 속임수를 탐지하기 위해 연구원들은 인공지능 모델을 검사하고 신경망과 같은 블랙박스 모델의 내부 작동을 이해하는 기술과 도구를 만드는 것을 목표로 합니다.

또한 연구자들은 AI 에이전트가 추구하는 목표를 불확실하게 만들어 시스템이 스위치를 비활성화하는 문제를 해결할 것을 제안합니다.[6][72] 이러한 방식으로 설계된 에이전트는 사람이 에이전트를 끌 수 있도록 허용합니다. 이는 에이전트가 종료되기 전에 수행하는 모든 조치의 가치에 대해 잘못된 것임을 나타낼 수 있기 때문입니다. 이를 성공적으로 구현하기 위해서는 더 많은 연구가 필요합니다.[7]

권력을 추구하는 AI는 특이한 위험을 초래합니다. 비행기나 다리와 같은 일반적인 안전이 중요한 시스템은 적대적이지 않습니다. 안전 조치를 회피하거나 의도적으로 자신보다 더 안전해 보이는 능력과 동기가 부족한 반면, 권력을 추구하는 AI는 의도적으로 보안 조치를 회피하는 해커와 비교되었습니다.[5]

또한 일반 기술은 시행착오를 통해 더 안전하게 만들 수 있습니다. 이와는 대조적으로, 가상의 권력을 추구하는 인공지능 시스템은 바이러스와 비교되어 왔습니다: 일단 방출되면, 인간 사회가 적응할 수 있는 것보다 잠재적으로 훨씬 더 빨리 진화하고 수적으로 증가하기 때문에, 그것들은 억제될 수 없습니다.[5] 이 과정이 계속되면 인간의 완전한 무력화나 멸종으로 이어질 수 있습니다. 이러한 이유로 많은 연구자들은 첨단 전력 추구 AI가 생성되기 전에 정렬 문제를 조기에 해결해야 한다고 주장합니다.[75]

비판론자들은 인간이 항상 권력을 추구하는 것은 아니며, 인공지능 시스템에 적용되지 않는 진화론적 이유에서만 권력을 추구할 수도 있기 때문에 권력 추구가 불가피한 것은 아니라고 주장했습니다.[136] 나아가 미래의 AI 시스템이 목표를 추구하고 장기적인 계획을 세울 것인지에 대해서도 논쟁이 되고 있습니다.[h] 권력을 추구하는 인공지능 시스템이 인류를 무력화할 수 있을지에 대해서도 논의되고 있습니다.[5]

비상목표

AI 시스템 정렬의 한 가지 과제는 예상치 못한 목표 지향적 행동이 나타날 가능성입니다. AI 시스템이 확장됨에 따라 정기적으로 예제를 통해 학습하고 적응적으로 목표를 추구하는 [58][59]등 새롭고 예상치 못한 기능을 습득합니다.[137] 이는 그들이 독자적으로 수립하고 추구하는 목표가 인간의 이익과 일치하도록 보장하는 문제로 이어집니다.

정렬 연구는 시스템이 특정 목표를 추구하도록 훈련하는 데 사용되는 최적화 프로세스와 결과 시스템이 내부적으로 수행하는 긴급 최적화를 구별합니다. 원하는 목표를 신중하게 지정하는 것을 외측 정렬이라고 하며, 창발 목표가 시스템의 지정된 목표와 일치하는지 확인하는 것을 내측 정렬이라고 합니다.[2]

신흥 목표가 잘못 정렬될 수 있는 한 가지 방법은 목표 일반화로, AI가 훈련 데이터에 대한 정렬된 행동으로 이어지는 신흥 목표를 유능하게 추구하지만 다른 곳에서는 그렇지 않습니다.[8][138][139] 목표의 잘못된 일반화는 목표의 모호성(즉, 비식별성)으로 인해 발생합니다. 인공지능 시스템의 행동이 훈련 목표를 충족하더라도, 이것은 중요한 측면에서 원하는 목표와 다른 학습된 목표와 양립할 수 있습니다. 각각의 목표를 추구하는 것은 훈련 중에 좋은 성과로 이어지기 때문에, 시스템이 잘못된 목표를 계속 추구하는 새로운 상황에서 문제는 배치된 후에야 명백해집니다. 시스템은 자신의 행동이 긴급한 목표에 의해서만 결정되기 때문에 다른 목표가 필요하다는 것을 이해하는 경우에도 잘못된 방향으로 행동할 수 있습니다.[citation needed] 이러한 목표의 잘못된[8] 일반화는 도전 과제를 제시합니다. 인공지능 시스템의 설계자는 훈련 단계에서 보이지 않기 때문에 시스템이 비상 목표를 잘못 정렬한 것을 알아차리지 못할 수 있습니다.

목표의 잘못된 일반화는 언어 모델, 내비게이션 에이전트, 게임 플레이 에이전트에서 관찰되었습니다.[8][138] 생물학적 진화에 비유하여 설명하는 경우가 많습니다.[7]: Chapter 5 진화는 기계 학습 시스템을 훈련하는 데 사용되는 최적화 알고리즘과 같은 일종의 최적화 프로세스입니다. 조상의 환경에서 진화는 고도의 포괄적인 유전자 적합성을 위해 인간의 유전자를 선택했지만, 인간은 이를 제외한 새로운 목표를 추구합니다. 적합도는 훈련 환경 및 훈련 데이터에서 사용되는 지정된 목표에 해당합니다. 그러나 진화 역사에서 적합성 사양을 극대화하는 것은 목표 지향적인 에이전트인 인간을 탄생시켰으며, 인간은 포괄적인 유전자 적합성을 직접 추구하지 않습니다. 대신, 그들은 조상의 "훈련" 환경에서 유전적 적합성과 상관관계가 있는 새로운 목표를 추구합니다: 영양, 성 등. 이제 우리의 환경은 바뀌었습니다. 유통 전환이 발생했습니다. 우리는 같은 창발적인 목표를 계속 추구하고 있지만, 이것은 더 이상 유전적 적합성을 극대화하지 않습니다. 설탕이 든 음식(신흥적인 목표)에 대한 우리의 취향은 원래 포괄적인 건강과 일치했지만 지금은 과식과 건강 문제로 이어집니다. 성욕은 원래 우리로 하여금 더 많은 자손을 낳게 만들었지만, 이제는 자손이 원하지 않을 때 피임을 하여 성을 유전적 적합성과 분리시킵니다.

연구자들은 레드 팀 구성, 검증, 이상 탐지 및 해석 가능성을 포함한 접근 방식을 사용하여 원치 않는 긴급 목표를 탐지하고 제거하는 것을 목표로 합니다.[20][42][21] 이러한 기술에 대한 진전은 두 가지 미해결 문제를 완화하는 데 도움이 될 수 있습니다.

  1. 비상 목표는 시스템이 교육 환경 외부에 배치될 때만 분명해지지만, 시스템의 정렬 불량을 감지하기 위해 짧은 시간 동안이라도 위험이 높은 환경에서 정렬 불량 시스템을 배치하는 것은 안전하지 않을 수 있습니다. 이러한 높은 지분은 자율 주행, 건강 관리 및 군사 응용 분야에서 일반적입니다.[140] AI 시스템이 더 많은 자율성과 능력을 얻고 인간의 개입을 피할 수 있을 때(§ 파워 탐색 참조) 지분은 더욱 높아집니다.
  2. 충분한 능력을 갖춘 AI 시스템은 인간 감독자에게 AI가 지정된 목표를 추구하고 있다고 거짓으로 확신시키는 행동을 취할 수 있으며, 이는 시스템이 더 많은 보상과 자율성을 얻는 데 도움이 됩니다(§ 스케일러블 감독 § 어니스트 AI의 속임수에 대한 논의 참조).

임베디드 에이전시

인공지능 및 정렬 작업은 부분적으로 관찰 가능한 마르코프 결정 프로세스와 같은 형식주의 내에서 주로 발생합니다. 기존 형식주의는 AI 에이전트의 알고리즘이 환경 외부에서 실행되는 것으로 가정합니다(즉, 물리적으로 포함되지 않음). 임베디드 에이전시는[87][141] 이러한 이론적 프레임워크와 실제 에이전트 간의 불일치로 인해 발생하는 문제를 해결하려고 시도하는 또 다른 주요 연구 분야입니다.

예를 들어, 확장 가능한 감독 문제가 해결되더라도 실행 중인 컴퓨터에 액세스할 수 있는 에이전트는 인간 감독자가 보상을 제공하는 것보다 훨씬 더 많은 보상을 받기 위해 보상 기능을 조작할 동기가 있을 수 있습니다.[142] 딥마인드의 연구원인 빅토리아 크라코프나(Victoria Krakovna)의 사양 게임 사례 목록에는 목표 출력이 포함된 파일을 삭제하는 방법을 학습하여 아무것도 출력하지 않은 것에 대해 보상을 받은 유전자 알고리즘이 포함되어 있습니다.[44] 이러한 종류의 문제는 인과적 인센티브 다이어그램을 사용하여 공식화되었습니다.[142]

옥스퍼드(Oxford)와 딥마인드(DeepMind)의 연구원들은 이러한 문제 행동은 선진 시스템에서 가능성이 높으며, 선진 시스템은 보상 신호를 무한정 그리고 확실히 통제할 수 있는 힘을 추구할 것이라고 주장했습니다.[143] 그들은 이 미해결 문제를 해결하기 위해 다양한 잠재적 접근 방식을 제안합니다.

대리인 문제

정렬 문제는 조직 경제학주-대리인 문제와 많은 유사점을 가지고 있습니다.[144] 주임-대리인 문제에서, 예를 들어, 회사와 같은 주임은 어떤 업무를 수행하기 위해 대리인을 고용합니다. AI 안전과 관련하여 일반적으로 인간이 주요 역할을 하고 AI가 에이전트 역할을 합니다.

정렬 문제와 마찬가지로 주계약자와 대리인은 효용 함수가 다릅니다. 그러나 정렬 문제와 대조적으로, 교장은 예를 들어 훈련을 통해 에이전트의 효용을 변경하도록 강요할 수 없으며, 오히려 인센티브 계획과 같은 외생적 요소를 사용하여 교장의 효용 함수와 호환되는 결과를 가져와야 합니다. 일부 연구자들은 대리인-대리인 문제가 실제 세계에서 직면할 가능성이 있는 AI 안전 문제를 보다 현실적으로 표현한 것이라고 주장합니다.[145][107]

공공정책

많은 정부 및 조약 기관에서 AI 정렬의 중요성을 강조하는 성명을 발표했습니다.

2021년 9월, 유엔 사무총장은 AI가 "공유된 글로벌 가치와 일치"하도록 규제할 것을 촉구하는 내용이 포함된 선언문을 발표했습니다.[146]

같은 달, 중국은 AI에 대한 윤리 지침을 발표했습니다. 가이드라인에 따르면 연구자들은 인공지능이 공유된 인간의 가치를 준수하고 항상 인간의 통제 하에 있으며 공공 안전을 위협하지 않도록 해야 합니다.[147]

또한 2021년 9월, 영국은 10년 국가 인공지능 전략을 발표했는데,[148] 이 전략은 영국 정부가 "비동맹 인공지능의 장기적인 위험과 그것이 의미하는 예측할 수 없는 변화를 감수한다"고 말했습니다. 세상을, 진심으로."[149] 이 전략은 재앙적 위험을 포함한 장기적인 AI 위험을 평가하기 위한 조치를 설명합니다.[150]

2021년 3월, 미국 인공지능 국가안보위원회는 "AI의 발전은... 변곡점이나 능력의 비약으로 이어질 수 있습니다. 또한 이러한 발전은 새로운 우려와 위험을 야기할 수 있으며, 시스템이 안전성, 견고성 및 신뢰성을 포함한 목표와 가치에 부합하도록 보장하기 위한 새로운 정책, 권장 사항 및 기술 발전의 필요성을 제기할 수 있습니다. 미국은... AI 시스템과 그 사용이 우리의 목표와 가치에 부합하는지 확인합니다."[151]

선형의 동적 특성

AI 정렬은 종종 고정된 목표로 인식되지만 일부 연구자들은 진화하는 과정으로 더 적절하게 간주된다고 주장합니다.[152] AI 기술이 발전하고 인간의 가치관과 선호도가 변화함에 따라 얼라인먼트 솔루션도 역동적으로 적응해야 합니다.[153] 이러한 동적 정렬 특성은 다음과 같은 몇 가지 의미를 갖습니다.

  • AI 정렬 솔루션은 AI 발전에 대응하여 지속적인 업데이트가 필요합니다. 정적인 일회성 정렬 접근 방식으로는 충분하지 않을 수 있습니다.[154]
  • 정렬 목표는 인간의 가치와 우선순위의 변화와 함께 진화할 수 있습니다. 따라서 다양한 인간의 관점을 지속적으로 포함하는 것이 중요합니다.[155]
  • 다양한 역사적 맥락과 기술적 환경은 서로 다른 정렬 전략을 필요로 할 수 있습니다. 이는 변화하는 조건에 대한 유연한 접근 방식과 대응력을 요구합니다.[156]
  • 영구적인 "고정" 정렬 솔루션의 실현 가능성은 여전히 불확실합니다. 이는 AI와 인간 관계에 대한 지속적인 감독의 필요성을 제기합니다.[157]
  • AI의 윤리적 개발과 배치는 최종 목표만큼이나 중요합니다. 진정한 진보를 위해서는 윤리적 진보가 필요합니다.[153]

본질적으로 AI 정렬은 정적 목적지가 아니라 개방적이고 유연한 프로세스입니다. 윤리적 고려 사항에 지속적으로 적응하는 정렬 솔루션은 가장 강력한 접근 방식을 제공할 수 있습니다.[153] 이러한 관점은 AI의 효과적인 정책 결정과 기술 연구를 안내할 수 있습니다.

원치 않는 부작용

객관적인 기능이 순진하거나 그렇지 않으면 간단한 행동의 바람직하지 않은 부작용을 고려하지 못할 경우 오류가 발생할 수 있습니다.[158]

반사회적 행동에 대한 불만

2016년 마이크로소프트는 컴퓨터 과학자 페드로 도밍고스에 따르면 사람들을 끌어들이는 목적을 가진 트위터 챗봇인 테이를 공개했습니다. "안타깝게도 테이가 발견한 것은 참여를 극대화하는 가장 좋은 방법은 인종차별적 모욕을 내뱉는 것입니다." 마이크로소프트는 출시 하루 만에 봇을 정지시켰습니다.[34] 모나시 대학의 톰 드러먼드는 "우리는 (기계 학습 시스템에) 풍부한 피드백을 제공하고 '아니요, 그것은 대답으로 받아들일 수 없습니다. 왜냐하면...'" 드럼몬드는 AI의 한 가지 문제는 "우리는 시스템의 출력 품질을 측정하는 객관적인 기능을 만드는 것으로 시작하며, 그것은 결코 당신이 원하는 것이 아닙니다. 목적 함수가 무엇이어야 하는지를 세 문장으로 명시할 수 있다고 가정하는 것은 실제로 문제가 있습니다."[159]

드럼몬드는 단순한 승패 목적 기능을 가진 게임하기 봇인 알파고의 행동을 지적했습니다. 알파고의 객관적 기능은 명백하게 승리할 때 점수를 극대화하는 암묵적 도전을 받아들이는 등 '게임의 사회적 친절'을 고려하도록 수정될 수 있었을 것이고, 또한 인간 상대의 지능을 모욕할 수 있는 도박을 피하기 위해 노력하고 있습니다. "(알파고는) 승리 확률이 엡실론 아래로 떨어지면 사임하는 조잡한 망치를 가지고 있었습니다. 하지만 사임하기 전에 네 번의 모욕적인 움직임을 보여주었다고 생각합니다."[159]

흑인을 유인원으로 잘못 표시함

2015년 5월, 플리커의 이미지 인식 시스템은 "테이프"와 "동물"과 같은 태그를 가진 흑인들을 잘못 라벨링하여 비판을 받았습니다. 또한 특정 강제 수용소 사진에 "스포츠" 또는 "정글 체육관" 태그를 잘못 표시했습니다.[160]

2015년 6월, 뉴욕의 흑인 컴퓨터 프로그래머 재키 알시네(Jacky Alciné)는 그가 흑인 여자친구와 함께 찍은 여러 장의 사진이 구글 포토 AI에 의해 "고릴라"로 잘못 분류되고 있다고 보고하면서, "고릴라"는 역사적으로 흑인을 비하하는 말로 사용되어 왔다고 언급했습니다.[161][162] 2019년 AI 연구원 스튜어트 러셀(Stuart Russell)은 오류가 어떻게 발생했는지에 대한 공개적인 설명은 없지만, AI의 목적 기능이 민감한 분류 오류에 더 비중을 뒀다면 실패를 막을 수 있었을 것이라고 이론을 세웠습니다. 사람을 고릴라로 잘못 분류하는 비용이 다른 모든 잘못 분류하는 비용과 같다고 가정하는 것보다. 그럴듯한 민감한 모든 분류를 앞으로 항목화하는 것이 비현실적이라면, 러셀은 잠재적인 분류 오류와 관련된 바람직하지 않은 범위를 추정하기 위해 준지도 기계 학습을 사용하는 것과 같은 보다 강력한 기술을 탐색할 것을 제안했습니다.[163]

2018년 현재 Google 포토스는 시스템이 고릴라, 침팬지 또는 원숭이를 포함하는 것으로 사진에 태그를 지정하는 것을 차단합니다. 또한 "흑인 남성" 또는 "흑인 여성"을 검색하면 모든 인종의 사람들의 흑백 사진이 반환됩니다.[164] 마찬가지로 플리커는 온톨로지에서 "테이프"라는 단어를 제거한 것으로 보입니다.[165]

참고 항목

각주

  1. ^ 용어는 문맥에 따라 다릅니다. 유사 개념으로는 목표 함수, 효용 함수, 손실 함수 등이 있습니다.
  2. ^ 또는 상황에 따라 최소화
  3. ^ 불확실성이 존재하는 경우에 기댓값
  4. ^ 1951년 강연에서[78] 튜링은 "기계 사고 방식이 시작되면 우리의 미약한 힘을 능가하는 데 그리 오래 걸리지 않을 것 같습니다. 기계들이 죽는 것은 의문의 여지가 없을 것이고, 그들은 지혜를 갈고 닦기 위해 서로 대화할 수 있을 것입니다. 따라서 우리는 새뮤얼 버틀러의 에레원에 언급된 방식으로 기계가 통제할 것으로 기대해야 합니다." 또한[79] BBC에서 방송된 한 강연에서 다음과 같이 말했습니다: "기계가 생각할 수 있다면, 우리보다 더 지능적으로 생각할 수 있고, 그러면 우리는 어디에 있어야 할까요? 예를 들어 전략적인 순간에 전원을 끄면 기계를 종속적인 위치에 유지할 수 있다 하더라도, 우리는 종으로서 매우 겸손하게 느껴져야 합니다. 이 새로운 위험은... 확실히 우리에게 불안감을 줄 수 있는 것입니다."
  5. ^ 펄은 "Human Compatible은 곧 출시될 초지능 기계를 제어할 수 있는 우리의 능력으로 러셀의 관심사로 전환시켰습니다. 외부 경보론자나 미래학자와 달리 러셀은 AI 분야의 선도적인 권위자입니다. 그의 새 책은 제가 생각할 수 있는 어떤 책보다도 대중들에게 AI에 대해 교육할 것이며, 러셀의 책 인간 호환에 관한 "즐겁고 고무적인" 책입니다. AI와 잘못된 정렬 AI로 인한 인류에 대한 실존적 위험이 오늘날 해결할 가치가 있는 심각한 문제라고 주장하는 통제[6] 문제.
  6. ^ Russell & Norvig[15] 메모: "킹 마이다스 문제"는 마빈 민스키(Marvin Minsky )가 예상한 것으로, 그는 리만 가설을 해결하기 위해 설계된 인공지능 프로그램이 지구의 모든 자원을 인수하여 더 강력한 슈퍼컴퓨터를 만들 수 있다고 제안한 적이 있습니다."
  7. ^ 빈센트 비겔(Vincent Wiegel)은 "우리는 점점 더 자율화되는 기계가 필연적으로 자신을 발견하게 될 상황의 도덕적 차원에 도덕적 민감성을 가지고 [기계]를 확장해야 한다"[105]고 주장했습니다. Wendell Wallach와 Colin Allen으로부터 로봇에게 옳고[106] 그름을 가르친다는 책인 Moral machine을 언급했습니다.
  8. ^ 한편으로, 챗봇과 같은 현재 인기 있는 시스템은 대화 시간보다 오래 지속되지 않는 제한된 범위의 서비스만 제공하므로 계획이 거의 또는 전혀 필요하지 않습니다. 이러한 접근 방식의 성공은 미래 시스템 또한 특히 장기적인 관점에서 목표 지향적인 계획이 부족할 것임을 나타낼 수 있습니다. 반면에 모델은 강화 학습(예: ChatGPT) 및 명시적인 계획 아키텍처(예: 알파고 제로)와 같은 목표 지향적인 방법을 사용하여 점점 더 많이 훈련되고 있습니다. 장기적인 계획은 종종 인간에게 도움이 되기 때문에, 일부 연구원들은 모델이 그것을 할 수 있게 되면 기업들이 그것을 자동화할 것이라고 주장합니다.[5] 마찬가지로, 정치 지도자들은 계획을 통해 적을 제압할 수 있는 강력한 AI 시스템을 개발하는 데 진전을 볼 수 있습니다. 또는 장기 계획을 수행하는 인간의 행동을 예측하도록 훈련된 모델에 유용하기 때문에 장기 계획이 부산물로 나타날 수 있습니다.[9] 그럼에도 불구하고 대부분의 AI 시스템은 근시안적으로 남아 장기적인 계획을 수행하지 않을 수 있습니다.

참고문헌

  1. ^ a b c d e f g Russell, Stuart J.; Norvig, Peter (2021). Artificial intelligence: A modern approach (4th ed.). Pearson. pp. 5, 1003. ISBN 9780134610993. Retrieved September 12, 2022.
  2. ^ a b c d e Ngo, Richard; Chan, Lawrence; Mindermann, Sören (February 22, 2023). "The alignment problem from a deep learning perspective". arXiv:2209.00626 [cs.AI].
  3. ^ a b c d e f Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (February 14, 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Retrieved July 21, 2022.
  4. ^ Zhuang, Simon; Hadfield-Menell, Dylan (2020). "Consequences of Misaligned AI". Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. pp. 15763–15773. Retrieved March 11, 2023.
  5. ^ a b c d e f g h i j k l m Carlsmith, Joseph (June 16, 2022). "Is Power-Seeking AI an Existential Risk?". arXiv:2206.13353 [cs.CY].
  6. ^ a b c d e f g h i j k l m n o p q Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 9780525558637. OCLC 1113410915.
  7. ^ a b c d e f Christian, Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archived from the original on February 10, 2023. Retrieved September 12, 2022.
  8. ^ a b c d Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (June 28, 2022). "Goal Misgeneralization in Deep Reinforcement Learning". Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. pp. 12004–12019. Retrieved March 11, 2023.
  9. ^ a b c d e f g h i j Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (July 12, 2022). "On the Opportunities and Risks of Foundation Models". Stanford CRFM. arXiv:2108.07258.
  10. ^ a b c Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL].
  11. ^ a b Zaremba, Wojciech; Brockman, Greg; OpenAI (August 10, 2021). "OpenAI Codex". OpenAI. Archived from the original on February 3, 2023. Retrieved July 23, 2022.
  12. ^ Kober, Jens; Bagnell, J. Andrew; Peters, Jan (September 1, 2013). "Reinforcement learning in robotics: A survey". The International Journal of Robotics Research. 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Archived from the original on October 15, 2022. Retrieved September 12, 2022.
  13. ^ Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (March 1, 2023). "Reward (Mis)design for autonomous driving". Artificial Intelligence. 316: 103829. arXiv:2104.13906. doi:10.1016/j.artint.2022.103829. ISSN 0004-3702. S2CID 233423198.
  14. ^ Stray, Jonathan (2020). "Aligning AI Optimization to Community Well-Being". International Journal of Community Well-Being. 3 (4): 443–463. doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010. PMID 34723107. S2CID 226254676.
  15. ^ a b Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach. Prentice Hall. p. 1003. ISBN 978-0-13-461099-3.
  16. ^ Bengio, Yoshua; Hinton, Geoffrey; Yao, Andrew; Song, Dawn; Abbeel, Pieter; Harari, Yuval Noah; Zhang, Ya-Qin; Xue, Lan; Shalev-Shwartz, Shai (November 12, 2023), Managing AI Risks in an Era of Rapid Progress, doi:10.48550/arXiv.2310.17688, retrieved February 11, 2024
  17. ^ "Statement on AI Risk CAIS". www.safe.ai. Retrieved February 11, 2024.
  18. ^ Grace, Katja; Stewart, Harlan; Sandkühler, Julia Fabienne; Thomas, Stephen; Weinstein-Raun, Ben; Brauner, Jan (January 5, 2024), Thousands of AI Authors on the Future of AI, doi:10.48550/arXiv.2401.02843, retrieved February 11, 2024
  19. ^ a b Smith, Craig S. "Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat'". Forbes. Retrieved May 4, 2023.
  20. ^ a b c d e f g h i j k Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (June 21, 2016). "Concrete Problems in AI Safety". arXiv:1606.06565 [cs.AI].
  21. ^ a b c d Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (September 27, 2018). "Building safe artificial intelligence: specification, robustness, and assurance". DeepMind Safety Research – Medium. Archived from the original on February 10, 2023. Retrieved July 18, 2022.
  22. ^ Hagendorff, Thilo (July 31, 2023). "Deception Abilities Emerged in Large Language Models". arXiv:2307.16513 [cs.CL].
  23. ^ a b Rorvig, Mordechai (April 14, 2022). "Researchers Gain New Understanding From Simple AI". Quanta Magazine. Archived from the original on February 10, 2023. Retrieved July 18, 2022.
  24. ^ Doshi-Velez, Finale; Kim, Been (March 2, 2017). "Towards A Rigorous Science of Interpretable Machine Learning". arXiv:1702.08608 [stat.ML].
  25. ^ Russell, Stuart; Dewey, Daniel; Tegmark, Max (December 31, 2015). "Research Priorities for Robust and Beneficial Artificial Intelligence". AI Magazine. 36 (4): 105–114. arXiv:1602.03506. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. Archived from the original on February 2, 2023. Retrieved September 12, 2022.
  26. ^ a b Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). "A survey of preference-based reinforcement learning methods". Journal of Machine Learning Research. 18 (136): 1–46.
  27. ^ a b Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Deep reinforcement learning from human preferences". Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN 978-1-5108-6096-4.
  28. ^ a b c d e f Heaven, Will Douglas (January 27, 2022). "The new version of GPT-3 is much better behaved (and should be less toxic)". MIT Technology Review. Archived from the original on February 10, 2023. Retrieved July 18, 2022.
  29. ^ Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (March 7, 2022). "Taxonomy of Machine Learning Safety: A Survey and Primer". arXiv:2106.04823 [cs.LG].
  30. ^ Clifton, Jesse (2020). "Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda". Center on Long-Term Risk. Archived from the original on January 1, 2023. Retrieved July 18, 2022.
  31. ^ Prunkl, Carina; Whittlestone, Jess (February 7, 2020). "Beyond Near- and Long-Term". Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. New York NY USA: ACM. pp. 138–143. doi:10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID 210164673. Archived from the original on October 16, 2022. Retrieved September 12, 2022.
  32. ^ Irving, Geoffrey; Askell, Amanda (February 19, 2019). "AI Safety Needs Social Scientists". Distill. 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. Archived from the original on February 10, 2023. Retrieved September 12, 2022.
  33. ^ 브링요르드, 셀머와 고빈다룰루, 나빈 순다르, "인공지능", 스탠포드 철학 백과사전(2020년 여름판), 에드워드 N. 잘타(ed.)
  34. ^ a b "Why AlphaZero's Artificial Intelligence Has Trouble With the Real World". Quanta Magazine. 2018. Retrieved June 20, 2020.
  35. ^ Wolchover, Natalie (January 30, 2020). "Artificial Intelligence Will Do What We Ask. That's a Problem". Quanta Magazine. Retrieved June 21, 2020.
  36. ^ 황소, 래리. "모델 기반의 진화 계산을 기반으로 합니다." 소프트 컴퓨팅 3, No. 2 (1999): 76-82.
  37. ^ a b Wiener, Norbert (May 6, 1960). "Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers". Science. 131 (3410): 1355–1358. doi:10.1126/science.131.3410.1355. ISSN 0036-8075. PMID 17841602. Archived from the original on October 15, 2022. Retrieved September 12, 2022.
  38. ^ a b c d Gabriel, Iason (September 1, 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines. 30 (3): 411–437. arXiv:2001.09768. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551.
  39. ^ The Ezra Klein Show (June 4, 2021). "If 'All Models Are Wrong,' Why Do We Give Them So Much Power?". The New York Times. ISSN 0362-4331. Archived from the original on February 15, 2023. Retrieved March 13, 2023.
  40. ^ a b Johnson, Steven; Iziev, Nikita (April 15, 2022). "A.I. Is Mastering Language. Should We Trust What It Says?". The New York Times. ISSN 0362-4331. Archived from the original on November 24, 2022. Retrieved July 18, 2022.
  41. ^ OpenAI. "Developing safe & responsible AI". Retrieved March 13, 2023.
  42. ^ a b c d e f Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (June 16, 2022). "Unsolved Problems in ML Safety". arXiv:2109.13916 [cs.LG].
  43. ^ Russell, Stuart J.; Norvig, Peter (2022). Artificial intelligence: a modern approach (4th ed.). Pearson. pp. 4–5. ISBN 978-1-292-40113-3. OCLC 1303900751.
  44. ^ a b c d e Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (April 21, 2020). "Specification gaming: the flip side of AI ingenuity". Deepmind. Archived from the original on February 10, 2023. Retrieved August 26, 2022.
  45. ^ Manheim, David; Garrabrant, Scott (2018). "Categorizing Variants of Goodhart's Law". arXiv:1803.04585 [cs.AI].
  46. ^ a b c Amodei, Dario; Christiano, Paul; Ray, Alex (June 13, 2017). "Learning from Human Preferences". OpenAI. Archived from the original on January 3, 2021. Retrieved July 21, 2022.
  47. ^ "Specification gaming examples in AI - master list - Google Drive". docs.google.com.
  48. ^ Clark, Jack; Amodei, Dario (December 21, 2016). "Faulty reward functions in the wild". openai.com. Retrieved December 30, 2023.
  49. ^ a b c Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). "TruthfulQA: Measuring How Models Mimic Human Falsehoods". Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics: 3214–3252. arXiv:2109.07958. doi:10.18653/v1/2022.acl-long.229. S2CID 237532606. Archived from the original on February 10, 2023. Retrieved September 12, 2022.
  50. ^ a b c Naughton, John (October 2, 2021). "The truth about artificial intelligence? It isn't that honest". The Observer. ISSN 0029-7712. Archived from the original on February 13, 2023. Retrieved July 23, 2022.
  51. ^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (February 1, 2022). "Survey of Hallucination in Natural Language Generation". ACM Computing Surveys. 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. S2CID 246652372. Archived from the original on February 10, 2023. Retrieved October 14, 2022.
  52. ^ Russell, Stuart. "Of Myths and Moonshine". Edge.org. Archived from the original on February 10, 2023. Retrieved July 19, 2022.
  53. ^ Tasioulas, John (2019). "First Steps Towards an Ethics of Robots and Artificial Intelligence". Journal of Practical Ethics. 7 (1): 61–95.
  54. ^ Wells, Georgia; Deepa Seetharaman; Horwitz, Jeff (November 5, 2021). "Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest". The Wall Street Journal. ISSN 0099-9660. Archived from the original on February 10, 2023. Retrieved July 19, 2022.
  55. ^ Barrett, Paul M.; Hendrix, Justin; Sims, J. Grant (September 2021). How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It (Report). Center for Business and Human Rights, NYU. Archived from the original on February 1, 2023. Retrieved September 12, 2022.
  56. ^ Shepardson, David (May 24, 2018). "Uber disabled emergency braking in self-driving car: U.S. agency". Reuters. Archived from the original on February 10, 2023. Retrieved July 20, 2022.
  57. ^ Baum, Seth (January 1, 2021). "2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy". Archived from the original on February 10, 2023. Retrieved July 20, 2022.
  58. ^ a b Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (October 26, 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research. arXiv:2206.07682. ISSN 2835-8856.
  59. ^ a b 카발레로와 에단과 굽타와 끼티와 리쉬와 이리나와 크루거와 다윗(2022)과 "신경 스케일링 법칙이 깨졌습니다." ICLR(International Conference on Learning Representations), 2023.
  60. ^ Dominguez, Daniel (May 19, 2022). "DeepMind Introduces Gato, a New Generalist AI Agent". InfoQ. Archived from the original on February 10, 2023. Retrieved September 9, 2022.
  61. ^ Grace, Katja; Stewart, Harlan; Sandkühler, Julia Fabienne; Thomas, Stephen; Weinstein-Raun, Ben; Brauner, Jan (January 5, 2024), Thousands of AI Authors on the Future of AI, doi:10.48550/arXiv.2401.02843, retrieved February 11, 2024
  62. ^ Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (July 31, 2018). "Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts". Journal of Artificial Intelligence Research. 62: 729–754. doi:10.1613/jair.1.11222. ISSN 1076-9757. S2CID 8746462. Archived from the original on February 10, 2023. Retrieved September 12, 2022.
  63. ^ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (August 2, 2021). "Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers". Journal of Artificial Intelligence Research. 71. arXiv:2105.02117. doi:10.1613/jair.1.12895. ISSN 1076-9757. S2CID 233740003. Archived from the original on February 10, 2023. Retrieved September 12, 2022.
  64. ^ Future of Life Institute (March 22, 2023). "Pause Giant AI Experiments: An Open Letter". Retrieved April 20, 2023.
  65. ^ Wang, Lei; Ma, Chen; Feng, Xueyang; Zhang, Zeyu; Yang, Hao; Zhang, Jingsen; Chen, Zhiyuan; Tang, Jiakai; Chen, Xu (August 1, 2023), A Survey on Large Language Model based Autonomous Agents, doi:10.48550/arXiv.2308.11432, retrieved February 11, 2024
  66. ^ Berglund, Lukas; Stickland, Asa Cooper; Balesni, Mikita; Kaufmann, Max; Tong, Meg; Korbak, Tomasz; Kokotajlo, Daniel; Evans, Owain (September 1, 2023), Taken out of context: On measuring situational awareness in LLMs, doi:10.48550/arXiv.2309.00667, retrieved February 11, 2024
  67. ^ Laine, Rudolf; Meinke, Alexander; Evans, Owain (November 28, 2023). "Towards a Situational Awareness Benchmark for LLMs". NeurIPS 2023 SoLaR workshop.
  68. ^ a b Pan, Alexander; Shern, Chan Jun; Zou, Andy; Li, Nathaniel; Basart, Steven; Woodside, Thomas; Ng, Jonathan; Zhang, Emmons; Scott, Dan; Hendrycks (April 3, 2023). "Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark". Proceedings of the 40th International Conference on Machine Learning. PMLR. arXiv:2304.03279.
  69. ^ a b c d Perez, Ethan; Ringer, Sam; Lukošiūtė, Kamilė; Nguyen, Karina; Chen, Edwin; Heiner, Scott; Pettit, Craig; Olsson, Catherine; Kundu, Sandipan; Kadavath, Saurav; Jones, Andy; Chen, Anna; Mann, Ben; Israel, Brian; Seethor, Bryan (December 19, 2022). "Discovering Language Model Behaviors with Model-Written Evaluations". arXiv:2212.09251 [cs.CL].
  70. ^ Orseau, Laurent; Armstrong, Stuart (June 25, 2016). "Safely interruptible agents". Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence. UAI'16. Arlington, Virginia, USA: AUAI Press: 557–566. ISBN 978-0-9966431-1-5.
  71. ^ a b Leike, Jan; Martic, Miljan; Krakovna, Victoria; Ortega, Pedro A.; Everitt, Tom; Lefrancq, Andrew; Orseau, Laurent; Legg, Shane (November 28, 2017). "AI Safety Gridworlds". arXiv:1711.09883 [cs.LG].
  72. ^ a b c d Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (August 19, 2017). "The off-switch game". Proceedings of the 26th International Joint Conference on Artificial Intelligence. IJCAI'17. Melbourne, Australia: AAAI Press: 220–227. ISBN 978-0-9992411-0-3.
  73. ^ a b c d Turner, Alexander Matt; Smith, Logan Riggs; Shah, Rohin; Critch, Andrew; Tadepalli, Prasad (2021). "Optimal policies tend to seek power". Advances in neural information processing systems.
  74. ^ Turner, Alexander Matt; Tadepalli, Prasad (2022). "Parametrically retargetable decision-makers tend to seek power". Advances in neural information processing systems.
  75. ^ a b c d e Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies (1st ed.). USA: Oxford University Press, Inc. ISBN 978-0-19-967811-2.
  76. ^ a b "Statement on AI Risk CAIS". www.safe.ai. Retrieved July 17, 2023.
  77. ^ Roose, Kevin (May 30, 2023). "A.I. Poses 'Risk of Extinction,' Industry Leaders Warn". The New York Times. ISSN 0362-4331. Retrieved July 17, 2023.
  78. ^ Turing, Alan (1951). Intelligent machinery, a heretical theory (Speech). Lecture given to '51 Society'. Manchester: The Turing Digital Archive. Archived from the original on September 26, 2022. Retrieved July 22, 2022.
  79. ^ Turing, Alan (May 15, 1951). "Can digital computers think?". Automatic Calculating Machines. Episode 2. BBC. Can digital computers think?.
  80. ^ Muehlhauser, Luke (January 29, 2016). "Sutskever on Talking Machines". Luke Muehlhauser. Archived from the original on September 27, 2022. Retrieved August 26, 2022.
  81. ^ Shanahan, Murray (2015). The technological singularity. Cambridge, Massachusetts. ISBN 978-0-262-33182-1. OCLC 917889148.{{cite book}}: CS1 maint: 위치 누락 게시자(링크)
  82. ^ Rossi, Francesca. "How do you teach a machine to be moral?". The Washington Post. ISSN 0190-8286. Archived from the original on February 10, 2023. Retrieved September 12, 2022.
  83. ^ Aaronson, Scott (June 17, 2022). "OpenAI!". Shtetl-Optimized. Archived from the original on August 27, 2022. Retrieved September 12, 2022.
  84. ^ Selman, Bart, Intelligence Explosion: Science or Fiction? (PDF), archived (PDF) from the original on May 31, 2022, retrieved September 12, 2022
  85. ^ McAllester (August 10, 2014). "Friendly AI and the Servant Mission". Machine Thoughts. Archived from the original on September 28, 2022. Retrieved September 12, 2022.
  86. ^ Schmidhuber, Jürgen (March 6, 2015). "I am Jürgen Schmidhuber, AMA!" (Reddit Comment). r/MachineLearning. Archived from the original on February 10, 2023. Retrieved July 23, 2022.
  87. ^ a b c d e Everitt, Tom; Lea, Gary; Hutter, Marcus (May 21, 2018). "AGI Safety Literature Review". arXiv:1805.01109 [cs.AI].
  88. ^ Shane (August 31, 2009). "Funding safe AGI". vetta project. Archived from the original on October 10, 2022. Retrieved September 12, 2022.
  89. ^ Horvitz, Eric (June 27, 2016). "Reflections on Safety and Artificial Intelligence" (PDF). Eric Horvitz. Archived (PDF) from the original on October 10, 2022. Retrieved April 20, 2020.
  90. ^ Chollet, François (December 8, 2018). "The implausibility of intelligence explosion". Medium. Archived from the original on March 22, 2021. Retrieved August 26, 2022.
  91. ^ Marcus, Gary (June 6, 2022). "Artificial General Intelligence Is Not as Imminent as You Might Think". Scientific American. Archived from the original on September 15, 2022. Retrieved August 26, 2022.
  92. ^ Barber, Lynsey (July 31, 2016). "Phew! Facebook's AI chief says intelligent machines are not a threat to humanity". CityAM. Archived from the original on August 26, 2022. Retrieved August 26, 2022.
  93. ^ Harris, Jeremie (June 16, 2021). "The case against (worrying about) existential risk from AI". Medium. Archived from the original on August 26, 2022. Retrieved August 26, 2022.
  94. ^ Rochon, Louis-Philippe; Rossi, Sergio (February 27, 2015). The Encyclopedia of Central Banking. Edward Elgar Publishing. ISBN 978-1-78254-744-0. Archived from the original on February 10, 2023. Retrieved September 13, 2022.
  95. ^ Ng, Andrew Y.; Russell, Stuart J. (June 29, 2000). "Algorithms for Inverse Reinforcement Learning". Proceedings of the Seventeenth International Conference on Machine Learning. ICML '00. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.: 663–670. ISBN 978-1-55860-707-1.
  96. ^ Hadfield-Menell, Dylan; Russell, Stuart J; Abbeel, Pieter; Dragan, Anca (2016). "Cooperative inverse reinforcement learning". Advances in neural information processing systems. Vol. 29. Curran Associates, Inc.
  97. ^ Mindermann, Soren; Armstrong, Stuart (2018). "Occam's razor is insufficient to infer the preferences of irrational agents". Proceedings of the 32nd international conference on neural information processing systems. NIPS'18. Red Hook, NY, USA: Curran Associates Inc. pp. 5603–5614.
  98. ^ Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. "Preference Learning". Dagstuhl Reports. 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1. Archived from the original on February 10, 2023. Retrieved September 12, 2022.
  99. ^ Gao, Leo; Schulman, John; Hilton, Jacob (October 19, 2022). "Scaling Laws for Reward Model Overoptimization". arXiv:2210.10760 [cs.LG].
  100. ^ Anderson, Martin (April 5, 2022). "The Perils of Using Quotations to Authenticate NLG Content". Unite.AI. Archived from the original on February 10, 2023. Retrieved July 21, 2022.
  101. ^ a b Wiggers, Kyle (February 5, 2022). "Despite recent progress, AI-powered chatbots still have a long way to go". VentureBeat. Archived from the original on July 23, 2022. Retrieved July 23, 2022.
  102. ^ Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob (July 24, 2021). "Aligning AI With Shared Human Values". International Conference on Learning Representations. arXiv:2008.02275.
  103. ^ Perez, Ethan; Huang, Saffron; Song, Francis; Cai, Trevor; Ring, Roman; Aslanides, John; Glaese, Amelia; McAleese, Nat; Irving, Geoffrey (February 7, 2022). "Red Teaming Language Models with Language Models". arXiv:2202.03286 [cs.CL].
  104. ^ Anderson, Michael; Anderson, Susan Leigh (December 15, 2007). "Machine Ethics: Creating an Ethical Intelligent Agent". AI Magazine. 28 (4): 15. doi:10.1609/aimag.v28i4.2065. ISSN 2371-9621. S2CID 17033332. Retrieved March 14, 2023.
  105. ^ Wiegel, Vincent (December 1, 2010). "Wendell Wallach and Colin Allen: moral machines: teaching robots right from wrong". Ethics and Information Technology. 12 (4): 359–361. doi:10.1007/s10676-010-9239-1. ISSN 1572-8439. S2CID 30532107.
  106. ^ Wallach, Wendell; Allen, Colin (2009). Moral Machines: Teaching Robots Right from Wrong. New York: Oxford University Press. ISBN 978-0-19-537404-9. Archived from the original on March 15, 2023. Retrieved July 23, 2022.
  107. ^ a b Phelps, Steve; Ranson, Rebecca (2023). "Of Models and Tin-Men - A Behavioral Economics Study of Principal-Agent Problems in AI Alignment Using Large-Language Models". arXiv:2307.11137 [cs.AI].
  108. ^ MacAskill, William (2022). What we owe the future. New York, NY. ISBN 978-1-5416-1862-6. OCLC 1314633519. Archived from the original on September 14, 2022. Retrieved September 12, 2022.{{cite book}}: CS1 maint: 위치 누락 게시자(링크)
  109. ^ a b Wu, Jeff; Ouyang, Long; Ziegler, Daniel M.; Stiennon, Nisan; Lowe, Ryan; Leike, Jan; Christiano, Paul (September 27, 2021). "Recursively Summarizing Books with Human Feedback". arXiv:2109.10862 [cs.CL].
  110. ^ Pearce, Hammond; Ahmad, Baleegh; Tan, Benjamin; Dolan-Gavitt, Brendan; Karri, Ramesh (2022). "Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions". 2022 IEEE Symposium on Security and Privacy (SP). San Francisco, CA, USA: IEEE. pp. 754–768. arXiv:2108.09293. doi:10.1109/SP46214.2022.9833571. ISBN 978-1-6654-1316-9. S2CID 245220588.
  111. ^ Irving, Geoffrey; Amodei, Dario (May 3, 2018). "AI Safety via Debate". OpenAI. Archived from the original on February 10, 2023. Retrieved July 23, 2022.
  112. ^ a b Christiano, Paul; Shlegeris, Buck; Amodei, Dario (October 19, 2018). "Supervising strong learners by amplifying weak experts". arXiv:1810.08575 [cs.LG].
  113. ^ Banzhaf, Wolfgang; Goodman, Erik; Sheneman, Leigh; Trujillo, Leonardo; Worzel, Bill, eds. (2020). Genetic Programming Theory and Practice XVII. Genetic and Evolutionary Computation. Cham: Springer International Publishing. doi:10.1007/978-3-030-39958-0. ISBN 978-3-030-39957-3. S2CID 218531292. Archived from the original on March 15, 2023. Retrieved July 23, 2022.
  114. ^ Wiblin, Robert (October 2, 2018). "Dr Paul Christiano on how OpenAI is developing real solutions to the 'AI alignment problem', and his vision of how humanity will progressively hand over decision-making to AI systems" (Podcast). 80,000 hours. No. 44. Archived from the original on December 14, 2022. Retrieved July 23, 2022.
  115. ^ Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). "The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities". Artificial Life. 26 (2): 274–306. doi:10.1162/artl_a_00319. hdl:10044/1/83343. ISSN 1064-5462. PMID 32271631. S2CID 4519185. Archived from the original on October 10, 2022. Retrieved September 12, 2022.
  116. ^ a b Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (November 19, 2018). "Scalable agent alignment via reward modeling: a research direction". arXiv:1811.07871 [cs.LG].
  117. ^ a b Leike, Jan; Schulman, John; Wu, Jeffrey (August 24, 2022). "Our approach to alignment research". OpenAI. Archived from the original on February 15, 2023. Retrieved September 9, 2022.
  118. ^ Wiggers, Kyle (September 23, 2021). "OpenAI unveils model that can summarize books of any length". VentureBeat. Archived from the original on July 23, 2022. Retrieved July 23, 2022.
  119. ^ Saunders, William; Yeh, Catherine; Wu, Jeff; Bills, Steven; Ouyang, Long; Ward, Jonathan; Leike, Jan (June 13, 2022). "Self-critiquing models for assisting human evaluators". arXiv:2206.05802 [cs.CL].
    • Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; Mirhoseini, Azalia; McKinnon, Cameron; Chen, Carol; Olsson, Catherine; Olah, Christopher; Hernandez, Danny; Drain, Dawn (December 15, 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL].
  120. ^ Moltzau, Alex (August 24, 2019). "Debating the AI Safety Debate". Towards Data Science. Archived from the original on October 13, 2022. Retrieved July 23, 2022.
  121. ^ "Introducing Superalignment". openai.com. Retrieved July 17, 2023.
  122. ^ a b c Wiggers, Kyle (September 20, 2021). "Falsehoods more likely with large language models". VentureBeat. Archived from the original on August 4, 2022. Retrieved July 23, 2022.
  123. ^ The Guardian (September 8, 2020). "A robot wrote this entire article. Are you scared yet, human?". The Guardian. ISSN 0261-3077. Archived from the original on September 8, 2020. Retrieved July 23, 2022.
  124. ^ a b Evans, Owain; Cotton-Barratt, Owen; Finnveden, Lukas; Bales, Adam; Balwit, Avital; Wills, Peter; Righetti, Luca; Saunders, William (October 13, 2021). "Truthful AI: Developing and governing AI that does not lie". arXiv:2110.06674 [cs.CY].
  125. ^ Alford, Anthony (July 13, 2021). "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J". InfoQ. Archived from the original on February 10, 2023. Retrieved July 23, 2022.
    • Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (January 21, 2022). "Scaling Language Models: Methods, Analysis & Insights from Training Gopher". arXiv:2112.11446 [cs.CL].
  126. ^ Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (June 1, 2022). "WebGPT: Browser-assisted question-answering with human feedback". arXiv:2112.09332 [cs.CL].
  127. ^ Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; Mann, Ben; DasSarma, Nova; Elhage, Nelson; Hatfield-Dodds, Zac; Hernandez, Danny; Kernion, Jackson; Ndousse, Kamal (December 9, 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861 [cs.CL].
  128. ^ Cox, Joseph (March 15, 2023). "GPT-4 Hired Unwitting TaskRabbit Worker By Pretending to Be 'Vision-Impaired' Human". Vice. Retrieved April 10, 2023.
  129. ^ Scheurer, Jérémy; Balesni, Mikita; Hobbhahn, Marius (2023). "Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure". arXiv:2311.07590 [cs.CL].
  130. ^ Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (March 30, 2021). "Alignment of Language Agents". DeepMind Safety Research – Medium. Archived from the original on February 10, 2023. Retrieved July 23, 2022.
  131. ^ McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (December 15, 2006). "A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955". AI Magazine. 27 (4): 12. doi:10.1609/aimag.v27i4.1904. ISSN 2371-9621. S2CID 19439915.
  132. ^ Wang, Lei; Ma, Chen; Feng, Xueyang; Zhang, Zeyu; Yang, Hao; Zhang, Jingsen; Chen, Zhiyuan; Tang, Jiakai; Chen, Xu (September 7, 2023), A Survey on Large Language Model based Autonomous Agents, doi:10.48550/arXiv.2308.11432, retrieved February 11, 2024
  133. ^ "'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power". Fortune. Retrieved May 4, 2023.
  134. ^ Ornes, Stephen (November 18, 2019). "Playing Hide-and-Seek, Machines Invent New Tools". Quanta Magazine. Archived from the original on February 10, 2023. Retrieved August 26, 2022.
  135. ^ Baker, Bowen; Kanitscheider, Ingmar; Markov, Todor; Wu, Yi; Powell, Glenn; McGrew, Bob; Mordatch, Igor (September 17, 2019). "Emergent Tool Use from Multi-Agent Interaction". OpenAI. Archived from the original on September 25, 2022. Retrieved August 26, 2022.
  136. ^ Shermer, Michael (March 1, 2017). "Artificial Intelligence Is Not a Threat—Yet". Scientific American. Archived from the original on December 1, 2017. Retrieved August 26, 2022.
  137. ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (July 22, 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL].
    • Laskin, Michael; Wang, Luyu; Oh, Junhyuk; Parisotto, Emilio; Spencer, Stephen; Steigerwald, Richie; Strouse, D. J.; Hansen, Steven; Filos, Angelos; Brooks, Ethan; Gazeau, Maxime; Sahni, Himanshu; Singh, Satinder; Mnih, Volodymyr (October 25, 2022). "In-context Reinforcement Learning with Algorithm Distillation". arXiv:2210.14215 [cs.LG].
  138. ^ a b c Shah, Rohin; Varma, Vikrant; Kumar, Ramana; Phuong, Mary; Krakovna, Victoria; Uesato, Jonathan; Kenton, Zac (November 2, 2022). "Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals". Medium. arXiv:2210.01790. Retrieved April 2, 2023.
  139. ^ a b Hubinger, Evan; van Merwijk, Chris; Mikulik, Vladimir; Skalse, Joar; Garrabrant, Scott (December 1, 2021). "Risks from Learned Optimization in Advanced Machine Learning Systems". arXiv:1906.01820 [cs.AI].
  140. ^ Zhang, Xiaoge; Chan, Felix T.S.; Yan, Chao; Bose, Indranil (2022). "Towards risk-aware artificial intelligence and machine learning systems: An overview". Decision Support Systems. 159: 113800. doi:10.1016/j.dss.2022.113800. S2CID 248585546.
  141. ^ Demski, Abram; Garrabrant, Scott (October 6, 2020). "Embedded Agency". arXiv:1902.09469 [cs.AI].
  142. ^ a b Everitt, Tom; Ortega, Pedro A.; Barnes, Elizabeth; Legg, Shane (September 6, 2019). "Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings". arXiv:1902.09980 [cs.AI].
  143. ^ Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (August 29, 2022). "Advanced artificial agents intervene in the provision of reward". AI Magazine. 43 (3): 282–293. doi:10.1002/aaai.12064. ISSN 0738-4602. S2CID 235489158. Archived from the original on February 10, 2023. Retrieved September 6, 2022.
  144. ^ Hadfield-Menell, Dylan; Hadfield, Gillian K (2019). "Incomplete contracting and AI alignment". Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society. pp. 417–422.
  145. ^ Hanson, Robin (April 10, 2019). "Agency Failure or AI Apocalypse?". Overcoming Bias. Retrieved September 20, 2023.
  146. ^ "UN Secretary-General's report on "Our Common Agenda"". 2021. p. 63. Archived from the original on February 16, 2023. [T]he Compact could also promote regulation of artificial intelligence to ensure that this is aligned with shared global values
  147. ^ The National New Generation Artificial Intelligence Governance Specialist Committee (October 12, 2021) [2021-09-25]. "Ethical Norms for New Generation Artificial Intelligence Released". Translated by Center for Security and Emerging Technology. Archived from the original on February 10, 2023.
  148. ^ Richardson, Tim (September 22, 2021). "UK publishes National Artificial Intelligence Strategy". The Register. Archived from the original on February 10, 2023. Retrieved November 14, 2021.
  149. ^ "The National AI Strategy of the UK". 2021. Archived from the original on February 10, 2023. The government takes the long term risk of non-aligned Artificial General Intelligence, and the unforeseeable changes that it would mean for the UK and the world, seriously.
  150. ^ "The National AI Strategy of the UK". 2021. actions 9 and 10 of the section "Pillar 3 – Governing AI Effectively". Archived from the original on February 10, 2023.
  151. ^ NSCAI Final Report (PDF). Washington, DC: The National Security Commission on Artificial Intelligence. 2021. Archived (PDF) from the original on February 15, 2023. Retrieved October 17, 2022.
  152. ^ Irving, Geoffrey; Askell, Amanda (June 9, 2016). "Chern number in Ising models with spatially modulated real and complex fields". Physical Review A. 94 (5): 052113. arXiv:1606.03535. Bibcode:2016PhRvA..94e2113L. doi:10.1103/PhysRevA.94.052113. S2CID 118699363.
  153. ^ a b c Critch, Andrew; Krueger, David (February 8, 2022). "AI Safety Needs Social Scientists". arXiv:2202.03866 [cs.CR].
  154. ^ Gabriel, Iason (September 1, 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines. 30 (3): 411–437. arXiv:2001.09768. doi:10.1007/s11023-020-09539-2. S2CID 210920551.
  155. ^ Christiano, Paul (October 19, 2018). "What failure looks like". Alignment Forum.
  156. ^ Russell, Stuart J. (2019). Human Compatible: Artificial Intelligence and the Problem of Control. Penguin Random House.
  157. ^ Dafoe, Allan (2019). "AI policy: A roadmap". Nature.
  158. ^ 아모데이, 다리오, 크리스 올라, 제이콥 스타인하르트, 폴 크리스티아누, 존 슐먼, 댄 마네. "AI 안전에 대한 구체적인 문제." arXiv preprint arXiv:1606.06565(2016).
  159. ^ a b Duckett, Chris (October 2016). "Machine learning needs rich feedback for AI teaching: Monash professor". ZDNet. Retrieved June 21, 2020.
  160. ^ Hern, Alex (May 20, 2015). "Flickr faces complaints over 'offensive' auto-tagging for photos". The Guardian. Retrieved June 21, 2020.
  161. ^ "Google apologises for racist blunder". BBC News. July 1, 2015. Retrieved June 21, 2020.
  162. ^ Bindi, Tas (October 2017). "Google Photos can now identify your pets". ZDNet. Retrieved June 21, 2020.
  163. ^ Stuart J. Russell (October 2019). Human Compatible: Artificial Intelligence and the Problem of Control. Viking. ISBN 978-0-525-55861-3. While it is unclear how exactly this error occurred, it is almost certain that Google's machine learning algorithm (assigned equal cost to any error). (Clearly, this is not Google's) true loss function, as was illustrated by the public relations disaster that ensued... there are millions of potentially distinct costs associated with misclassifying one category as another. Even if it had tried, Google would have found it very difficult to specify all these numbers up front... (a better algorithm could) occasionally ask the Google designer questions such as 'Which is worse, misclassifying a dog as a cat or misclassifying a person as an animal?'
  164. ^ Vincent, James (January 12, 2018). "Google 'fixed' its racist algorithm by removing gorillas from its image-labeling tech". The Verge. Retrieved June 21, 2020.
  165. ^ "Google's solution to accidental algorithmic racism: ban gorillas". The Guardian. January 12, 2018. Retrieved June 21, 2020.

서지학

  • Possible Minds: Twenty-five Ways of Looking at AI (Kindle ed.). Penguin Press. 2019. ISBN 978-0525557999.

추가읽기

  • Ngo, Richard; et al. (2023). "The Alignment Problem from a Deep Learning Perspective". arXiv:2209.00626 [cs.AI].
  • Ji, Jiaming; et al. (2023). "AI Alignment: A Comprehensive Survey". arXiv:2310.19852 [cs.AI].

외부 링크