인공지능안전센터

Center for AI Safety
인공지능안전센터
형성2022
본부캘리포니아주 샌프란시스코
감독.
댄 헨드릭스
웹사이트https://www.safe.ai/

인공지능 안전 센터(CAIS)는 인공지능(AI)의 안전한 개발과 배치를 촉진하는 샌프란시스코에 기반을 둔 비영리 단체입니다. CAIS의 작업은 기술적인 인공지능 안전인공지능 윤리에 대한 연구, 옹호 및 인공지능 안전 연구 분야를 성장시키기 위한 지원을 포함합니다.[1][2]

2023년 5월, CAIS는 수백 명의 AI 교수, 주요 AI 기업의 지도자 및 기타 공인들이 서명한 AI 멸종 위험에 관한 성명서를 발표했습니다.[3][4][5][6][7]

조사.

CAIS 연구원들은 위험 시나리오와 위험 완화 전략을 자세히 설명하는 "재앙적 AI 위험 개요"를 출판했습니다. 설명된 위험에는 AI를 자율전이나 엔지니어링 팬데믹에 사용하는 것과 속임수 및 해킹에 대한 AI 능력이 포함됩니다.[8][9] 카네기 멜론 대학의 연구원들과 공동으로 수행된 또 다른 연구에서는 안전 조치를 우회하는 대형 언어 모델의 적대적 공격을 발견하는 자동화된 방법을 설명하여 현재 안전 시스템의 부적절성을 강조했습니다.[10][11]

활동.

다른 이니셔티브로는 AI 안전 연구를 지원하기 위한 컴퓨팅 클러스터, "ML 안전 입문"이라는 제목의 온라인 과정, 개념적 문제를 해결하기 위한 철학 교수 펠로우십 등이 있습니다.[9]

참고 항목

참고문헌

  1. ^ "AI poses risk of extinction, tech leaders warn in open letter. Here's why alarm is spreading". USA TODAY. 31 May 2023.
  2. ^ "Our Mission CAIS". www.safe.ai. Retrieved 2023-04-13.
  3. ^ Center for AI Safety's Hendrycks on AI Risks, Bloomberg Technology, 31 May 2023
  4. ^ Roose, Kevin (2023-05-30). "A.I. Poses 'Risk of Extinction,' Industry Leaders Warn". The New York Times. ISSN 0362-4331. Retrieved 2023-06-03.
  5. ^ "Artificial intelligence warning over human extinction – all you need to know". The Independent. 2023-05-31. Retrieved 2023-06-03.
  6. ^ Lomas, Natasha (2023-05-30). "OpenAI's Altman and other AI giants back warning of advanced AI as 'extinction' risk". TechCrunch. Retrieved 2023-06-03.
  7. ^ Castleman, Terry (2023-05-31). "Prominent AI leaders warn of 'risk of extinction' from new technology". Los Angeles Times. Retrieved 2023-06-03.
  8. ^ Hendrycks, Dan; Mazeika, Mantas; Woodside, Thomas (2023). "An Overview of Catastrophic AI Risks". arXiv:2306.12001. {{cite journal}}: 저널 인용 요구사항 journal= (도와주세요)
  9. ^ a b Scharfenberg, David (July 6, 2023). "Dan Hendrycks from the Center for AI Safety hopes he can prevent a catastrophe". The Boston Globe. Retrieved 2023-07-09.
  10. ^ Metz, Cade (2023-07-27). "Researchers Poke Holes in Safety Controls of ChatGPT and Other Chatbots". The New York Times. Retrieved 2023-07-27.
  11. ^ "Universal and Transferable Attacks on Aligned Language Models". llm-attacks.org. Retrieved 2023-07-27.