인식기

Perceiver

Perceiver는 이미지, 사운드 및 비디오와 같은 텍스트 이외의 데이터 및 공간 데이터를 처리할 수 있도록 조정된 변압기입니다.변압기는 Perceiver [1]이전의 BERT 및 GPT-3같은 다른 주목할 만한 시스템의 기초가 됩니다.입력 정보를 잠재적 병목 현상으로 추출하기 위해 비대칭 주의 메커니즘을 채택하여 대량의 이기종 데이터에서 학습할 수 있습니다.Perceiver는 분류 작업에서 [2]특수 모델과 일치하거나 더 우수합니다.

역사

Perceiver는 [2]DeepMind에 의해 2021년 6월에 소개되었습니다.2021년 [3]8월 Perceiver IO가 그 뒤를 이었다.

설계.

감지기는 촬영장비별 요소 없이 설계되었습니다.예를 들어 이미지, 텍스트 또는 오디오를 처리하는 데 특화된 요소가 없습니다.또, 이종 타입의 복수의 상관 입력 스트림을 처리할 수 있다.입력이 통과해야 하는 주의 병목 현상을 형성하는 작은 잠재 유닛 세트를 사용합니다.한 가지 이점은 초기 변압기에서 발견된 2차 스케일링 문제를 제거하는 것입니다.이전 작업에서는 각 [2]촬영장비에 사용자 지정 기능 추출기를 사용했습니다.

위치 및 촬영장비별 특징을 모든 입력 요소(예: 모든 픽셀 또는 오디오 샘플)와 연결합니다.이러한 피쳐는 고충실성 푸리에 [2]피쳐를 사용하여 학습하거나 구성할 수 있습니다.

Perceiver는 크로스 어텐션을 사용하여 선형 복잡도 계층을 생성하고 입력 크기에서 네트워크 깊이를 분리합니다.이러한 디커플링을 통해 보다 깊은 아키텍처를 [2]실현할 수 있습니다.

구성 요소들

크로스 어텐션 모듈은 (더 큰) 바이트 어레이(예를 들어 픽셀 어레이)와 잠복 어레이(더 작은)를 다른 잠복 어레이에 매핑하여 치수를 감소시킨다.변압기 타워는 하나의 잠복 어레이를 다른 잠복 어레이에 매핑하고, 이를 사용하여 입력을 다시 쿼리한다.2개의 컴포넌트가 번갈아 표시됩니다.두 컴포넌트 모두 user query-key-value(QKV; 사용자 쿼리 키 값) 주의사항입니다.QKV 어텐션은 입력 어레이의 각 요소에 대해 쿼리, 키 및 값 네트워크를 적용합니다.이 네트워크는 일반적으로 다층 퍼셉트론이며 입력의 인덱스 차원(또는 시퀀스 길이)을 유지하는 3개의 어레이를 생성합니다.

인식 IO

Perceiver IO는 모델의 잠재 공간을 유연하게 쿼리하여 임의의 크기와 의미론의 출력을 생성할 수 있습니다.자연언어시각적 이해, StarCraft II, 멀티태스킹 등 출력 공간이 구조화된 작업에 대한 결과를 얻을 수 있습니다.Perceptiver IO는 입력 토큰화를 필요로 하지 않고 GLUE 언어 벤치마크에서 트랜스포머 기반의 BERT 기준과 일치하며 Sintel 광학 흐름 [3]추정에서 최첨단 성능을 실현합니다.

출력은 해당 특정 출력과 관련된 특정 출력 쿼리를 사용하여 잠복 어레이에 대응함으로써 생성됩니다.예를 들어, 하나의 픽셀에서 광학적 흐름을 예측하기 위해 쿼리는 픽셀의 xy 좌표와 광학적 흐름 태스크 임베딩을 사용하여 단일 흐름 벡터를 생성합니다.이는 다른 [3]설계에서 사용되는 인코더/디코더 아키텍처의 변형입니다.

성능

Perceiver의 퍼포먼스는 2D 컨볼루션 없이 ImageNetResNet-50 ViT에 필적합니다.5만 화소에 대응합니다.AudioSet의 모든 [2]모달리티에서 경쟁력이 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Ray, Tiernan. "Google's Supermodel: DeepMind Perceiver is a step on the road to an AI machine that could process anything and everything". ZDNet. Retrieved 2021-08-19.
  2. ^ a b c d e f Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021-06-22). "Perceiver: General Perception with Iterative Attention". arXiv:2103.03206 [cs.CV].
  3. ^ a b c Jaegle, Andrew; Borgeaud, Sebastian; Alayrac, Jean-Baptiste; Doersch, Carl; Ionescu, Catalin; Ding, David; Koppula, Skanda; Zoran, Daniel; Brock, Andrew; Shelhamer, Evan; Hénaff, Olivier (2021-08-02). "Perceiver IO: A General Architecture for Structured Inputs & Outputs". arXiv:2107.14795 [cs.LG].

외부 링크