세크2세크
Seq2seqSeq2seq는 언어 처리에 사용되는 기계 학습 접근법이다.[1]응용 프로그램에는 언어 번역, 이미지 캡션, 대화 모델 및 텍스트 요약이 포함된다.[2]
역사
이 알고리즘은 구글이 기계 번역에 사용하기 위해 개발한 것이다.[2]
페이스북은 2019년 미분방정식의 상징적 통합과 해법에 활용한다고 발표했다.이 회사는 복잡한 방정식을 매티카, MATLAB, 메이플과 같은 상업적 솔루션보다 더 빠르고 정확하게 해결할 수 있다고 주장했다.첫째, 공칭적 특이성을 피하기 위해 방정식을 나무 구조로 구문 분석한다.그런 다음 LSTM 신경망은 트리를 처리하기 위해 표준 패턴 인식 설비를 적용한다.[3]
구글은 2020년 341GB 데이터 세트에 대해 훈련된 26억 매개변수 seq2seq 기반 챗봇인 미나를 출시했다.구글은 챗봇이 오픈보다 모델 용량이 1.7배 크다고 주장했다.AI의 GPT-2는 2020년 5월 1750억 매개변수 GPT-3를 45번으로 훈련시켰다.[4]일반 텍스트 워드(45,000GB)의 TB 데이터 집합, 즉...570GB까지 필터링."[5]
테크닉
Seq2seq는 한 시퀀스를 다른 시퀀스로 변환한다(시퀀스 변환).이는 반복 신경망(RNN) 또는 더 자주 LSTM 또는 GRU를 사용하여 구배 소멸 문제를 방지한다.각 항목의 컨텍스트는 이전 단계의 출력이다.주요 구성 요소는 인코더 1개와 디코더 네트워크 1개다.인코더는 각 아이템을 아이템과 컨텍스트를 포함하는 상응하는 숨겨진 벡터로 바꾼다.디코더는 이전 출력을 입력 컨텍스트로 사용하여 벡터를 출력 항목으로 전환하여 프로세스를 역전시킨다.[2]
최적화에는 다음이 포함된다.[2]
- 주의사항:디코더에 대한 입력은 전체 컨텍스트를 저장하는 단일 벡터다.주의를 기울이면 디코더가 입력 순서를 선택적으로 볼 수 있다.
- 빔 검색: 단일 출력(단어)을 출력으로 선택하는 대신 개연성이 매우 높은 여러 선택 항목을 트리로 구성하여 유지한다(주의[6] 점수 집합에 소프트맥스 사용).주의 분산에 의해 가중된 인코더 상태를 평균하십시오.[6]
- 버킷링: 가변 길이 시퀀스는 0s의 패딩으로 인해 가능하며, 입력과 출력 모두에 적용할 수 있다.그러나 시퀀스 길이가 100이고 입력 길이가 3개 항목만 길면 값비싼 공간이 낭비된다.버킷의 크기는 다양할 수 있으며 입력 및 출력 길이를 모두 지정하십시오.
훈련은 일반적으로 교차 엔트로피 손실 함수를 사용하며, 여기서 하나의 출력에 의해 후속 출력의 확률이 1 미만일 정도로 불이익을 받는다.[6]
관련 소프트웨어
유사한 접근법을 채택한 소프트웨어로는 OpenNMT(토치), Neural Monkey(텐소플로), NEMATUS(테아노) 등이 있다.[7]
참고 항목
참조
- ^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (2014). "Sequence to sequence learning with neural networks". arXiv:1409.3215 [cs.CL].
- ^ a b c d Wadhwa, Mani (2018-12-05). "seq2seq model in Machine Learning". GeeksforGeeks. Retrieved 2019-12-17.
{{cite web}}
: CS1 maint : url-status (링크) - ^ "Facebook has a neural network that can do advanced math". MIT Technology Review. December 17, 2019. Retrieved 2019-12-17.
{{cite web}}
: CS1 maint : url-status (링크) - ^ Mehta, Ivan (2020-01-29). "Google claims its new chatbot Meena is the best in the world". The Next Web. Retrieved 2020-02-03.
- ^ Gage, Justin. "What's GPT-3?". Retrieved August 1, 2020.
- ^ a b c Hewitt, John; Kriz, Reno (2018). "Sequence 2 sequence Models" (PDF). Stanford University.
{{cite web}}
: CS1 maint : url-status (링크) - ^ "Overview - seq2seq". google.github.io. Retrieved 2019-12-17.
외부 링크
- "A ten-minute introduction to sequence-to-sequence learning in Keras". blog.keras.io. Retrieved 2019-12-19.
- Dugar, Pranay (2019-11-24). "Attention — Seq2Seq Models". Medium. Retrieved 2019-12-19.
- Nag, Dev (2019-04-24). "seq2seq: the clown car of deep learning". Medium. Retrieved 2019-12-19.
- Adiwardana, Daniel; Luong, Minh-Thang; So, David R.; Hall, Jamie; Fiedel, Noah; Thoppilan, Romal; Yang, Zi; Kulshreshtha, Apoorv; Nemade, Gaurav; Lu, Yifeng; Le, Quoc V. (2020-01-31). "Towards a Human-like Open-Domain Chatbot". arXiv:2001.09977 [cs.CL].