텍스트-이미지 모델
Text-to-image model텍스트-화상 모델은 자연어 기술을 입력으로 받아들여 그 기술에 일치하는 이미지를 생성하는 기계학습 모델이다.이러한 모델은 심층 신경망의 발전의 결과로 2010년대 중반에 개발되기 시작했다.2022년 오픈과 같은 최첨단 텍스트 투 이미지 모델의 출력AI의 DALL-E 2, Google Brain의 상상력과 안정성AI의 '안정적 확산'은 실제 사진과 인간이 그린 미술의 질에 근접하기 시작했다.
텍스트 대 이미지 모델은 일반적으로 입력 텍스트를 잠재적 표현으로 변환하는 언어 모델과 해당 표현에 따라 조정된 이미지를 생성하는 생성 이미지 모델을 결합합니다.가장 효과적인 모델은 일반적으로 [2]웹에서 스크랩된 대량의 이미지와 텍스트 데이터에 대해 교육되어 왔습니다.
역사
딥 러닝이 등장하기 전에는 클립 [3][4]아트 데이터베이스와 같은 기존 컴포넌트 이미지를 배열하여 텍스트 대 이미지 모델을 구축하려는 시도가 콜라주로 제한되었습니다.
역작업인 이미지 캡션은 더 다루기 쉬웠고 많은 이미지 캡션 딥 러닝 모델이 첫 번째 텍스트 대 이미지 [5]모델보다 먼저 나왔다.
최초의 현대적인 텍스트 투 이미지 모델인 alignDRAW는 토론토 대학의 연구자들에 의해 2015년에 소개되었습니다.alignDRAW는 이전에 도입된 DRAW 아키텍처(주의 메커니즘이 있는 반복적인 가변 자동 인코더를 사용)를 텍스트 [5]시퀀스로 조건화하도록 확장했습니다.alignDRAW에 의해 생성된 이미지는 흐릿하고 사실적이지 않았지만 모델은 교육 데이터에 표시되지 않는 객체(예: 빨간색 스쿨버스)로 일반화할 수 있었고 "일단 정지 표시가 푸른 하늘에 날고 있습니다"와 같은 새로운 프롬프트를 적절하게 처리하여 교육 [5][6]세트의 데이터를 단순히 "기억"한 것이 아님을 보여 줍니다.
2016년에는 리드, 아카타, 얀 등이 텍스트 투 이미지 [6][7]작업에 최초로 생성적 적대 네트워크를 사용했다.좁은 영역별 데이터 세트에 대해 교육을 받은 모델을 사용하여 "두툼하고 둥근 부리를 가진 모두 검은 새"와 같은 텍스트 캡션에서 새와 꽃의 "시각적으로 그럴듯한" 이미지를 생성할 수 있었다.보다 다양한 COCO 데이터 세트에 대해 교육받은 모델은 "원격에서..." 이미지를 생성했습니다.격려"라고 말했지만,[6] 세부 사항에는 일관성이 결여되어 있었다.최신 시스템에는 VQGAN+CLIP,[8] XMC-GAN [9]및 GauGAN2가 포함됩니다.
널리 알려진 최초의 텍스트 투 이미지 모델 중 하나는 Open이었습니다.2021년 [10]1월 발표된 AI의 변압기 DALL-E.좀 더 복잡하고 사실적인 이미지를 생성할 수 있는 후속 모델인 DALL-E 2가 [11]2022년 4월에 공개되었고, 안정 확산이 2022년 [12]8월에 공개되었다.
다른 텍스트 투 이미지 모델에 이어 런웨이, Make-A-Video,[13] Imagen Video,[14] Midjourney[15], Phenaki[16] 등의 언어 모델 기반의 텍스트 투 비디오 플랫폼에서도 텍스트 및/또는 텍스트/[17]이미지 프롬프트에서 비디오를 생성할 수 있습니다.
아키텍처 및 훈련
텍스트 투 이미지 모델은 다양한 아키텍처를 사용하여 구축되었습니다.텍스트 부호화 스텝은 Long Short-Term Memory(LSTM; 롱단기메모리) 네트워크와 같은 반복적인 뉴럴 네트워크에서 실행할 수 있습니다.단, 트랜스포머 모델은 그 후 더욱 일반적인 옵션이 되었습니다.이미지 생성 단계에서는 조건부 생성 적대 네트워크가 일반적으로 사용되었으며, 확산 모델도 최근 몇 년 동안 인기 있는 옵션이 되었다.텍스트 임베딩에 따라 조정된 고해상도 이미지를 출력하기 위해 모델을 직접 훈련하는 것이 아니라, 인기 있는 기술은 저해상도 이미지를 생성하도록 모델을 훈련하고, 하나 이상의 보조 딥 러닝 모델을 사용하여 이를 업그레이드하여 세부 사항을 채우는 것이다.
텍스트-이미지 모델은 웹에서 스크랩된 (텍스트, 이미지) 쌍의 대규모 데이터셋에 대해 교육됩니다.2022년 Imagen 모델에서 Google Brain은 텍스트 전용 말뭉치(이후 가중치가 동결됨)에서 별도로 훈련한 대규모 언어 모델을 사용한 긍정적인 결과를 보고했으며, 이는 기존의 표준 [18]접근 방식에서 벗어났다.
데이터 세트
텍스트-이미지 모델을 교육하려면 텍스트 캡션과 쌍을 이루는 이미지 데이터 세트가 필요합니다.이 목적으로 일반적으로 사용되는 데이터 집합 중 하나가 COCO(Common Objects in Context)입니다.2014년에 Microsoft에 의해 공개된 COCO는 다양한 객체를 묘사하는 약 123,000개의 이미지로 구성되어 있으며, 이미지당 5개의 캡션이 인간 주석자에 의해 생성됩니다.Oxford-120 Flowers와 CUB-200 Birds는 각각 약 10,000개의 이미지로 구성된 작은 데이터 세트이며, 각각 꽃과 새에 한정된다.이러한 데이터셋을 사용하여 고품질 텍스트 대 이미지 모델을 교육하는 것이 덜 어려운 것으로 간주되는데, 이러한 데이터셋은 소재 [7]범위가 좁기 때문이다.
평가하기
텍스트 대 이미지 모델의 품질을 평가하고 비교하는 것은 어려운 문제이며, 여러 가지 바람직한 특성을 평가하는 것이 수반됩니다.다른 생성 이미지 모델과 마찬가지로 생성된 이미지는 사실적이고(트레이닝 세트에서 나온 것처럼 보이는) 스타일이 다양해야 합니다.텍스트-이미지 모델에 고유한 요구 사항은 생성된 이미지가 생성된 이미지를 생성하는 데 사용되는 텍스트 캡션과 의미적으로 일치한다는 것입니다.이러한 품질을 평가하기 위한 여러 가지 계획이 고안되었으며, 일부는 자동화되었고 다른 일부는 인간의 [7]판단에 기초한다.
이미지 품질과 다양성을 평가하기 위한 일반적인 알고리즘 지표는 Inception Score(IS; 인셉션 스코어)이며, 이는 텍스트 대 이미지 모델에 의해 생성된 이미지 샘플에 적용될 때 사전 훈련된 Inceptionv3 이미지 분류 모델에 의해 예측된 라벨의 분포에 기초한다.영상 분류 모델이 "분명한" 생성된 영상을 선호하기 위한 체계인 높은 확률로 단일 라벨을 예측하면 점수가 증가합니다.또 다른 인기 있는 메트릭은 관련된 프레셰 인셉션 거리이며, 프리트레인된 화상 분류 [7]모델의 최종 레이어 중 하나에 의해 추출된 특징에 따라 생성된 화상과 실제 트레이닝 화상의 분포를 비교한다.
영향과 응용 프로그램
2022년 8월, 텍스트 투 이미지 AI 아트는 디지털 아트 경연대회(특히 콜로라도 주 박람회의 연간 예술 [19][20]경연대회에서 300달러 상당의 신흥 디지털 아티스트 부문)에서 1위를 차지했다.
당시 전문가 측은 "AI 예술가가 어떻게 옳은지 모르지만, 인공지능이 어떻게 되는지에 관한 뉴스 콘센트에 관한 뉴스 콘센트에 관한 소식들을 조사했다고 결론지었다.너무 많아요.이러한 예술 작품들은 반응하고,[23] 뉴스 매체들은 딥페이크에 [24]대한 우려를 제기했고, 한 잡지는 "새로운 형태의 예술적 표현"[25]을 가능하게 하는 가능성을 강조했으며, 한 사설은 이것이 환영할 만한 [26][27][28]"인간의 능력 향상"으로 보일 수 있다고 언급했다.
이러한 8월에는 비 상용 틈새 장르(일반적인 사례)의 확장, 새로운 엔터테인먼트, 소설, 새로운 상상력, 새로운 상상력, 새로운 상상력, 새로운 상상력, 새로운 상상력/27)을 포함할 수 있다7] e. - 안녕하세요초안, 영감, 초안-수정 및 이미지 구성 요소(인페인팅)를 생성합니다.
일부 미술 웹사이트는 인공지능이나 인공지능이 지원하는 미술품을 금지하고 있는 반면, 일부는 그것을 허용하고 있다(때로는 인공지능 예술로 태그 붙이기), 어떤 경우에는 인공지능 [29][30]예술을 위한 새로운 도구를 내장하고 있다.
AI 아트를 포함한 합성 미디어는 2022년에 [27]향후 비즈니스에 영향을 미칠 주요 기술 주도 트렌드로 묘사되어 왔다.
신속한 엔지니어링과 공유
이미지 [31][32][33][28]생성기에서 특정 이미지를 생성하기 위한 프롬프트를 공유, 거래, 검색, 포킹/정비 및/또는 협업하기 위한 플랫폼이 있습니다.이미지 공유 사이트(레딧, AI 아트 전용 웹사이트 등)에서 이미지와 함께 프롬프트가 공유되는 경우가 많다.이미지 생성에 사용되는 완전한 입력 또는 상세 정보는 아닙니다.
적용들
개발 중이거나 기존 프로토타입을 사용하거나 이미 사용 중인 애플리케이션에는 다음이 포함됩니다.
- 스톡 촬영(맞춤형)[27]
- 제품 사진[34][35]
- 자작 카드 게임, 테이블 상판 게임, 만화,[36] 북커버, 앨범[28][37] 아트용 이미지 작성
- 애니메이션 및 비디오 (텍스트 투 비디오)[27][38][39][40][41]
- 저해상도 이미지(픽셀 아트/문자 변경, 흐릿한 이미지 [42][43][44]등), 스케치[45][39][28] 또는 저품질 이미지(어린이 그림 등) 또는 "기본적인"[46] 장면에 생명을 불어넣거나 세세한 부분까지 다듬는 고품질 아트
- 사진 등의 안내 입력을 통해 (재작성) 더 많이 또는 더 나은 작품을 만들거나 파생 작품을 만드는[47] 예술
- 인페인팅 – 이미지 내용[39][44] 교체(또는 삭제) 또는 미완성 이미지에 요소 또는 부분 추가(예를 들어 Alpaca와 [45][28]같은 플러그인 사용)
- 아웃페인팅 – 동일한 스타일로[48] 예술적 이미지의 테두리를 넘어 확장
- 비디오 게임 모델 제작(텍스트, 3D 객체, 캐릭터 등)[49][50][51][46][39][52]
발전
추가 기능은 개발 중에 있으며, 다양한 응용 프로그램을 개선하거나 새로운 응용 프로그램을 활성화할 수 있습니다.예를 들어, "Textual Inversion"은 사용자가 제공하는 개념(객체나 스타일 등)을 소수의 이미지에서 학습할 수 있도록 하는 것을 말합니다.텍스트 반전을 사용하면 관련 단어(학습된 종종 추상 [53][54]개념에 할당된 키워드) 및 모델 확장/미세 조정에서 새로운 개인화된 예술을 생성할 수 있습니다(참조 항목:드림부스)
생성된 이미지는 스케치, 저비용 실험[52] 또는 개념 증명 단계 아이디어의 일러스트레이션으로[55] 사용될 수 있습니다.추가 기능이나 개선은 프롬프트 기반 아트(이미지 [52]에디터에서의 후속 조정 등)의 후세대 수동 편집(광택화 또는 예술적 사용)과도 관련될 수 있습니다.Stabil Diffusion의 경우, Hugging Face [56]Hub에서 사전 교육을 받은 주요 모델을 공유합니다.「 」를 참조해 주세요.
레퍼런스
- ^ Mansimov, Elman; Parisotto, Emilio; Ba, Jimmy Lei; Salakhutdinov, Ruslan (February 29, 2016). "Generating Images from Captions with Attention" (PDF). International Conference on Learning Representations. arXiv:1511.02793.
- ^ Vincent, James (May 24, 2022). "All these images were generated by Google's latest text-to-image AI". The Verge. Vox Media. Retrieved May 28, 2022.
- ^ Agnese, Jorge; Herrera, Jonathan; Tao, Haicheng; Zhu, Xingquan (October 2019). "A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis" (PDF). arXiv:1910.09399.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Zhu, Xiaojin; Goldberg, Andrew B.; Eldawy, Mohamed; Dyer, Charles R.; Strock, Bradley (2007). "A text-to-picture synthesis system for augmenting communication" (PDF). AAAI. 7: 1590–1595.
- ^ a b c Mansimov, Elman; Parisotto, Emilio; Lei Ba, Jimmy; Salakhutdinov, Ruslan (November 2015). "Generating Images from Captions with Attention". ICLR. arXiv:1511.02793.
- ^ a b c Reed, Scott; Akata, Zeynep; Logeswaran, Lajanugen; Schiele, Bernt; Lee, Honglak (June 2016). "Generative Adversarial Text to Image Synthesis" (PDF). International Conference on Machine Learning.
- ^ a b c d Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (December 2021). "Adversarial text-to-image synthesis: A review". Neural Networks. 144: 187–209. doi:10.1016/j.neunet.2021.07.019. PMID 34500257. S2CID 231698782.
- ^ Rodriguez, Jesus. "🌅 Edge#229: VQGAN + CLIP". thesequence.substack.com. Retrieved 2022-10-10.
- ^ Rodriguez, Jesus. "🎆🌆 Edge#231: Text-to-Image Synthesis with GANs". thesequence.substack.com. Retrieved 2022-10-10.
- ^ Coldewey, Devin (5 January 2021). "OpenAI's DALL-E creates plausible images of literally anything you ask it to". TechCrunch.
- ^ Coldewey, Devin (6 April 2022). "OpenAI's new DALL-E model draws anything — but bigger, better and faster than before". TechCrunch.
- ^ "Stable Diffusion Public Release". Stability.Ai. Retrieved 2022-10-27.
- ^ Kumar, Ashish (2022-10-03). "Meta AI Introduces 'Make-A-Video': An Artificial Intelligence System That Generates Videos From Text". MarkTechPost. Retrieved 2022-10-03.
- ^ Edwards, Benj (2022-10-05). "Google's newest AI generator creates HD video from text prompts". Ars Technica. Retrieved 2022-10-25.
- ^ Rodriguez, Jesus. "🎨 Edge#237: What is Midjourney?". thesequence.substack.com. Retrieved 2022-10-26.
- ^ "Phenaki". phenaki.video. Retrieved 2022-10-03.
- ^ Edwards, Benj (9 September 2022). "Runway teases AI-powered text-to-video editing using written prompts". Ars Technica. Retrieved 12 September 2022.
- ^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu; Sara Mahdavi, S.; Gontijo Lopes, Rapha; Salimans, Tim; Ho, Jonathan; J Fleet, David; Norouzi, Mohammad (23 May 2022). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arXiv:2205.11487.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Roose, Kevin (2022). "An A.I.-Generated Picture Won an Art Prize. Artists Aren't Happy". The New York Times.
- ^ "An AI-Generated Artwork Won First Place at a State Fair Fine Arts Competition, and Artists Are Pissed". Vice. Retrieved 15 September 2022.
- ^ Ocampo, Rodolfo. "AI art is everywhere right now. Even experts don't know what it will mean". techxplore.com. Retrieved 15 September 2022.
- ^ "As AI-generated art takes off - who really owns it?". Thomson Reuters Foundation. Retrieved 15 September 2022.
- ^ Edwards, Benj (12 September 2022). "Flooded with AI-generated images, some art communities ban them completely". Ars Technica. Retrieved 15 September 2022.
- ^ Wiggers, Kyle (24 August 2022). "Deepfakes: Uncensored AI art model prompts ethics questions". TechCrunch. Retrieved 15 September 2022.
- ^ "AI is reshaping creativity, and maybe that's a good thing". Dazed. 18 August 2022. Retrieved 15 September 2022.
- ^ "AI-generated art illustrates another problem with computers John Naughton". The Guardian. 20 August 2022. Retrieved 15 September 2022.
- ^ a b c d e f g Elgan, Mike (1 November 2022). "How 'synthetic media' will transform business forever". Computerworld. Retrieved 9 November 2022.
- ^ a b c d e Vincent, James (15 September 2022). "Anyone can use this AI art generator — that's the risk". The Verge. Retrieved 9 November 2022.
- ^ Robertson, Adi (15 November 2022). "How DeviantArt is navigating the AI art minefield". The Verge. Retrieved 16 November 2022.
- ^ "DeviantArt's AI image generator aims to give more power to artists". Popular Science. 12 November 2022. Retrieved 16 November 2022.
- ^ Davenport, Corbin. "This AI Art Gallery Is Even Better Than Using a Generator". How-To Geek. Retrieved 9 November 2022.
- ^ Robertson, Adi (2 September 2022). "Professional AI whisperers have launched a marketplace for DALL-E prompts". The Verge. Retrieved 9 November 2022.
- ^ "Text-zu-Bild-Revolution: Stable Diffusion ermöglicht KI-Bildgenerieren für alle". heise online (in German). Retrieved 9 November 2022.
- ^ Djudjic, Dunja (8 November 2022). "PhotoRoom uses AI to turn your lousy snapshots into decent product photos". DIY Photography. Retrieved 9 November 2022.
- ^ Venugopal, Sahana (18 October 2022). "Playground is a hybrid art generator with urgent safety concerns". The Hindu. Retrieved 9 November 2022.
- ^ Katz, Leslie. "This Comic Series Is Gorgeous. You'd Never Know AI Drew the Whole Thing". CNET. Retrieved 16 November 2022.
- ^ Anderson, Pearse (16 September 2022). "Can AI art democratize tabletop game publishing?". Polygon. Retrieved 9 November 2022.
- ^ Edwards, Benj (9 September 2022). "Runway teases AI-powered text-to-video editing using written prompts". Ars Technica. Retrieved 9 November 2022.
- ^ a b c d Choudhary, Lokesh (1 September 2022). "Stable Diffusion, a milestone?". Analytics India Magazine. Retrieved 9 November 2022.
- ^ Edwards, Benj (5 October 2022). "Google's newest AI generator creates HD video from text prompts". Ars Technica. Retrieved 9 November 2022.
- ^ "How diffusion models unlock new possibilities for generative creativity". VentureBeat. 26 October 2022. Retrieved 9 November 2022.
- ^ Edwards, Benj (4 October 2022). "Begone, polygons: 1993's Virtua Fighter gets smoothed out by AI". Ars Technica. Retrieved 9 November 2022.
- ^ Edwards, Benj (1 September 2022). "Pixel art comes to life: Fan upgrades classic MS-DOS games with AI". Ars Technica. Retrieved 9 November 2022.
- ^ a b Fleischer, Jan (7 September 2022). "Text-zu-Bild-Wandler für daheim". scinexx Das Wissensmagazin (in German). Retrieved 9 November 2022.
- ^ a b "Stable Diffusion: Warum KI-generierte Bilder bald wirklich überall sind". t3n.de (in German). Retrieved 9 November 2022.
- ^ a b 인용 오류:명명된 참조
Artificial intelligence art Choudhary
호출되었지만 정의되지 않았습니다(도움말 페이지 참조). - ^ Growcoot, Matt (10 November 2022). "Photographer Accurately Recreates his Work with AI Image Generator". PetaPixel. Retrieved 16 November 2022.
- ^ "DALL-E can now help you imagine what's outside the frame of famous paintings". The Verge. Retrieved 15 September 2022.
- ^ "NVIDIA's new AI model quickly generates objects and characters for virtual worlds". Engadget. Retrieved 9 November 2022.
- ^ "GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images". nv-tlabs.github.io. Retrieved 9 November 2022.
- ^ Lewis, Nick. "How to Make a Minecraft Texture Pack With Stable Diffusion". How-To Geek. Retrieved 9 November 2022.
- ^ a b c Leswing, Kif. "Why Silicon Valley is so excited about awkward drawings done by artificial intelligence". CNBC. Retrieved 16 November 2022.
- ^ Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2 August 2022). "An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion". arXiv:2208.01618 [cs.CV].
- ^ "Textual Inversion · AUTOMATIC1111/stable-diffusion-webui Wiki". GitHub. Retrieved 9 November 2022.
- ^ Roose, Kevin (21 October 2022). "A.I.-Generated Art Is Already Transforming Creative Work". The New York Times. Retrieved 16 November 2022.
- ^ Mehta, Sourabh (17 September 2022). "How to Generate an Image from Text using Stable Diffusion in Python". Analytics India Magazine. Retrieved 16 November 2022.