안정확산

Stable Diffusion
안정확산
원본 작성자활주로, CompVis, Stability AI
개발자안정성AI
초기출시2022년8월22일
안정적 해제
SDXL 1.0 (모델)[1] / 2023년 7월 26일
저장소github.com/Stability-AI/stablediffusion
기재.파이썬[2]
운영체제CUDA 커널을 지원하는 모든 것
유형텍스트-투-이미지 모델
면허증.크리에이티브 ML 오픈레일-M
웹사이트ommer-lab.com/research/latent-diffusion-models/ Edit this on Wikidata

안정 확산(Stable Diffusion)은 확산 기술을 기반으로 2022년에 출시된 딥 러닝, 텍스트-투-이미지 모델입니다.주로 텍스트 설명에 따라 세부 이미지를 생성하는 데 사용되지만 인페인팅, 아웃페인팅, 텍스트 프롬프트에 의해 안내되는 이미지 간 변환 생성 등의 다른 작업에도 적용할 수 있습니다.[3]뮌헨과 런웨이의 루트비히 막시밀리안 대학의 CompVis 그룹 소속 연구원들이 Stability AI의 전산 기부와 비영리 단체의 훈련 데이터로 개발했습니다.[4][5][6][7]

안정 확산(Stable Diffusion)은 일종심층 생성 인공 신경망인 잠재 확산 모델입니다.코드와 모델 가중치는 공개적으로 공개되었으며,[8] 최소 8GB VRAM의 보통 GPU를 장착한 대부분의 소비자 하드웨어에서 실행할 수 있습니다.이는 클라우드 서비스를 통해서만 접근할 수 있었던 DALL-EMidjourney와 같은 이전의 독점적인 텍스트-투-이미지 모델에서 벗어났습니다.[9][10]

발전

Stable Diffusion의 개발은 스타트업 회사 Stability AI가 자금을 지원하고 모양을 잡았습니다.[11][10][12][13]이 모델의 기술 라이센스는 뮌헨의 루트비히 막시밀리안 대학의 CompVis 그룹에 의해 공개되었습니다.[10]Runway의 Patrick Esser와 CompVis의 Robin Rombach가 개발을 주도했는데, 이들은 Stable Diffus에 의해 사용된 잠재 확산 모델 아키텍처를 이전에 발명한 연구자들 중 한 명이었습니다.[7]안정성 인공지능은 또한 엘러더에게 공을 돌렸습니다.AI라이온(Stable Diffusion이 훈련된 데이터 세트를 조립한 독일 비영리 단체)이 프로젝트의 후원자로 참여했습니다.[7]

2022년 10월, 안정성 AI는 Lightspeed Venture PartnersCoatue Management가 주도한 라운드에서 미화 1억 100만 달러를 모금했습니다.[14]

테크놀러지

안정확산법에 의한 잠재확산 구조도
Stable Diffusion(안정 확산)에서 사용하는 노이즈 제거 프로세스입니다.모델은 구성된 수의 단계에 도달할 때까지 무작위 잡음을 반복적으로 제거하여 이미지를 생성하며, 주의 메커니즘과 함께 개념에 대해 사전 훈련된 CLIP 텍스트 인코더에 의해 안내되며, 훈련된 개념의 표현을 나타내는 원하는 이미지를 생성합니다.

건축학

안정 확산은 LMU 뮌헨의 CompVis 그룹이 개발한 잠재 확산 모델(Latent Diffusion Model, LDM)이라고 불리는 일종의 확산 모델(DM)을 사용합니다.[15][8]2015년에 도입된 확산 모델은 훈련 이미지에서 가우시안 노이즈의 연속적인 적용을 제거하는 것을 목표로 훈련되며, 이는 노이즈 제거 자동 인코더의 시퀀스로 간주될 수 있습니다.Stable Diffusion은 VAE(Variational Auto Encoder), U-Net 및 옵션 텍스트 인코더의 세 부분으로 구성됩니다.[16]VAE 인코더는 이미지를 픽셀 공간에서 더 작은 차원의 잠재 공간으로 압축하여 이미지의 보다 근본적인 의미를 포착합니다.[15]가우시안 노이즈는 순방향 확산 동안 압축 잠재 표현에 반복적으로 적용됩니다.[16]ResNet 백본으로 구성된 U-Net 블록은 순방향 확산에서 출력을 역방향으로 잡음을 제거하여 잠재 표현을 얻습니다.마지막으로, VAE 디코더는 표현을 픽셀 공간으로 다시 변환하여 최종 이미지를 생성합니다.[16]

노이즈 제거 단계는 텍스트 문자열, 이미지 또는 다른 촬영장비에 따라 유연하게 조정할 수 있습니다.인코딩된 컨디셔닝 데이터는 교차 주의 메커니즘을 통해 노이즈 제거 U-Net에 노출됩니다.[16]텍스트를 조정하기 위해 고정된 사전 훈련된 CLIP ViT-L/14 텍스트 인코더를 사용하여 텍스트 프롬프트를 임베딩 공간으로 변환합니다.[8]연구자들은 LDM의 장점으로 훈련 및 생성을 위한 계산 효율성의 향상을 꼽고 있습니다.[7][15]

안정 확산은 U-Net에서 8억 6천만 개, 텍스트 인코더에서 1억 2천 3백만 개의 매개 변수를 가지고 있어 2022년 기준으로 비교적 가벼운 것으로 간주되며, 다른 확산 모델과 달리 소비자 GPU에서 실행할 수 있습니다.[17]

교육자료

안정 확산은 웹에서 스크랩된 커먼 크롤 데이터에서 파생된 공개적으로 사용 가능한 데이터 세트인 LAION-5B에서 가져온 이미지와 캡션 쌍에 대해 훈련되었으며, 50억 개의 이미지-텍스트 쌍이 언어를 기반으로 분류되어 해상도, 워터마크를 포함할 가능성 예측 및 예측된 "에이스"에 따라 별도의 데이터 세트로 필터링되었습니다.tic" 점수(예: 주관적 시각 품질).[18]이 데이터 세트는 안정성 AI로부터 자금을 지원받는 독일 비영리 기업 라이온(LAION)이 만들었습니다.[18][19]안정 확산 모델은 라이온2B-en, 라이온 고해상도, 라이온-미학 v25+[18]의 세 가지 하위 집합인 라이온-5B에 대해 훈련되었습니다.모델의 교육 데이터를 타사에서 분석한 결과, 사용된 원래의 더 넓은 데이터 세트에서 가져온 1,200만 개의 더 작은 부분 집합 중에서 이미지 샘플 크기의 약 47%가 100개의 다른 도메인에서 가져온 것으로 확인되었으며, Pinterest가 부분 집합의 8.5%를 차지했으며, 그 다음으로 WordPress, Blogspot, Flickr 등의 웹 사이트가 있었습니다.DeviantArtWikimedia Commons.[20][18]Bayerischer Rundfunk의 조사에 따르면 Hugging Face에서 호스팅되는 라이온의 데이터 세트에는 많은 양의 개인 및 민감 데이터가 포함되어 있습니다.[21]

교육절차

이 모델은 라이온2B-en 및 라이온 고해상도 부분 집합에 대해 처음에 훈련되었으며, 라이온-미학 예측기 V2가 인간이 평균적으로 예측한 6억 개의 캡션 이미지의 부분 집합인 라이온-미학 v25+에 대해 마지막 몇 라운드의 훈련이 수행되었습니다.10점 만점에 5점 이상의 점수를 매깁니다.[22][18][23]또한 LAION-Aestics v25+ 하위 집합에서는 저해상도 영상과 LAION-5B-Watermark Detection에서 80% 이상의 확률로 워터마크를 운반하는 것으로 확인된 영상을 제외했습니다.[18]최종 교육에서는 분류기 없는 확산 지침을 개선하기 위해 텍스트 조정을 10% 추가로 수행했습니다.[24]

이 모델은 Amazon Web Services에서 256 Nvidia A100 GPU를 사용하여 총 150,000 GPU 시간 동안 600,000달러의 비용으로 교육되었습니다.[25][26][27]

한계

안정 확산에는 열화와 특정 시나리오의 부정확성 문제가 있습니다.이 모델의 초기 릴리스는 512×512 해상도 이미지로 구성된 데이터 세트에 대해 교육되었으며, 이는 사용자 사양이 버전 2의 "예상" 512×512 해상도에서 벗어나면 생성된 이미지의 품질이 현저히 저하된다는 것을 의미합니다.[28]Stable Diffusion 모델의 0 업데이트 이후 768×768 해상도의 이미지를 기본적으로 생성할 수 있는 기능이 도입되었습니다.[29]라이온 데이터베이스에서 팔다리의 데이터 품질이 좋지 않아 사람의 팔다리를 생성하는 것도 과제입니다.[30]이 모델은 데이터베이스에 대표적인 특징이 없기 때문에 인간의 팔다리와 얼굴을 이해하기 위해 충분히 훈련되지 않았으며, 모델이 그러한 유형의 이미지를 생성하도록 요청하면 모델을 혼란스럽게 할 수 있습니다.[31]2023년 7월에 출시된 안정 확산 XL(SDXL) 버전 1.0은 네이티브 1024x1024 해상도를 도입하고 팔다리와 텍스트의 생성을 개선했습니다.[32][33]

개별 개발자의 접근성도 문제가 될 수 있습니다.애니메이션 캐릭터 생성("waifu diffusion")[34]과 같이 데이터 세트에 포함되지 않은 새로운 사용 사례에 대한 모델을 사용자 정의하기 위해서는 새로운 데이터와 추가 교육이 필요합니다.추가 재교육을 통해 생성된 Stable Diffusion의 미세 조정된 각색은 의료 영상에서[35] 알고리즘으로 생성된 음악에 이르기까지 다양한 사용 사례에 사용되었습니다.[36]그러나 이 미세 조정 프로세스는 새로운 데이터의 품질에 민감합니다. 낮은 해상도 영상이나 원래 데이터와 다른 해상도는 새로운 작업을 학습하지 못할 뿐만 아니라 모델의 전체 성능을 저하시킬 수 있습니다.모델이 고품질 이미지에 대해 추가로 훈련된 경우에도 개인이 가전제품에서 모델을 실행하는 것은 어렵습니다.예를 들어, waifu-diffusion 교육 프로세스에서는 최소 30GB의 VRAM이 필요하며, [37]이는 NvidiaGeForce 30 시리즈와 같은 소비자용 GPU에서 제공되는 일반적인 리소스를 초과합니다. 이는 약 12GB에 불과합니다.[38]

Stable Diffusion의 제작자들은 모델이 주로 영어 설명이 포함된 이미지에서 훈련되었기 때문에 알고리즘 편향의 가능성을 인정합니다.[26]결과적으로 생성된 이미지는 사회적 편견을 강화하고 서구적인 관점에서 볼 때 모델에 다른 커뮤니티와 문화의 데이터가 부족합니다.이 모델은 다른 언어로 작성된 프롬프트에 비해 영어로 작성된 프롬프트에 대해 더 정확한 결과를 제공하며, 서양 또는 백인 문화가 기본적으로 표현되는 경우가 많습니다.[26]

최종 사용자 미세 조정

최종 사용자는 모델의 초기 교육의 한계를 해결하기 위해 보다 구체적인 사용 사례에 맞게 생성 출력을 미세 조정하는 추가 교육을 구현할 수 있습니다.Stable Diffusion(안정 확산) 모델 체크포인트에 사용자가 액세스할 수 있는 미세 조정을 적용할 수 있는 세 가지 방법이 있습니다.

  • "임베딩"은 사용자가 제공한 이미지 모음에서 학습할 수 있으며 생성 프롬프트 내에서 임베딩의 이름이 사용될 때마다 모델이 시각적으로 유사한 이미지를 생성할 수 있습니다.[39]임베딩은 2022년 텔아비브 대학의 연구원들이 엔비디아의 지원을 받아 개발한 "텍스트 반전" 개념을 기반으로 하며, 여기서 모델의 텍스트 인코더가 사용하는 특정 토큰에 대한 벡터 표현은 새로운 의사 단어와 연결됩니다.임베딩을 사용하여 원래 모델 내의 편향을 줄이거나 시각적 스타일을 모방할 수 있습니다.[40]
  • "하이퍼 네트워크"는 더 큰 신경망 내의 다양한 지점에 적용되는 작은 사전 훈련된 신경망으로, 노벨이 만든 기술을 말합니다.2021년 AI 개발업체 쿠루무즈, 원래 텍스트 생성 트랜스포머 모델용하이퍼 네트워크는 결과를 특정 방향으로 조정하여 Stable Diffusion 기반 모델이 원래 모델에서 아티스트를 인식하지 못하더라도 특정 아티스트의 예술 스타일을 모방할 수 있도록 합니다. 이 모델은 머리카락, 눈과 같은 중요한 영역을 찾아 이미지를 처리한 다음 2차 잠재 공간에서 이 영역을 패치합니다.[41]
  • DreamBooth는 2022년 Google Research(구글 리서치)와 Boston University(보스턴 대학교)의 연구원들이 개발한 딥 러닝 세대 모델로, 특정 주제를 묘사하는 일련의 이미지를 통해 교육을 받은 후 모델을 미세 조정하여 특정 주제를 묘사하는 정확하고 개인화된 출력을 생성할 수 있습니다.[42]

성능

Stable Diffusion(안정 확산) 모델은 출력에서 포함되거나 누락될 요소를 설명하는 텍스트 프롬프트를 사용하여 새 영상을 처음부터 생성할 수 있도록 지원합니다.[8]기존 이미지는 확산-노이즈 메커니즘을 통해 텍스트 프롬프트("유도 이미지 합성"[43]이라고 알려진 프로세스)에 의해 설명된 새로운 요소를 통합하기 위해 모델에 의해 다시 그려질 수 있습니다.[8]또한 이 모델은 인페인팅 및 아웃페인팅을 통해 기존 이미지를 부분적으로 변경하는 프롬프트의 사용을 허용합니다. 인페인팅 및 아웃페인팅을 통해 이러한 기능을 지원하는 적절한 사용자 인터페이스와 함께 사용할 경우 다양한 오픈 소스 구현이 존재합니다.[44]

Stable Diffusion(안정 확산)은 10GB 이상의 VRAM으로 실행하는 것이 권장되지만, VRAM이 적은 사용자는 VRAM 사용량이 적은 모델 성능을 절충하기 위해 기본 float32 대신 float16 정밀도로 가중치를 로드할 수 있습니다.[28]

텍스트에서 이미지 생성

이미지 생성에 대한 부정적인 프롬프트의 효과
  • 상단: 음성 프롬프트 없음
  • 중앙: "녹색 나무"
  • 하단: "둥근 돌, 둥근 돌"

"txt2img"로 알려진 Stable Diffusion 내의 텍스트 대 이미지 샘플링 스크립트는 샘플링 유형, 출력 영상 치수 및 시드 값을 포함하는 여러 옵션 파라미터 외에 텍스트 프롬프트를 소비합니다.스크립트는 프롬프트에 대한 모델의 해석에 따라 이미지 파일을 출력합니다.[8]생성된 이미지는 보이지 않는 디지털 워터마크로 태그가 지정되어 사용자가 Stable Diffusion(안정 확산)에 의해 생성된 이미지를 식별할 수 있습니다.[8] 하지만 이 워터마크는 이미지 크기가 조정되거나 회전하면 효과가 없습니다.[45]

각 txt2img 생성에는 출력 이미지에 영향을 미치는 특정 시드 값이 포함됩니다.다른 생성된 출력을 탐색하기 위해 시드를 랜덤화하거나, 동일한 시드를 사용하여 이전에 생성된 이미지와 동일한 이미지 출력을 얻을 수 있습니다.[28]사용자는 샘플러에 대한 추론 단계 수를 조정할 수도 있습니다. 값이 클수록 시간이 오래 걸리지만, 값이 작으면 시각적 결함이 발생할 수도 있습니다.[28]또 다른 구성 가능한 옵션인 분류기 없는 안내 척도 값을 사용하면 출력 이미지가 프롬프트에 얼마나 밀착되는지 조정할 수 있습니다.[24]더 실험적인 사용 사례는 더 낮은 스케일 값을 선택할 수 있고 더 구체적인 출력을 목표로 하는 사용 사례는 더 높은 값을 사용할 수 있습니다.[28]

사용자가 텍스트 프롬프트의 특정 부분에 부여된 가중치를 수정할 수 있는 Stable Diffusion의 프론트엔드 구현에 의해 추가적인 text2img 기능이 제공됩니다.강조 표시기를 사용하면 키워드를 괄호로 둘러싸서 강조를 추가하거나 줄일 수 있습니다.[46]프롬프트의 일부에 무게를 조정하는 대안적인 방법은 "부정적 프롬프트"입니다.부정적인 프롬프트는 Stability AI의 자체 DreamStudio 클라우드 서비스를 포함한 일부 프론트엔드 구현에 포함된 기능으로, 사용자가 이미지 생성 중 모델이 피해야 할 프롬프트를 지정할 수 있습니다.지정된 프롬프트는 사용자가 제공하는 긍정적인 프롬프트로 인해 또는 모델이 원래 훈련된 방식으로 인해 이미지 출력 내에 존재하는 바람직하지 않은 이미지 특징일 수 있으며, 사람의 손이 망가진 경우가 일반적인 예입니다.[44][47]

이미지수정

img2img 수정 시연
  • Left : Stable Diffusion 1.5로 작성된 원본 이미지
  • 오른쪽 : Stable Diffusion XL 1.0으로 만들어진 수정된 이미지

Stable Diffusion(안정 확산)에는 또 다른 샘플링 스크립트인 "img2img"도 포함되어 있습니다. 이 스크립트는 텍스트 프롬프트, 기존 이미지로의 경로 및 0.0과 1.0 사이의 강도 값을 소비합니다.이 스크립트는 텍스트 프롬프트 내에 제공되는 요소도 포함하는 원본 이미지를 기반으로 새 이미지를 출력합니다.강도 값은 출력 영상에 추가되는 노이즈의 양을 나타냅니다.강도 값이 클수록 이미지 내에서 더 많은 변형이 발생하지만 제공된 프롬프트와 의미론적으로 일치하지 않는 이미지가 발생할 수 있습니다.[8]

img2img는 원본 이미지에 노이즈를 추가할 수 있기 때문에 이미지 데이터의 시각적 특징이 변경되고 익명화되는 데이터 익명화 및 데이터 확대에 잠재적으로 유용합니다.[48]이미지의 해상도가 증가하고 이미지에 더 많은 세부 정보가 추가될 가능성이 있는 이미지 업스케일링에도 동일한 프로세스가 유용할 수 있습니다.[48]또한 안정 확산(Stable Diffusion)은 이미지 압축을 위한 도구로 실험되었습니다.JPEGWebP에 비해 Stable Diffusion에서 이미지 압축에 사용되는 최근의 방법은 작은 텍스트 및 얼굴을 보존하는 데 한계가 있습니다.[49]

안정 확산 모델(Stable Diffusion model)의 수많은 프론트엔드 구현들은 img2img를 통한 이미지 수정을 위한 추가적인 사용 사례들을 제공합니다.인페인팅은 사용자가 제공한 레이어 마스크에 의해 묘사된 기존 이미지의 일부를 선택적으로 수정하는 것을 포함하며, 이는 제공된 프롬프트에 기초하여 마스크된 공간을 새로 생성된 콘텐츠로 채웁니다.[44]Stability AI는 Stable Diffusion 2.0 출시와 함께 인페인팅 사용 사례를 위해 특별히 미세 조정된 전용 모델을 개발했습니다.[29]반대로, 출력 그림은 이미지를 원래 크기 이상으로 확장하여 제공된 프롬프트를 기반으로 생성된 콘텐츠로 이전 빈 공간을 채웁니다.[44]

2022년 11월 24일 Stable Diffusion 2.0 출시와 함께 "depth2img"라고 명명된 깊이 유도 모델이 소개되었으며, 이 모델은 제공된 입력 영상의 깊이를 추론하고, 텍스트 프롬프트와 깊이 정보 모두를 기반으로 새로운 출력 영상을 생성하며,생성된 출력에서 원래 입력 영상의 일관성과 깊이를 유지할 수 있게 해줍니다.[29]

컨트롤넷

ControlNet은[50] 추가 조건을 통합하여 확산 모델을 관리하도록 설계된 신경망 아키텍처입니다.신경망 블록의 가중치를 "잠금된" 복사본과 "훈련 가능한" 복사본으로 복제합니다."훈련 가능한" 복사본은 원하는 조건을 학습하고, "잠금된" 복사본은 원래 모델을 보존합니다.이 접근 방식은 이미지 쌍의 작은 데이터 세트를 사용한 훈련이 생산 준비 확산 모델의 무결성을 손상시키지 않도록 보장합니다."제로 컨볼루션"은 무게와 바이어스가 모두 0으로 초기화된 1×1 컨볼루션입니다.교육 전에 모든 0의 컨볼루션은 0의 출력을 생성하여 ControlNet에 의해 야기되는 왜곡을 방지합니다.처음부터 훈련된 계층은 없습니다. 프로세스는 여전히 미세 조정되어 원래 모델을 안전하게 유지합니다.이 방법은 소규모 또는 심지어 개인용 기기에 대한 교육을 가능하게 합니다.

릴리스

주요 모델 릴리즈는 다음과 같습니다.

V1.4, 2022년 8월

V1.5, 2022년 10월

V2.0, 2022년 11월

V2.1, 2022년 12월

SDXL 1.0, 2023년 7월

사용 및 논란

Stable Diffusion은 생성된 이미지에 대한 권리를 주장하지 않으며 이미지 콘텐츠가 불법적이거나 개인에게 유해하지 않은 경우 모델에서 생성된 이미지에 대한 사용 권한을 사용자에게 자유롭게 부여합니다.이미지 사용과 관련하여 사용자에게 제공되는 자유는 소유자의 동의 없이 저작권이 있는 이미지로부터 Stable Diffusion 등의 생성 모델을 교육함에 따라 소유권 윤리 논란을 야기하였습니다.[56]이로 인해 교육 데이터에 많은 양의 개인 정보와 민감한 정보가 포함됩니다.[21]

시각적 스타일구도는 저작권의 대상이 아니므로 예술작품의 이미지를 생성하는 Stable Diffusion의 이용자가 시각적으로 유사한 작품의 저작권을 침해하는 것으로 간주해서는 안 된다는 해석이 많습니다.[57]다만, 생성된 이미지에 표현된 개인의 유사성을 이용하는 경우 인격권에 의해 보호될 수 있으며,[57] 인지 가능한 브랜드 로고 등 지적재산권은 여전히 저작권에 의해 보호됩니다.그럼에도 불구하고, 시각 예술가들은 Stable Diffusion과 같은 이미지 합성 소프트웨어의 광범위한 사용이 결국 사진작가, 모델, 촬영감독 및 배우와 함께 인간 예술가들로 하여금 인공지능 기반의 경쟁자들에 대해 점차 상업성을 잃게 할 수도 있다고 우려를 표명했습니다.[13]

Stable Diffusion은 생성 AI를 기반으로 한 다른 상업 제품에 비해 사용자가 생성할 수 있는 폭력적이거나 성적으로 노골적인 이미지와 같은 콘텐츠 유형에서 특히 더 허용적입니다.[58]Stability AI의 CEO인 Emad Mostaque는 이 모델이 남용 목적으로 사용될 수 있다는 우려에 대해, "이 기술을 운영하는 방식에 있어 윤리적이고 도덕적이며 합법적인지에 대한 것은 사람들의 책임"이며 Stable Diffusion의 능력을 대중의 손에 넣는 것은 그 기술을 결과로 가져올 것이라고 주장합니다.[10]잠재적인 부정적인 결과에도 불구하고 순수익을 제공하는 기술은 없습니다.[10]또한, Mostaque는 Stable Diffusion의 오픈 가용성 이면에 있는 의도는 이전에 이미지 합성을 위한 폐쇄형 AI 시스템만 개발했던 이러한 기술에 대한 기업의 통제와 지배를 끝내기 위한 것이라고 주장합니다.[10][58]이는 안정성 인공지능이 사용자가 생성할 수 있는 콘텐츠에 부여하는 어떠한 제약도 소스 코드의 사용 가능성으로 인해 쉽게 우회할 수 있다는 점이 반영된 것입니다.[56]

CP에 대한 논란은 Pixv에서 공유되고 있는 Stable Diffusion에 의해 발생했습니다.[59]

소송

2023년 1월, Sarah Andersen, Kelly McKernan, Karla Ortiz 등 3명의 아티스트는 Stability AI, Midjourney, Deviant Art를 상대로 저작권 침해 소송을 제기하였고,이 회사들이 원작자들의 동의 없이 웹에서 긁어낸 50억 개의 이미지에 인공지능 도구를 훈련시켜 수백만 명의 아티스트들의 권리를 침해했다고 주장합니다.[60]같은 달 스태빌리티 AI는 훈련 데이터에 자사 이미지를 사용했다는 이유로 게티이미지로부터 소송을 당하기도 했습니다.[12]

2023년 7월, 윌리엄 오릭 미국 지방 판사는 안데르센, 맥커넌, 오티즈가 제기한 대부분의 소송을 기각하는 경향이 있었지만, 그들이 새로운 소송을 제기하는 것을 허용했습니다.[61]

면허증.

DALL-E와 같은 모델과 달리 Stable Diffusion은 소스 코드를 모델([62][8]미리 훈련된 가중치)과 함께 사용할 수 있게 합니다.RAIL(Responsible AI License)의 한 형태인 크리에이티브 ML OpenRAIL-M 라이선스를 모델(M)에 적용합니다.[63]이 라이센스는 범죄, 명예훼손, 괴롭힘, 독싱, "미성년자 착취", 의료 조언, 법적 의무 자동 생성, 법적 증거 생성, "사회적 행동 또는 ...에 근거하여 개인 또는 단체를 차별하거나 해치는 행위"를 포함한 특정 사용 사례를 금지합니다.개인적 또는 성격적 특징...[또는] 법적으로 보호되는 특성 또는 범주."[64][65]사용자는 생성된 출력 이미지에 대한 권한을 소유하고 있으며, 상업적으로 자유롭게 사용할 수 있습니다.[66]

참고 항목

참고문헌

  1. ^ "Announcing SDXL 1.0". stability.ai. Archived from the original on July 26, 2023.
  2. ^ Ryan O'Connor (August 23, 2022). "How to Run Stable Diffusion Locally to Generate Images". Retrieved May 4, 2023.
  3. ^ "Diffuse The Rest - a Hugging Face Space by huggingface". huggingface.co. Archived from the original on 2022-09-05. Retrieved 2022-09-05.
  4. ^ "Leaked deck raises questions over Stability AI's Series A pitch to investors". sifted.eu. Retrieved 2023-06-20.{{cite web}}: CS1 유지 : url-status (링크)
  5. ^ "Revolutionizing image generation by AI: Turning text into images". www.lmu.de. Retrieved 2023-06-21.{{cite web}}: CS1 유지 : url-status (링크)
  6. ^ Mostaque, Emad (November 2, 2022). "Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen". Twitter. Retrieved 2023-06-22.{{cite web}}: CS1 유지 : url-status (링크)
  7. ^ a b c d "Stable Diffusion Launch Announcement". Stability.Ai. Archived from the original on 2022-09-05. Retrieved 2022-09-06.
  8. ^ a b c d e f g h i "Stable Diffusion Repository on GitHub". CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022. Retrieved 17 September 2022.
  9. ^ "The new killer app: Creating AI art will absolutely crush your PC". PCWorld. Archived from the original on 2022-08-31. Retrieved 2022-08-31.
  10. ^ a b c d e f Vincent, James (15 September 2022). "Anyone can use this AI art generator — that's the risk". The Verge.
  11. ^ "The AI Founder Taking Credit For Stable Diffusion's Success Has A History Of Exaggeration". www.forbes.com. Retrieved 2023-06-20.{{cite web}}: CS1 유지 : url-status (링크)
  12. ^ a b Korn, Jennifer (2023-01-17). "Getty Images suing the makers of popular AI art tool for allegedly stealing photos". CNN. Retrieved 2023-01-22.
  13. ^ a b Heikkilä, Melissa (16 September 2022). "This artist is dominating AI-generated art. And he's not happy about it". MIT Technology Review.
  14. ^ Wiggers, Kyle (17 October 2022). "Stability AI, the startup behind Stable Diffusion, raises $101M". Techcrunch. Retrieved 2022-10-17.
  15. ^ a b c Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). High-Resolution Image Synthesis with Latent Diffusion Models (PDF). International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA. pp. 10684–10695. arXiv:2112.10752.
  16. ^ a b c d Alammar, Jay. "The Illustrated Stable Diffusion". jalammar.github.io. Retrieved 2022-10-31.
  17. ^ "Stable diffusion pipelines". huggingface.co.
  18. ^ a b c d e f Baio, Andy (2022-08-30). "Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator". Waxy.org. Retrieved 2022-11-02.
  19. ^ "This artist is dominating AI-generated art. And he's not happy about it". MIT Technology Review. Retrieved 2022-11-02.
  20. ^ Ivanovs, Alex (2022-09-08). "Stable Diffusion: Tutorials, Resources, and Tools". Stack Diary. Retrieved 2022-11-02.
  21. ^ a b Brunner, Katharina; Harlan, Elisa (2023-07-07). "We Are All Raw Material for AI". Bayerischer Rundfunk (BR).
  22. ^ Schuhmann, Christoph (2022-11-02), CLIP+MLP Aesthetic Score Predictor, retrieved 2022-11-02
  23. ^ "LAION-Aesthetics LAION". laion.ai. Archived from the original on 2022-08-26. Retrieved 2022-09-02.
  24. ^ a b Ho, Jonathan; Salimans, Tim (2022-07-25). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG].
  25. ^ Mostaque, Emad (August 28, 2022). "Cost of construction". Twitter. Archived from the original on 2022-09-06. Retrieved 2022-09-06.
  26. ^ a b c "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co. Retrieved 2022-11-02.
  27. ^ Wiggers, Kyle (2022-08-12). "A startup wants to democratize the tech behind DALL-E 2, consequences be damned". TechCrunch. Retrieved 2022-11-02.
  28. ^ a b c d e "Stable Diffusion with 🧨 Diffusers". huggingface.co. Retrieved 2022-10-31.
  29. ^ a b c "Stable Diffusion 2.0 Release". stability.ai. Archived from the original on December 10, 2022.
  30. ^ "LAION". laion.ai. Retrieved 2022-10-31.
  31. ^ "Generating images with Stable Diffusion". Paperspace Blog. 2022-08-24. Retrieved 2022-10-31.
  32. ^ "Announcing SDXL 1.0". Stability AI. Retrieved 2023-08-21.
  33. ^ Edwards, Benj (2023-07-27). "Stability AI releases Stable Diffusion XL, its next-gen image synthesis model". Ars Technica. Retrieved 2023-08-21.
  34. ^ "hakurei/waifu-diffusion · Hugging Face". huggingface.co. Retrieved 2022-10-31.
  35. ^ Chambon, Pierre; Bluethgen, Christian; Langlotz, Curtis P.; Chaudhari, Akshay (2022-10-09). "Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains". arXiv:2210.04133 [cs.CV].
  36. ^ Seth Forsgren; Hayk Martiros. "Riffusion - Stable diffusion for real-time music generation". Riffusion. Archived from the original on December 16, 2022.
  37. ^ Mercurio, Anthony (2022-10-31), Waifu Diffusion, retrieved 2022-10-31
  38. ^ Smith, Ryan. "NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money". www.anandtech.com. Retrieved 2022-10-31.
  39. ^ Dave James (October 28, 2022). "I thrashed the RTX 4090 for 8 hours straight training Stable Diffusion to paint like my uncle Hermann". PC Gamer. Archived from the original on November 9, 2022.
  40. ^ Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2022-08-02). "An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion". arXiv:2208.01618 [cs.CV].
  41. ^ "NovelAI Improvements on Stable Diffusion". NovelAI. October 11, 2022. Archived from the original on October 27, 2022.
  42. ^ Yuki Yamashita (September 1, 2022). "愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ 米Googleが開発". ITmedia Inc. (in Japanese). Archived from the original on August 31, 2022.
  43. ^ Meng, Chenlin; He, Yutong; Song, Yang; Song, Jiaming; Wu, Jiajun; Zhu, Jun-Yan; Ermon, Stefano (August 2, 2021). "SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations". arXiv:2108.01073 [cs.CV].
  44. ^ a b c d "Stable Diffusion web UI". GitHub. 10 November 2022.
  45. ^ invisible-watermark, Shield Mountain, 2022-11-02, retrieved 2022-11-02
  46. ^ "stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools". GitHub. Retrieved 2022-11-02.
  47. ^ "Stable Diffusion v2.1 and DreamStudio Updates 7-Dec 22". stability.ai. Archived from the original on December 10, 2022.
  48. ^ a b Luzi, Lorenzo; Siahkoohi, Ali; Mayer, Paul M.; Casco-Rodriguez, Josue; Baraniuk, Richard (2022-10-21). "Boomerang: Local sampling on image manifolds using diffusion models". arXiv:2210.12100 [cs.CV].
  49. ^ Bühlmann, Matthias (2022-09-28). "Stable Diffusion Based Image Compression". Medium. Retrieved 2022-11-02.
  50. ^ Zhang, Lvmin (10 February 2023). "Adding Conditional Control to Text-to-Image Diffusion Models". arXiv:2302.05543 [cs.CV].
  51. ^ "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co. Retrieved 2023-08-17.
  52. ^ "runwayml/stable-diffusion-v1-5 · Hugging Face". huggingface.co. Retrieved 2023-08-17.
  53. ^ "stabilityai/stable-diffusion-2 · Hugging Face". huggingface.co. Retrieved 2023-08-17.
  54. ^ "stabilityai/stable-diffusion-2-1 · Hugging Face". huggingface.co. Retrieved 2023-08-17.
  55. ^ "stabilityai/stable-diffusion-xl-base-1.0 · Hugging Face". huggingface.co. Retrieved 2023-08-17.
  56. ^ a b Cai, Kenrick. "Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion". Forbes. Retrieved 2022-10-31.
  57. ^ a b "高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI". Automaton Media (in Japanese). August 24, 2022.
  58. ^ a b Ryo Shimizu (August 26, 2022). "Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由". Business Insider Japan (in Japanese).
  59. ^ https://www.bbc.com/news/uk-65932372.amp
  60. ^ Vincent, James (January 16, 2023). "AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit". The Verge.
  61. ^ Brittain, Blake (2023-07-19). "US judge finds flaws in artists' lawsuit against AI companies". Reuters. Retrieved 2023-08-06.
  62. ^ "Stable Diffusion Public Release". Stability.Ai. Archived from the original on 2022-08-30. Retrieved 2022-08-31.
  63. ^ "From RAIL to Open RAIL: Topologies of RAIL Licenses". Responsible AI Licenses (RAIL). 18 August 2022. Retrieved 2023-02-20.
  64. ^ "Ready or not, mass video deepfakes are coming". The Washington Post. 2022-08-30. Archived from the original on 2022-08-31. Retrieved 2022-08-31.
  65. ^ "License - a Hugging Face Space by CompVis". huggingface.co. Archived from the original on 2022-09-04. Retrieved 2022-09-05.
  66. ^ Katsuo Ishida (August 26, 2022). "言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能". Impress Corporation (in Japanese).

외부 링크