리퓨전

Riffusion
리퓨전
개발자
  • 세스 포르스그렌
  • 헤이크 마르티로스
초기 출시2022년 12월 15일
저장소github.com/hmartiro/riffusion-inference
작성 위치파이썬
유형텍스트 이미지 모델
면허증.MIT 라이선스
웹사이트riffusion.com
"전기 기타가 있는 보사노바" 프롬프트에서 생성된 스펙트로그램(위)과 변환 후 생성된 오디오(아래)

리퓨전은 세스 포르스그렌과 헤이크 마티로스가 설계한 신경망으로,[1] 오디오가 아닌 소리의 이미지를 사용하여 음악을 생성합니다.텍스트 프롬프트에서 이미지를 생성하기 위한 기존 오픈 소스 모델인 안정적 확산을 [1]스펙트로그램에서 미세 조정하기 위해 만들어졌습니다.이로 인해 텍스트 프롬프트를 사용하여 이미지 파일을 생성하는 모델이 생성되며, 이는 역 푸리에 변환을 통해 오디오 [2]파일로 변환될 수 있습니다.이러한 파일의 길이는 몇 초에 불과하지만 모델은 출력 사이의 잠재 공간을 사용하여 서로 다른 파일을 함께 [1][3]보간할 수도 있습니다.이는 img2img[4]알려진 안정적 확산 모델의 기능을 사용하여 수행됩니다.

결과적인 음악은 인간이 만든 [5]음악을 대체할 것 같지는 않지만, "디오트로문도" (다른 세계)[5]로 묘사되어 왔습니다.이 모델은 2022년 12월 15일에 출시되었으며 GitHub에서도 [2]코드를 무료로 사용할 수 있습니다.안정적 [4]확산에서 파생된 많은 모델 중 하나입니다.

리퓨전은 AI 텍스트-음악 생성기의 하위 집합으로 분류됩니다.2022년 12월, Mubert는[6] 비슷하게 Stable Diffusion을 사용하여 설명 텍스트를 음악 루프로 전환했습니다.2023년 1월, 구글은 MusicLM이라고 [7][8]불리는 자체 텍스트-음악 생성기에 대한 논문을 발표했습니다.

레퍼런스

  1. ^ a b c Coldewey, Devin (December 15, 2022). "Try 'Riffusion,' an AI model that composes music by visualizing it".
  2. ^ a b Nasi, Michele (December 15, 2022). "Riffusion: creare tracce audio con l'intelligenza artificiale". IlSoftware.it.
  3. ^ "Essayez "Riffusion", un modèle d'IA qui compose de la musique en la visualisant". December 15, 2022.
  4. ^ a b "文章に沿った楽曲を自動生成してくれるAI「Riffusion」登場、画像生成AI「Stable Diffusion」ベースで誰でも自由に利用可能". GIGAZINE.
  5. ^ a b Llano, Eutropio (December 15, 2022). "El generador de imágenes AI también puede producir música (con resultados de otro mundo)".
  6. ^ "Mubert launches Text-to-Music interface – a completely new way to generate music from a single text prompt". December 21, 2022.
  7. ^ "MusicLM: Generating Music From Text". January 26, 2023.
  8. ^ "5 Reasons Google's MusicLM AI Text-to-Music App is Different". January 27, 2023.