스테이블 디퓨전
스테이블 디퓨전(Stable Diffusion)은 스태빌리티 AI(Stability AI)가 2022년에 출시한 텍스트 및 이미지 프롬프트에서 고유한 실사 이미지를 생성하는 생성형 AI다.
[아사달] 스마트 호스팅 |
개요
스테이블 디퓨전은 스태빌리티 AI가 개발한 오픈소스 이미지 생성 모델로, 강력한 커스터마이징 기능과 높은 유연성을 제공한다. 텍스트 설명에 따라 상세한 이미지를 생성하는 데 주로 사용되지만 인페인팅, 아웃페인팅, 이미지 생성과 같은 다른 작업에도 적용할 수 있다. 스태빌리티 AI가 여러 학술 연구원 및 비영리 단체와 공동으로 개발했다. 스테이블 디퓨전은 심층 생성 신경망의 일종인 잠재 확산 모델이다. 대다수의 이미지 인공지능들은 온라인에서만 서비스하는데, 스테이블 디퓨전은 개인의 PC로 실행 즉 로컬 환경으로 설치 및 실행 할수있는게 큰 차이점이다. 코드 및 모델 가중치가 공개되었으며 최소 8GB VRAM이 있는 일반 GPU가 장착된 대부분의 소비자 하드웨어에서 실행할 수 있다. 이는 클라우드 서비스를 통해서만 액세스할 수 있었던 달리 및 미드저니와 같은 이전의 독점 텍스트-이미지 모델에서 출발했다.
스테이블 디퓨전은 고해상도 이미지 생성, 다양한 조건부 생성, 적용 범위의 확장 등이 주요 특징이다. 먼저 스테이블 디퓨전은 텍스트 설명을 기반으로 고해상도의 이미지를 생성할 수 있는 능력을 갖추고 있다. 이는 이미지 생성 과정에서 기존의 디퓨전 모델과 달리 오토인코더를 활용하여 이미지의 잠재 공간(latent space)에서 학습이 이루어지기 때문이다. 이 접근 방식은 이미지의 질감을 더욱 풍부하고 세밀하게 만들 수 있다. 또한 스테이블 디퓨전은 텍스트뿐만 아니라 다양한 조건을 기반으로 이미지를 생성할 수 있다. 이는 크로스 어텐션 메커니즘을 통해 텍스트, 이미지, 기타 표현을 조건으로 활용할 수 있게 한 덕분이다. 예를 들어, 사용자가 입력한 텍스트 설명과 함께 참조 이미지를 조건으로 추가하면, 해당 조건을 반영한 이미지를 생성할 수 있다.[1] 더불어 스테이블 디퓨전은 단순히 이미지 생성에 그치지 않고, 비디오 생성과 같은 다른 미디어 형식으로도 확장되고 있다. 런웨이(Runway)와의 협력을 통해 개발된 Gen-1 모델은 텍스트 입력이나 참조 이미지를 사용하여 기존 영상을 새로운 영상으로 변환하는 기능을 제공한다. 이는 스테이블 디퓨전 기술이 이미지 생성에서 비디오 생성으로 확장되고 있음을 보여준다.[2]
역사
스테이블 디퓨전은 딥러닝 기술을 활용해 텍스트로부터 이미지를 생성하는 인공지능 모델로, 이미지 생성 AI의 혁신적인 발전을 이끈 중요한 프로젝트이다. 그 역사는 독일 뮌헨대학교의 Machine Vision & Learning Group(CompVis) 연구실에서 시작되었으며, 이들은 '잠재 확산 모델을 이용한 고해상도 이미지 합성 연구'를 통해 이 기술의 기반을 다졌다. 이 연구는 고해상도의 이미지를 생성하는 데 사용되는 잠재 확산 모델(Latent Diffusion Model)의 개념을 소개하며, 이후 스테이블 디퓨전 모델의 개발에 중요한 역할을 했다. 스태빌리티 AI는 이 기술을 더욱 발전시키는 데 중요한 역할을 한 회사로, 영국의 기업가 에마드 모스타크(Emad Mostaque)에 의해 설립되었다. 스태빌리티 AI는 CompVis와 협력하여 이 모델을 대중에게 공개할 수 있도록 했으며, 특히 대규모 오픈소스 커뮤니티의 힘을 빌려 스테이블 디퓨전을 누구나 사용할 수 있도록 했다. 이 과정에서 중요한 컴퓨팅 자원과 데이터베이스, 특히 LAION-5B라는 방대한 데이터베이스를 활용해 모델을 학습시켰다. 이로 인해 스테이블 디퓨전은 오픈AI(OpenAI)의 달리(DALL-E 2)나 구글의 이마젠과 같은 기존의 이미지 생성 모델들보다도 훨씬 적은 컴퓨팅 자원으로 동작할 수 있게 되었다.
스테이블 디퓨전의 오픈소스화는 AI 이미지 생성의 민주화를 가져왔다. 이 모델은 오픈소스로 공개됨으로써 전 세계 개발자들과 일반 사용자들이 자유롭게 접근하고 응용할 수 있었으며, 이는 다양한 AI 이미지 생성 서비스의 폭발적인 증가를 초래했다. 스테이블 디퓨전은 기술적 혁신과 함께 문화적, 경제적 파급 효과를 일으키며 가장 대중적인 이미지 생성형 AI 중 하나로 자리 잡았다. 그러나 스테이블 디퓨전의 발전은 순탄치만은 않았다. 스태빌리티 AI의 설립자 겸 CEO인 에마드 모스타크가 사임하고 핵심 개발팀이 일부 이탈하면서 회사의 미래에 대한 불확실성이 제기되었다. 또한, 회사는 상업적 이용에 대한 수수료 정책을 도입하는 등 방향성을 조정하기 시작했으며, 이는 커뮤니티와의 긴장감을 불러일으켰다.
2023년 7월, 스태빌리티 AI는 스테이블 디퓨전의 새로운 버전인 SDXL을 출시했다. 이 모델은 기존 모델에 비해 매개변수의 수가 약 3배 증가하여 훨씬 정교한 이미지 생성이 가능해졌지만, 동시에 요구되는 하드웨어 사양도 크게 늘어났다. 2024년에는 더욱 효율적인 내부 알고리즘을 적용한 SD3 모델이 출시되었으며, 이는 기존 모델보다 가볍고 효율적이면서도 높은 품질의 이미지를 생성할 수 있도록 설계되었다. 그러나 이 모델은 비상업적 목적으로만 사용 가능하다는 제한이 붙어 있어, 대중화에 한계가 있을 것으로 보인다. 스테이블 디퓨전의 개발 과정에서 생긴 어려움과 불확실성에도 불구하고, 이 모델은 AI 이미지 생성 기술의 선두에 서 있으며, 이후에도 지속적인 발전을 통해 그 영향력을 확대해 나갈 것으로 기대된다.[3]
버전
- 2022년 8월 22일에 1.0 버전이 첫 출시되었다.
- 2022년 11월 24일에는 상황 인식 편집과 이미지 해상도를 높이는 등의 기능이 개선된 2.0 버전을 발표했다. 지적재산권 보호를 위해 일부 예술가의 그림체와 성인용 콘텐츠 제작을 더 이상 지원하지 않는다. 독일 비영리 AI단체 라이온(LAION)이 개발한 텍스트 인코더 오픈클립(OpenCLIP)으로 교육된 텍스트를 이미지로 변환하는 AI모델이 포함됐다. AI모델 추가로 512x512 픽셀과 768x768 픽셀 모두의 기본 해상도로 이미지를 생성할 수 있다. 또한 이미지 해상도를 4배 향상시키는 어퍼 스케일 디퓨전 모델도 추가됐다. 텍스트에서 이미지 변환 모델과 조합해 2048×2048 픽셀 또는 그 이상의 해상도의 이미지 생성이 가능해졌다. 이미지의 깊이를 추론해 텍스트와 깊이 정보를 사용하여 새 이미지를 생성할 수 있는 뎁스투이미지(depth2img)라는 신규 기능이 추가되었다.[4]
- 2022년 12월 13일에 스태이블 디퓨전에서 시각 초음파를 오디오로 변환해 음악을 생성하는 리퓨전(Riffusion)이 출시되었다. 리퓨전은 이미지 생성 AI 스테이블 디퓨전 1.5 이미지 합성 모델의 미세조정 버전을 사용해 오디오를 2차원 이미지로 표현하는 표현하는 소노그램을 생성해 작동한다. 미세조정은 사전 훈련된 모델을 특정 종류의 콘텐츠를 사용해 추가적으로 훈련시켜 해당 콘텐츠를 전문적으로 생성할 수 있도록 한다. 이러한 미세조정의 결과로 리퓨전은 '재즈', '록' 또는 키보드 입력과 같이 듣고 싶은 음악이나 소리의 유형을 설명하는 텍스트 프롬프트를 기반으로 즉석에서 새로운 음악을 생성할 수 있다.[5]
- 2022년 12월 15일에 새로운 기능을 추가했다. 아티스트가 데이터셋에 있는 자신의 작품을 삭제할 수 있는 기능으로, 아티스트 저작권에 대한 이슈를 방지하기 위해 추가했다. 삭제를 원하는 아티스트는 헤브아이빈트레인(HaveIBeenTrained)에 접속해 텍스트나 파일을 입력하면 된다.[6]
- 2023년 7월에 개량형 버전인 'SDXL'이 출시됐다. 더 나은 대비, 조명 및 그림자로 더 생생하고 정확한 색상을 생성하며 여러 종횡비에서 몇 초 만에 1024x1024 해상도 이미지를 생성할 수 있는 가장 진보된 이미지 생성 AI 모델이다. 이미지 내 누락된 부분 재구성하는 인페인팅, 기존 이미지를 확장하는 아웃페인팅, 이미지 프롬프트 기능 등을 지원한다. 특히 스태빌리티 AI 플랫폼의 API를 통해 작은 이미지 세트를 사용하여 SDXL 1.0을 미세 조정할 수 있다. SDXL 1.0은 35억개 매개변수의 기본 모델과 66억개 매개변수의 고급 모델로 구성됐다. 고급 모델은 기본 모델에 비해 더 정확한 색상, 더 높은 대비 및 더 미세한 세부 정보가 추가된 이미지를 생성한다.[7]
- 2024년 2월에 3.0 버전이 공개되었다. 다중 피사체 프롬프트 처리, 더 높은 이미지 품질 제공, 향상된 철자 능력 등에서 개선된 모델이다. 8억 개에서 80억 개의 파라미터를 지원하며, 확산 트랜스포머 아키텍처와 흐름 매칭 기술을 결합한다.[8]
구조
스테이블 디퓨전은 텍스트에서 이미지를 생성하는 인공지능 모델로, 크게 세 가지 주요 신경망 구조로 이루어져 있다. CLIP, UNet, 그리고 VAE(Variational Autoencoder)이다. 이 구조들은 각각 고유한 역할을 수행하며, 협력하여 텍스트 기반 이미지 생성 작업을 수행한다. 먼저, CLIP은 텍스트 인코더 역할을 수행한다. 사용자가 입력한 텍스트를 분석해 텍스트의 의미를 이해하고, 이를 UNet이 처리할 수 있는 형태인 토큰(Token)으로 변환한다. 이 과정에서 텍스트는 고유한 벡터 표현으로 인코딩된다. UNet은 스테이블 디퓨전의 핵심적인 이미지 생성 과정을 담당한다. 이 신경망은 초기에는 무작위로 생성된 노이즈를 받아들이며, CLIP에서 전달된 텍스트 토큰을 참조하여 점차적으로 이미지를 형성한다. 이 과정은 디노이징(Denoising)이라고 불리며, 여러 반복을 통해 노이즈를 제거하고 의미 있는 이미지가 생성되기 시작한다. 마지막으로, VAE(Variational Autoencoder)는 UNet이 생성한 이미지의 잠재 공간(latent space)에서 벡터로 표현된 이미지를 실제 픽셀로 변환하는 역할을 한다. 이 단계에서 이미지는 최종적으로 시각화 가능한 형태로 출력된다. 스테이블 디퓨전의 중요한 특징 중 하나는 고해상도 이미지를 생성할 때 필요한 컴퓨팅 자원을 크게 줄인다는 점이다. 이는 오토인코더를 활용해 이미지의 전체 픽셀 공간이 아닌, 훨씬 작은 차원의 잠재 공간에서 노이즈를 삽입하고 제거하는 방식으로 가능해진다. 덕분에, 스테이블 디퓨전은 일반적인 가정용 그래픽카드로도 고해상도 이미지를 생성할 수 있다. 이 접근 방식은 기존의 확산 확률 모델과 비교해 고해상도 이미지 생성에 있어 리소스 효율성을 극대화한 것으로, 다양한 환경에서 활용할 수 있게 하였다.[3]
사용방법
사용자는 스태빌리티 AI의 공식 웹사이트를 방문하거나 드림스튜디오와 같은 웹 애플리케이션을 통해 스테이블 디퓨전에 접근할 수 있다. 드림스튜디오는 사용자가 이미지를 생성하고 편집할 수 있는 웹 애플리케이션이며, 클립드롭은 이미지 생성에 특화된 애플리케이션 및 플러그인을 제공하는 에코시스템이다. 스테이블 디퓨전을 사용하기 위해서는 다음 단계를 따르면 된다.
1. 스테이블 디퓨전 사용자 인터페이스를 연다.
2. 이미지를 설명하는 텍스트 프롬프트를 입력하거나, 이미지를 업로드하고 이미지 변경 방법에 대한 텍스트 프롬프트를 입력한다.
3. 생성 버튼을 클릭하여 텍스트 프롬프트에 따라 몇 개의 이미지를 생성한다.
4. 원하는 경우 텍스트 프롬프트와 모델의 잠재 변수를 조정하여 스타일, 내용, 테마 등 출력물의 다양한 측면을 제어한다.
5. 모델이 원하는 결과를 생성하면 나중에 사용할 수 있도록 로컬에 저장한다.[9]
활용
스테이블 디퓨전은 다양한 곳에 활용될 수 있다. 먼저 스테이블 디퓨전은 예술가와 디자이너에게 창의적인 도구로 활용될 수 있다. 예를 들어, 예술가는 텍스트 설명을 입력하여 다양한 예술 작품의 초안을 생성할 수 있으며, 디자이너는 광고나 마케팅용 이미지를 빠르게 제작할 수 있다. 이는 창작 과정에서 많은 시간을 절약하고, 다양한 아이디어를 시각적으로 구현하는 데 큰 도움이 된다.[10] 또한 교육 분야에서도 스테이블 디퓨전은 강의 자료 제작이나 연구 자료 시각화에 유용하게 사용될 수 있다. 예를 들어, 복잡한 개념을 시각적으로 설명해야 할 때 스테이블 디퓨전을 사용하여 관련 이미지를 생성하고 이를 강의 자료에 포함시킬 수 있다.[11] 더불어 기업들은 스테이블 디퓨전을 활용하여 광고, 마케팅, 제품 디자인 등의 상업적 목적으로 이미지를 생성할 수 있다. 이는 시장 출시 속도를 높이고, 다양한 마케팅 캠페인을 더욱 효과적으로 실행하는 데 기여한다.
저작권
스테이블 디퓨전은 CreativeML Open RAIL-M 라이선스에 따라 제공되므로, 사용자가 생성한 이미지의 상업적 및 비상업적 사용이 가능하다. 그러나 이 라이선스는 스테이블 디퓨전을 사용해 생성된 이미지의 기본 자료에 대한 저작권을 다루지 않는다. 따라서, 저작권이 있는 이미지나 그림을 스테이블 디퓨전으로 수정하거나 변환한 경우, 새롭게 생성된 이미지의 저작권은 원본 이미지의 저작권자에게 귀속된다. 예를 들어, 저작권이 있는 사진을 활용해 스테이블 디퓨전으로 추가적인 요소를 합성(인페인팅)하거나 이미지를 확장(아웃페인팅)할 경우, 그 결과물에 대한 저작권은 여전히 원본 저작권자에게 있다. 이 점은 사용자가 법적 문제를 피하기 위해 꼭 고려해야 할 사항이다.[9]
논란
스테이블 디퓨전 3.0의 출시는 최신 이미지 생성형 인공지능(AI) 모델의 발전을 보여주었지만, 여러 논란을 일으키고 있다. 특히 스테이빌리티 AI가 이번 버전에서 성인물을 학습 데이터에서 제외하면서, 그 결과로 신체 표현이 이전보다 저하되었다는 비판이 제기되고 있다. 스테이빌리티 AI는 스테이블 디퓨전 3을 "가장 진보된 이미지 AI"라고 홍보했지만, 사용자들 사이에서는 신체 이미지의 왜곡이나 오류에 대한 불만이 쏟아지고 있다. 특히 소셜미디어 플랫폼인 레딧에서는 인체 생성 오류에 대한 지적이 빈번히 등장하고 있다. 많은 사용자는 이러한 오류가 성인 콘텐츠를 필터링한 데이터셋의 결과라고 추측하고 있다. 이는 스테이블 디퓨전의 주요 커뮤니티와 관련 기업들 사이에서 새로운 라이선스 정책이 그들의 사업 모델과 부합하지 않는다는 우려를 낳고 있다.
스테이빌리티 AI가 성인 콘텐츠를 학습 데이터에서 배제한 것은 책임 회피를 위한 조치라는 비판도 존재한다. 예를 들어, 시빗AI(CivitAI)의 창업자 저스틴 마이어는 성인 콘텐츠를 배제함으로써 인체 생성 오류가 발생하게 되었으며, 이러한 조치는 사용자보다는 회사의 법적 안전을 위한 것이라고 주장했다. 이러한 문제로 인해 일부 사용자는 '오픈 모델 이니셔티브(Open Model Initiative)'와 같은 대안을 모색하고 있다. 이들은 개방형 라이선스를 가진 AI 모델을 개발해, 특정 콘텐츠 필터링 없이 자유롭게 사용할 수 있는 모델을 구축하겠다는 계획을 가지고 있다. 이는 AI 개발 과정에서 데이터 제공자 및 사용자와 맺는 라이선스 계약을 재고하고, AI 모델의 활용 방안을 보다 자유롭게 설정하려는 시도로 해석될 수 있다.[12]
각주
- ↑ 새우까앙, 〈<논문리뷰> Stable Diffusion(High-Resolution Image Synthesis with Latent Diffusion Models)〉, 《티스토리》, 2023-11-24
- ↑ Will Douglas Heaven, 〈스테이블 디퓨전 개발사, 새로운 영상 생성 AI 공개〉, 《MIT 테크놀로지 리뷰》, 2023-02-15
- ↑ 3.0 3.1 〈Stable Diffusion〉, 《나무위키》
- ↑ 남혁우 기자, 〈스테이블 디퓨전 2.0, 저작권 침해 및 성인용 콘텐츠 막는다〉, 《지디넷코리아》, 2022-11-29
- ↑ 박찬 기자, 〈텍스트에서 음악 생성하는 인공지능(AI) '리퓨전'〉, 《AI타임스》, 2022-12-20
- ↑ 김미정 기자, 〈AI 이미지 생성기 '스테이블디퓨전 3.0', 저작권자에 삭제권한 준다〉, 《지디넷코리아》, 2022-12-16
- ↑ 박찬 기자, 〈스태빌리티AI, 최신 '스테이블 디퓨전 XL 1.0' 출시〉, 《AI타임스》, 2023-07-27
- ↑ 최승은 기자, 〈스테빌리티 AI, 차세대 이미지 생성AI ‘스테이블 디퓨전 3’ 발표〉, 《매드타임스》, 2024-02-25
- ↑ 9.0 9.1 Margaret Rouse, 〈스테이블 디퓨전 (이미지 생성 인공지능)〉, 《테코피디아》, 2024-07-18
- ↑ 유현우, 〈<이슈리포트> 2023-4-미국 의회 조사국 「생성형 AI와 저작권법(Generative Artificial Intelligence and Copyright Law)」검토 보고서〉, 《웰콘》, 2023-11-08
- ↑ James AI Explorer, 〈AI 논문 분석 : 생성형 AI 모델 종류 및 특징 정리〉, 《티스토리》, 2023-11-14
- ↑ 이상덕 기자, 〈성인콘텐츠 뺐더니 망가진 AI? “신체 표현 엉망”…AI 학습 방식 논란〉, 《매일경제》, 2024-07-01
참고자료
- 〈Stable Diffusion〉, 《나무위키》
- 남혁우 기자, 〈스테이블 디퓨전 2.0, 저작권 침해 및 성인용 콘텐츠 막는다〉, 《지디넷코리아》, 2022-11-29
- 박찬 기자, 〈텍스트에서 음악 생성하는 인공지능(AI) '리퓨전'〉, 《AI타임스》, 2022-12-20
- 김미정 기자, 〈AI 이미지 생성기 '스테이블디퓨전 3.0', 저작권자에 삭제권한 준다〉, 《지디넷코리아》, 2022-12-16
- Will Douglas Heaven, 〈스테이블 디퓨전 개발사, 새로운 영상 생성 AI 공개〉, 《MIT 테크놀로지 리뷰》, 2023-02-15
- 박찬 기자, 〈스태빌리티AI, 최신 '스테이블 디퓨전 XL 1.0' 출시〉, 《AI타임스》, 2023-07-27
- 유현우, 〈<이슈리포트> 2023-4-미국 의회 조사국 「생성형 AI와 저작권법(Generative Artificial Intelligence and Copyright Law)」검토 보고서〉, 《웰콘》, 2023-11-08
- James AI Explorer, 〈AI 논문 분석 : 생성형 AI 모델 종류 및 특징 정리〉, 《티스토리》, 2023-11-14
- 새우까앙, 〈<논문리뷰> Stable Diffusion(High-Resolution Image Synthesis with Latent Diffusion Models)〉, 《티스토리》, 2023-11-24
- 최승은 기자, 〈스테빌리티 AI, 차세대 이미지 생성AI ‘스테이블 디퓨전 3’ 발표〉, 《매드타임스》, 2024-02-25
- 이상덕 기자, 〈성인콘텐츠 뺐더니 망가진 AI? “신체 표현 엉망”…AI 학습 방식 논란〉, 《매일경제》, 2024-07-01
- Margaret Rouse, 〈스테이블 디퓨전 (이미지 생성 인공지능)〉, 《테코피디아》, 2024-07-18
같이 보기