검수요청.png검수요청.png

칼로

위키원
sosodam (토론 | 기여)님의 2024년 7월 30일 (화) 12:01 판
이동: 둘러보기, 검색
칼로(Karlo)
칼로(Karlo)

칼로(Karlo)는 카카오브레인이 개발한 텍스트 기반 이미지 생성 모델이다.

개요

칼로는 3억 장 규모의 이미지 데이터를 학습해 3초 만에 이미지를 그려내는 초거대 인공지능 이미지 생성 모델이다. 현재 2.0 버전까지 개발된 칼로는 월 최대 500장까지 이미지를 무료로 생성할 수 있던 칼로 1.4 모델을 업그레이드한 것이다. 1.0 알파 버전은 2022년 12월 오픈소스로 공개되어 사용자들로부터 다양한 피드백을 받았다. 이러한 피드백은 모델을 개선하고 발전시키는 데 중요한 역할을 했다. 2023년 1월 9일, 칼로의 기능을 다른 응용 프로그램이나 서비스에서 이용할 수 있도록 카카오디벨로퍼스에서 API로 공개되었다. 이와 함께 칼로 2.0 모델 역시 API 형태로 제공되고 있다. 2023년 7월, 텍스트 데이터 셋 규모를 1.2억 장에서 3억 장으로 확대하여 학습한 칼로 2.0이 공개되었다. 이를 통해 다른 웹 및 모바일 앱 서비스와 연동하여 사용할 수 있으며, 월 60만 장의 이미지를 무료로 생성할 수 있어 AI 기술에 대한 진입 장벽을 낮추는 데 기여하고 있다.[1] 칼로 2.0은 이전 버전에 비해 성능이 고도화되면서 그림이 더 세밀해지고 그림 생성 속도도 빨라졌다. 3초 만에 생성되는 이미지는 최대 2048x2048 해상도를 지원한다. 그림에 넣지 말아야 할 사물들을 정하는 '부정 명령어' 인식 기능도 추가됐다. 칼로 2.0은 인체 비율 및 구도, 공간감과 입체감을 표현하는 투시도 등 다양한 이미지 데이터를 학습시키고 기술을 고도화하여, 실사 수준의 이미지를 생성할 수 있다.[2]

사용 방법

칼로는 웹사이트에 접속하여 이용할 수 있다. 사용 방법은 아주 간단하다. 이미지에 대한 프롬프트를 바다의 왕(king of the sea)과 같은 키워드 형태로 입력하면 된다. 이미지 생성에 제외하고 싶은 사항이 있다면 부정적인 프롬프트 란에 해당되는 키워드를 넣으면 된다. 원하는 화풍을 반영하고 싶다면, 프롬프트에 애니메이션과 같은 화풍명을 추가하거나 AI 캔버스(AI Canvas) 내 화풍(Style) 메뉴 중 적절한 화풍을 선택한 후 프롬프트를 입력해 만들 수 있다. 사용자는 AI 생성 이미지를 자연스럽게 확장하는 아웃페인팅(Outpainting), 이미지 내 특정 영역을 새로운 이미지로 변경하는 인페인팅(Inpainting) 기능을 이용해 생성된 이미지를 원하는 대로 수정 및 보완할 수도 있다. 특히 아웃페인팅 기능을 사용하면 이미지 사이즈를 무제한으로 확장 가능하다.[3]

기능

  • 이미지 생성하기: 주어진 제시어에 따라 이미지를 생성한다.
  • 이미지 변환하기: 주어진 이미지의 내용을 이해하고 새로운 이미지로 생성한다.
  • 이미지 편집하기: 이미지의 선택 영역 또는 경계 영역의 이미지를 이해하고 연결된 이미지를 생성한다.[4]

제시어

제시어(Prompt)는 칼로 API를 통해 이미지를 생성하는 데 필요한 입력 정보이다. 제시어는 생성할 이미지를 묘사하는 단어 또는 문장을 말한다. 칼로 API는 영어만 지원하며, 단순한 단어의 나열부터 장문의 묘사까지 구체적으로 이해할 수 있다. 따라서, 영어가 유창하지 않아도 누구나 쉽게 사용할 수 있다. 같은 제시어를 사용하여 다양한 구도와 스타일의 이미지를 생성할 수 있으며, 제시어를 수정하고 보완하여 원하는 이미지와 더 가까운 결과를 얻을 수 있다. 칼로가 이해하기 쉬운 제시어를 작성하려면 객관적이고 명확한 표현을 사용하는 것이 중요하다. 예를 들어, 'A girl'보다는 'A teenage girl with dark black eyes and flowy hair'처럼 구체적인 묘사를 포함한 표현이 더 효과적이다. 그러나 AI 모델이 자연스럽게 그려내기 어려운 요소들이 있는데, 이러한 요소들을 포함한 제시어는 피하는 것이 좋다. 예를 들어, 손이나 발과 같은 관절 부위에 대한 묘사, 다수의 인물이 특정 표정을 짓는 장면, 복잡한 구도나 배치를 요구하는 제시어 등은 적합하지 않다.[4]

부정 제시어

부정 제시어(Negative prompt)는 제시어와 반대되는 정보를 입력하여 이미지 생성 시 제외해야 할 요소를 지정하는 단어나 문장이다. 이를 통해 원치 않는 요소를 제외하거나, 이미지의 품질을 낮추는 요소들을 제거할 수 있다.[4]

어휘 선택

  • 명사: 칼로에게 전달할 제시어에는 표준어 명사를 사용해야 한다. 방언이나 속어를 사용할 경우, 칼로가 이해하지 못하여 올바른 이미지를 생성하지 못할 수 있다. 동음이의어를 피하고, 의도를 명확히 전달할 수 있는 명사를 선택하는 것이 중요하다. 예를 들어, 'A tiger', 'A sleeping tiger', 'A baby tiger'와 같이 구체적으로 명시하면 보다 정확한 이미지 생성이 가능하다.
  • 시간: 시간에 대한 표현도 제시어에 포함할 수 있다. 하루의 시간대(낮, 밤, 새벽, 저녁)나 특정 시기(여름, 크리스마스) 등을 지정할 수 있으며, 이를 통해 같은 제시어로도 다양한 이미지를 생성할 수 있다.
  • 색감: 색감에 대한 표현을 포함하면 이미지의 느낌을 조절할 수 있다. 예를 들어, 'bright', 'warm', 'vivid' 등의 색감 표현을 사용하여 같은 제시어로 다양한 분위기의 이미지를 얻을 수 있다.
  • 스타일: 제시어에 'by'와 특정 작가의 이름을 포함하여 해당 작가의 스타일을 반영한 이미지를 생성할 수 있다. 예를 들어, 'by Renoir'와 같은 표현을 추가하면 특정 작가의 스타일을 연상시키는 이미지를 생성할 수 있다.[4]

안전 기술

안전한 학습 데이터 확보

생성형 이미지 모델을 학습시키기 위해서는 대규모의 이미지 데이터가 필요하다. 이를 위해 보통 공개된 데이터셋을 사용하거나 웹 크롤링을 통해 이미지를 수집한다. 그러나 이러한 방식은 저작권 문제나 부적절한 내용이 포함될 위험이 있다. 이를 방지하기 위해 칼로는 CLIP zeroshot 기반의 k-nn 분류기를 활용한 NSFW 체커를 사용하여 부적절한 콘텐츠가 학습되지 않도록 했다. 또한, 인물이나 사진 데이터의 경우 선정성, 저작권 문제, 부적절한 표현이 없는지를 사람이 직접 검토한 후 학습 데이터로 사용하였다.

부적절한 이미지 생성을 막는 시스템 구축

칼로는 생성된 이미지 중 혐오스러운 내용이나 부적절한 이미지를 필터링하여 사용자에게 보여주지 않는 기능을 갖추고 있다. 이는 노출도가 높거나 혐오감을 주는 결과물을 이미지 분류 모델에 학습시킨 NSFW 필터를 통해 가능하다. 이러한 필터에도 불구하고 사용자가 의도적으로 부적절한 콘텐츠를 생성하려는 경우를 방지하기 위해, 칼로는 자체 개발한 금칙어 데이터베이스를 사용하고 있다. 이 데이터베이스에는 프롬프트로 지원되는 언어에서 사용할 수 있는 부적절한 단어나 표현, 정치적 발언 및 혐오 발언 등이 포함되어 있어, 사용자 입력 단계에서부터 민감한 이슈나 부적절한 이미지의 생성을 방지한다. 부적절한 이미지 생성을 자동으로 탐지하는 기술은 계속 발전 중이지만, 여전히 사람이 직접 모니터링하는 과정이 필요하다. 칼로의 모니터링 담당자들은 부적절한 콘텐츠가 발견될 경우 즉시 대응하며, 자동화 시스템과 고객 대응 모니터링 팀이 협력하여 이러한 내용을 신속하게 처리하고 있다. 또한, 칼로 웹 갤러리에 전시된 작품 중 비윤리적이거나 저작권 및 초상권을 침해한 이미지가 있을 경우, 사용자가 직접 신고할 수 있는 기능도 제공하고 있다.

비가시성 워터마크 도입으로 딥페이크 대응

딥페이크 이미지의 피해를 예방하고 최소화하기 위해서는 이를 감지하고 식별할 수 있는 기술이 필요하다. 칼로에서 생성된 모든 이미지에는 비가시성 워터마크가 삽입된다. 이 워터마크는 가시성 워터마크와 달리 이미지의 일부를 변형시키거나 훼손하지 않으며, 이미지의 부분 편집을 하더라도 워터마크는 제거되거나 손상되지 않는다. 특정 이미지가 칼로를 통해 생성된 딥페이크인지 확인하려면 전문가들은 SDK API를 이용할 수 있고, 일반 사용자는 스냅태그 홈페이지에 이미지를 업로드하여 확인할 수 있다.[5]

활용

AI 프로필

칼로 AI 프로필은 최신 이미지 생성 모델을 활용하여 AI 프로필 이미지를 생성해주는 서비스로, 카카오톡 채널을 통해 제공된다. 이 서비스를 이용하면 누구나 손쉽게 AI 프로필 이미지를 만들 수 있으며, 한 장의 얼굴 사진만으로도 최대 1024x1536 해상도의 이미지를 생성할 수 있다. 서비스를 이용하려면 카카오톡에서 칼로 AI 프로필 채널을 추가하고, 간단한 가입 절차를 거쳐야 한다. 이후 최소 1장에서 최대 10장의 정면 사진을 업로드하고, 원하는 테마와 성별을 선택한 후 이용료 990원을 결제하면 5분 내로 10장의 AI 프로필 이미지를 받아볼 수 있다. 칼로 AI 프로필은 매달 새로운 테마를 추가하여 제공하고 있다. 현재 제공되는 테마로는 뉴스 앵커로 변신할 수 있는 '시청자 여러분 안녕하십니까', 연말 파티 분위기를 연출하는 '크리스마스 스냅 사진'과 '메리 키즈 크리스마스', 아이를 왕자나 공주로 꾸며주는 '우리집 왕자님'과 '우리집 공주님', 연예인 스타일로 변신할 수 있는 '칼로의 미용실' 등이 있다. 현재 여성, 남자아이, 여자아이의 테마를 지원하고 있으며, 곧 남성 테마도 추가될 예정이다.

카카오톡 사용자라면 누구나 별도의 앱 다운로드 없이 칼로 AI 프로필 채널을 이용할 수 있다. 카카오브레인은 이 서비스의 이해도와 사용 편의성을 높이기 위해 대화형 봇 기반의 가이드를 제공하고 있어, 누구나 쉽게 서비스를 이용할 수 있다. 더 나은 품질의 AI 프로필 이미지를 얻기 위해서는 얼굴과 머리가 잘 보이는 사진, 얼굴 주변에 손이나 안경, 모자, 장신구 등이 없는 사진, 한 사람의 얼굴이 선명하게 담긴 사진을 업로드하는 것이 좋다. 생성된 AI 프로필 이미지는 사용자가 자유롭게 다운로드하여 카카오톡을 비롯한 각종 SNS의 프로필 이미지로 사용할 수 있다.[6]

비디스커버

비디스커버(B^ DISCOVER)는 칼로를 기반으로 한 이미지 생성 및 공유 플랫폼이다. 앱을 실행하고 그림으로 그리기를 원하는 키워드와 그림 유형(유화, 수채화, 만화, 색연필 등)을 선택하면 약 5초 만에 그림이 완성된다.[7] 업데이트를 통해 추가된 AI 프로필은 사용자의 사진 하나로 다양한 배경 및 콘셉트의 이미지 100개를 약 1분 내로 그려주는 기능이다. 비디스커버 앱에서 사용자의 연령과 성별을 선택하고, 사용자의 사진 파일 하나만 업로드한 후 ‘생성’ 버튼을 클릭하면 이용할 수 있다. 생성된 100장의 이미지 외에 새로운 이미지가 보고 싶을 경우, 추가 생성도 가능하다. 또 얼굴 이미지만 생성하는 것이 아니라 어울리는 배경까지 함께 그려낸다. 이는 건당 6600원의 유료 서비스로, 제작한 이미지는 결제 후 1년 동안 앱에 저장된다.[8]

비에디트

비에디트(B^ EDIT)는 칼로를 기반으로 한 두 번째 서비스로, 텍스트로 이미지를 생성하는 것뿐만 아니라 이미지 내 일부분을 편집하는 인페인팅과 자동으로 이미지 바깥 영역을 채우는 아웃페인팅 기능이 포함된 일종의 편집 도구이다. 현재 오픈베타 서비스를 시행하고 있다. 이용자는 비에디트로 원하는 화풍 이미지 생성은 물론, 다양한 기능을 활용해 이미지를 수정하는 등 개개인 상상력을 마음껏 표현할 수 있다. 비에디트에 접속해 바로크, 3차원(3D) 렌더, 일본 애니메이션 등 총 30가지 화풍 중 원하는 화풍과 제시어(프롬프트)를 입력하면 AI가 화풍, 프롬프트에 적합한 이미지 8장을 5~10초 이내로 생성한다. 8장 외 또 다른 이미지를 보고 싶을 경우엔 더 보기(more) 버튼을 눌러 입력한 프롬프트를 토대로 새롭게 생성된 이미지를 최대 32장까지 확인할 수 있다. 비에디트는 자유로운 창작 활동을 돕고자 아웃페인팅(Outpainting), 인페인팅(Inpainting), CS2I(Color Sketch To Image) 등 기능도 갖췄다. 아웃페인팅은 프롬프트를 기반으로 생성된 이미지 혹은 사용자가 업로드한 이미지와 어울리는 그림을 연속적으로 생성해 이미지를 확장하는 기능이다. 가령 실사 사진 화풍으로 자율주행 자동차 이미지를 생성한 뒤 확장하고 싶은 부분에 캔버스를 놓고 프롬프트 '토끼 얼굴'을 입력하면, AI가 기존 이미지와 동일한 분위기의 토끼 얼굴 이미지를 그려준다.[9]

인페인팅은 이미지 특정 영역을 새로운 이미지로 변경하는 기능이다. 이미지 내 변경하고자 하는 영역을 선택해 삭제한 후 원하는 이미지의 프롬프트를 입력하면, 삭제된 영역에 해당 프롬프트와 일치하는 그림을 생성해 새로운 창작물을 만들어 낸다. CS2I는 이미지에서 수정이 필요한 부분을 선택해 삭제하고 원하는 색상으로 밑그림을 그린 후 프롬프트를 입력하면, 밑그림과 프롬프트를 조합해 기존 이미지와 어울리는 새로운 이미지를 만드는 기능이다. 예를 들어 나무가 빼곡한 숲속 이미지에 반짝이는 해를 추가하길 원한다면 수정할 부분을 선택, 삭제하고 노란색으로 해를 그린 뒤 '빛나는 태양' 프롬프트를 입력하면 된다. 이밖에도 비에디트는 세밀한 이미지 수정을 위한 캔버스 확대, 축소 기능을 제공한다. 이용자는 앞서 언급된 기능을 활용해 의도하는 바와 일치한 이미지를 보다 쉽고 빠르게 만들 수 있다. 완성된 이미지는 원하는 부분만 선택해, 파일로 다운로드할 수 있다.[10]

각주

  1. 오픈소스로 AI 생태계에 기여하는 카카오브레인의 노력〉, 《카카오》
  2. 임지선 기자, 〈3초 만에 고해상도 작품 뚝딱…카카오, AI화가 ‘칼로 2.0’ 공개〉, 《한겨레》, 2023-07-10
  3. Karlo.ai 서비스를 공개합니다!〉, 《카카오브레인 블로그》, 2023-07-19
  4. 4.0 4.1 4.2 4.3 Karlo〉, 《카카오 디벨로퍼스》
  5. 책임감은 높이고, 편리함은 더한 Karlo〉, 《카카오》
  6. 전미준 기자, 〈카카오톡 채널 ‘칼로 AI 프로필’ 오픈..“1장의 사진만으로도 정교하고 개성 있는 AI 프로필 이미지 생성”〉, 《인공지능신문》, 2023-11-24
  7. 임성호 기자, 〈카카오브레인, 인공지능이 그림 그려주는 '비 디스커버' 앱 출시〉, 《연합뉴스》, 2022-10-24
  8. 이주영 기자, 〈카카오브레인, ‘비 디스커버’에 ‘AI 프로필’ 서비스 출시〉, 《AI타임스》, 2023-03-28
  9. 배한님 기자, 〈카카오브레인, 전문가용 이미지 생성 AI '비 에디트' 공개〉, 《머니투데이》, 2023-03-07
  10. 김성현 기자, 〈카카오브레인, ‘비 에디트’ 오픈 베타 서비스〉, 《지디넷코리아》, 2023-03-07

참고자료

같이 보기


  검수요청.png검수요청.png 이 칼로 문서는 인공지능 서비스에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.