검수요청.png검수요청.png

클로바더빙

위키원
이동: 둘러보기, 검색

클로바더빙(CLOVA Dubbing)은 ㈜네이버에서 개발한 AI 보이스를 활용하여 영상 더빙 음성을 제공하는 서비스이다. 사용자가 입력한 문장을 음성으로 변환하여 영상에 합성한다.

아사달 스마트 호스팅 가로 배너 (since 1998).jpg
이 그림에 대한 정보
[아사달] 스마트 호스팅

개요[편집]

클로바더빙은 클로바의 독자적인 음성합성 기술로 만든 다양한 AI 보이스를 사용하여, 간편하게 글로 써서 음성을 만들 수 있는 서비스이다. 보유하고 있는 영상이나 PDF 파일을 업로드하고 키보드 타이핑만으로 음성을 더하거나, 별도의 파일 업로드 없이 텍스트만 입력하여 음성 콘텐츠 형태도 만들 수 있다. 어른, 아이,여자, 남자, 외국인 등 다양한 보이스와 여러 종류의 언어와 감정 표현이 제공되어 목적에 맞는 자연스러운 콘텐츠를 제작할 수 있다. 네이버가 2019년 짧은 분량의 녹음만으로 자연스러운 합성음을 만들 수 있는 AI 음성합성 기술 'NES'를 활용해 2020년 선보였다. 복잡한 학습 필요 없이 더빙 결과물을 편집할 수 있다는 장점이 있다. 개인 사용자가 AI 보이스를 사용한 콘텐츠 제작을 체험할 수 있도록, 매월 일정한 무료 사용량을 제공한다. 한국어, 영어, 일본어, 중국어, 스페인어, 대만어 등 여러 언어를 지원한다.[1][2][3] 클로바더빙은 누적 가입자 약 150만 명을 기록하며 마케팅, 교육, 취미 등 다양한 목적으로 영상·음성 콘텐츠를 제작하는 사용자들에게 호응을 얻고 있다. 클로바더빙에서 제공하는 AI 보이스는 406개에 달하고, 성별·연령·국적에 따른 여러 스타일의 보이스뿐만 아니라 리포터·쇼핑호스트·내레이션 등 구체적 상황에 적합한 보이스도 각각 제공한다.[4]

요금제[편집]

클로버더빙의 요금제는 무료, 스탠다드, 프리미엄으로 나뉜다. 무료 사용량은 매월 1일 새로 지급된다. 제작한 콘텐츠를 출처표기와 함께 무료 채널에 게시할 경우, 누구나 무료로 사용할 수 있다.

플랜 / 월[5] 무료
0원
스탠다드
19,900원
프리미엄
89,900원
프로젝트수 / 누적 5개 20개 100개
다운로드수 / 월 20회 40회 150회
글자수 / 월 15,000자 30,000자 180,000자
클로바 보이스 사용불가 사용가능 사용가능
출처 표기 필수 선택 선택
상업적 사용 부분적 가능 부분적 가능 가능

적용 기술[편집]

  • 언어처리(Language Processing) : 클로바더빙의 언어처리 기술은 텍스트 내의 숫자, 기호, 또는 특정 단어가 문맥에 따라 어떻게 발음되어야 할지를 판단하는 데 중요한 역할을 한다. 예를 들어 "3M"이라는 단어가 문장에 포함될 때, 이 단어를 "삼메가"로 읽어야 할지, "삼미터"로 읽어야 할지, 아니면 "쓰리엠"으로 발음해야 할지를 정확하게 판단하는 기술이다. 이러한 언어처리 능력은 자연스러운 음성 합성의 핵심 요소로, 클로바더빙의 AI가 사용자에게 맞춤형 음성을 제공할 수 있게 한다.
  • 엔드-투-엔드 음성합성(End-to-End Speech Synthesis) : 음성과 텍스트 쌍을 학습하여 음성 합성기를 한 번에 생성하는 방식을 사용한다. 이 기술은 기존의 복잡한 전사 작업을 생략하게 해주며, 결과적으로 합성음의 품질을 크게 향상시킨다. 네이버는 이 기술을 통해 자연스럽고 높은 품질의 합성음을 제공하며, 사용자가 원하는 음성을 신속하게 생성할 수 있게 되었다.
  • 뉴럴 보코더(Neural Vocoder) : 음성 합성기의 마지막 단계에서 실제로 소리를 생성하는 기술이다. 이 기술은 음성의 세부적인 음향 특성을 재현하여 더욱 자연스럽고 고품질의 음성을 만들어낸다. 일반적으로 뉴럴 보코더는 매우 높은 품질의 합성음을 생성할 수 있지만, 그 과정에서 많은 시간이 소요될 수 있다. 이를 상용화하기 위해서는 생성 속도를 크게 향상시키는 것이 필요하다. 네이버는 이 문제를 해결하기 위해 뉴럴 보코더 기술을 최적화하여, 고품질을 유지하면서도 빠르게 음성을 생성할 수 있도록 개선했다.
  • 스피커 어댑테이션(Speaker Adaptation) : 기존에 수집된 많은 음성 데이터를 기반으로 새로운 합성음을 신속하게 제작할 수 있게 해준다. 네이버는 이 기술을 활용하여 약 40분 분량의 음성 데이터만으로도 새로운 음성 합성기를 생성할 수 있는 능력을 확보했다. 이를 통해 클로바더빙은 다양한 목소리 스타일을 제공할 수 있으며, 사용자가 원하는 특화된 음성을 손쉽게 생성할 수 있다.
  • 음성합성 기술(Speech Synthesis Technology) : 클로바더빙에 적용된 음성합성 기술은 크게 UTS, HDTS, NES의 세 가지로 나뉜다. UTS(Unit-selection Text-to-Speech)는 기존의 방식으로, 음성 합성을 위해 40~100시간의 목소리 녹음이 필요했다. HDTS(High-quality DNN Text-to-Speech)는 이보다 더 발전된 방식으로, 4시간의 녹음으로도 사람 목소리와 거의 유사한 합성음을 만들 수 있다. NES(Natural End-to-End Speech Synthesis)는 40분 정도의 데이터만으로도 고품질의 음성을 생성할 수 있는 기술이다. 클로바더빙은 NES 기술을 바탕으로 구축된 서비스로, 사용자에게 쉽고 빠르게 고품질 음성을 제공하는 데 중점을 두고 있다.[6]

기능[편집]

보이스 메이커[편집]

보이스 메이커(Voice Maker) 기능은 사용자가 스마트폰 녹음만으로 자신만의 커스텀 AI 보이스를 쉽게 만들 수 있는 기능이다. 이 기능을 통해 제작된 일반 사용자의 AI 보이스는 현재 클로바더빙에서 제공되는 AI 보이스 중 100여 개에 달하며, 전체 보이스의 절반을 차지하고 있다. 이러한 사용자 참여는 클로바더빙 내 AI 보이스의 다양성을 크게 확장시키고 있다. 보이스 메이커를 활용한 AI 보이스 제작에 일반 사용자들이 더 쉽게 지원할 수 있도록 절차를 간소화했다. 지원서 작성 시 따로 녹음을 진행한 후 파일을 업로드해야 했던 기존의 지원 방식과는 달리, 지원서 작성부터 스크립트 녹음까지 클로바더빙 앱으로 일원화되어 향후 더 많은 사용자들의 적극적인 참여가 기대된다.[7]

오디오 에디터[편집]

오디오 에디터는 오디오 콘텐츠 편집에 특화된 기능으로, AI 보이스를 정교하게 튜닝하거나 다양한 특수 효과를 적용할 수 있다. 이 기능을 사용하면, 에코, 무전기, 전화, 로봇, 외계인 등의 효과를 자연스럽게 적용하여 더 풍부하고 다양한 스타일의 AI 보이스를 생성할 수 있다. 또한, 장문의 텍스트를 간단히 복사하여 붙여넣는 방식으로 더빙을 제작할 수 있으며, 문단 간 간격이나 문장 간 호흡 시간을 조정하여 보다 자연스러운 오디오 콘텐츠를 제작할 수 있다. 네이버는 클로바더빙의 오디오 에디터 기능을 출시함으로써, 사용자들이 AI 보이스 더빙 편집에 더욱 집중할 수 있는 환경을 제공하고자 하였다. 이를 통해 사용자는 클로바더빙에서 직접 더빙을 만들거나 다운로드 받아 별도의 영상 편집 툴에서 활용할 수 있다. 이는 기존의 비디오 에디터가 주로 영상에 더빙을 추가하는 데 중점을 두었던 것에 비해, 대량의 텍스트를 이용한 오디오 편집에 보다 특화된 기능을 제공하는 방향으로 서비스가 고도화되었음을 의미한다.[4]

서비스 지원[편집]

콘텐츠 타입[8] 더빙 지원 다운로드 지원
동영상 H.264 코덱의 MP4, MOV 형식을 지원하며 최대 20분 길이, 500MB 까지 지원

·영상 파일: 더빙이 동영상에 더해져 1개의 파일로 저장
·음원 파일: 더빙과 효과음이 합쳐져 1개의 파일로 저장
·개별 더빙 파일: 파일 각각의 보이스 합성음이 개별 파일로 저장

이미지 최대 120장의 JPEG, JPG, PNG 파일을 지원하며 최대 20분 길이 영상 파일 제작 가능

·최소 사이즈: 200px*200px
·최대 사이즈: 1920px*1080px

PDF 최대 100MB, 120장의 PDF 파일을 지원하며 최대 20분 길이 영상 파일 제작 가능

·최소 사이즈: 200px*200px(106mm*106mm)
·최대 사이즈: 1920px*1080px(678mm*381mm)

오디오 최대 20분 길이의 오디오 파일 제작 가능

특징[편집]

  • 고품질의 다양한 보이스 : 클로바 더빙은 남녀노소를 아우르는 클로바 보이스의 다양한 음성을 바탕으로, 고품질의 언어, 풍부한 감정이 담긴 '사람처럼 자연스러운' 보이스를 제공한다. 클로바 보이스는 다양한 보이스와 더불어 콘텐츠의 몰입감을 높일 수 있는 감정 표현과 효과음을 힘께 제공한다.
  • 섬세한 더빙 커스터마이징 : 기본 보이스 속도와 볼륨을 조절하여 나만의 보이스를 만들 수 있다. 입력한 문장을 미리 들어보며 속도, 단어들을 조절해 적절한 보이스와 단어를 쉽게 쉽게 선택할 수 있다.
  • 쉬운 더빙 편집 : 클로바 더빙 서비스는 쉽고 직관적인 UI를 가지고 있다. 간단한 가이드를 따라 원하는 대로 쉽고 정확하게 보이스를 추가할 수 있다. 사용자는 편집 과정에서 음성의 길이, 속도, 강약 등을 조정할 수 있어, 원하는 결과물을 손쉽게 완성할 수 있다.[1]

활용[편집]

교육용[편집]

클로바더빙은 교육 분야에서 유용하게 활용되고 있다. 원격 수업의 장기화로 인해 교육 현장에서의 영상 제작 수요가 증가하면서, 클로바더빙은 교육자들이 효과적으로 콘텐츠를 제작할 수 있도록 다양한 기능을 제공하고 있다. 클로바더빙은 주로 PDF 문서를 활용한 영상 제작 기능에 중점을 두고 있다. 교사들이 기존의 수업 자료를 PDF 형식으로 준비한 경우가 많다는 점에 착안하여, 클로바더빙은 PDF 문서를 손쉽게 업로드하고, AI 목소리를 입혀 바로 영상을 다운로드할 수 있는 기능을 제공한다. 이는 영상 제작에 익숙하지 않은 교사들도 간단하게 수업 자료를 영상으로 변환할 수 있도록 돕는다. 타임라인에서 슬라이드별 재생 길이를 조절하고, 슬라이드의 순서를 변경하거나 삭제하는 기능도 추가되어, 수업 내용을 보다 유연하게 구성할 수 있다. 뿐만 아니라 다양한 언어로 교육 동영상을 더빙하여, 다문화 학생들이 쉽게 이해할 수 있는 학습 자료를 제작할 수 있다.

클로바더빙은 교육 분야뿐만 아니라 디자인 플랫폼과의 협업도 강화하고 있다. 네이버는 최근 디자인 플랫폼 '미리캔버스'와 업무 협약을 체결하여, 클로바더빙의 기능을 홍보하고 교육 현장에서의 활용을 촉진하고 있다. 미리캔버스는 프레젠테이션, 카드뉴스, 포스터, 유튜브 섬네일 등 다양한 디자인 템플릿을 무료로 제공하는 서비스로, 원격 수업을 진행하는 교사들에게 큰 인기를 얻고 있다. 이를 통해 교사들은 수업 자료를 더욱 다채롭고 효과적으로 디자인할 수 있으며, 클로바더빙과 결합하여 영상 콘텐츠를 쉽게 제작할 수 있다. 네이버는 앞으로도 클로바더빙의 교육 분야 활용성을 더욱 널리 확산시키기 위해, 다양한 교육기관 및 디자인 플랫폼과의 협력을 확대할 계획이다.[9]

각주[편집]

  1. 1.0 1.1 클로바더빙〉, 《애스크에드테크》
  2. 클로바더빙 소개〉, 《클로바더빙 고객센터》
  3. 홍석호 기자, 〈따뜻한 추억 만들어주는 ‘클로바더빙’〉, 《동아일보》, 2022-10-31
  4. 4.0 4.1 함봉균 기자, 〈네이버 클로바더빙, '오디오 에디터' 기능 추가...콘텐츠 편집 편의성 높여〉, 《전자신문》, 2023-07-16
  5. 플랜 안내〉, 《클로바더빙》
  6. 이대호 기자, 〈[네이버 어벤저스] ‘목소리 깎는 장인들’을 만났습니다〉, 《디지털데일리》, 2020-05-28
  7. 전미준 기자, 〈사용자 참여로 더 똑똑해진 'AI 보이스'... 네이버 인공지능 '클로바더빙', 가입자 100만 명 돌파!〉, 《인공지능신문》, 2022-09-02
  8. 상세 기능〉, 《네이버 클라우드 플랫폼》
  9. 이진영 기자, 〈네이버 클로바더빙, PDF문서만으로 동영상 제작 OK…"교사에 유용"〉, 《뉴시스》, 2020-08-28

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 클로바더빙 문서는 인공지능 서비스에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.