검수요청.png검수요청.png

일레븐랩스

위키원
sosodam (토론 | 기여)님의 2024년 9월 11일 (수) 16:33 판
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
이동: 둘러보기, 검색
일레븐랩스(Elevenlabs)
일레븐랩스(Elevenlabs)

일레븐랩스(Elevenlabs)는 2022년에 설립된 인공지능(AI) 기반 음성 합성 스타트업이다. 텍스트오디오를 기반으로 목소리 콘텐츠를 생성하는 인공지능 솔루션을 제공한다. 본사는 영국 런던에 위치해 있다.

아사달 스마트 호스팅 가로 배너 (since 1998).jpg
이 그림에 대한 정보
[아사달] 스마트 호스팅

개요[편집]

일레븐랩스는 인공지능 음성 생성 및 텍스트 음성 변환(TTS) 기술을 제공하는 솔루션을 제공하는 회사이다. 고급 음성 합성 기술을 통해 사용자가 원하는 목소리로 텍스트를 읽어주는 서비스를 제공한다. 현재 무료 및 유료 서비스 모델을 운영하고 있으며, 무료 사용자는 단순히 텍스트를 입력해 AI가 해당 텍스트를 읽어주는 음성을 제공받을 수 있다. 반면 유료 사용자는 더 나아가 자신의 음성을 복제하여 새로운 음성 스타일을 만들어 낼 수 있다. 음성 복제는 사용자가 자신의 음성을 오디오 파일로 업로드한 후, 이 음성을 바탕으로 입력된 텍스트를 해당 사용자의 음성 스타일로 읽어주는 기능이다. 이를 통해 사용자는 자신만의 독창적인 음성 콘텐츠를 손쉽게 제작할 수 있다. 일레븐랩스는 29개 언어를 지원하며, 다양한 액센트까지 구현할 수 있다. AI 모델을 통해 자동으로 감정적으로 풍부한 다국어 음성을 생성할 수 있다. AI 더빙(AI Dubbing) 기능도 선보였는데, 이 기능은 음성을 20개 이상의 언어로 번역할 수 있는 능력을 제공하며, 원래 화자의 감정과 음조를 보존할 수 있도록 고안된 기술이다. 이 기술은 특히 글로벌 기업에서 인기가 높은데, 현재 전 세계 500대 기업 중 41%의 직원들이 이 플랫폼을 사용하고 있을 정도로 빠르게 확산되고 있다. 이러한 사용 사례는 이 기술이 단순히 엔터테인먼트나 콘텐츠 제작에만 국한되지 않고, 비즈니스 전반에서 업무 효율성을 높이는 데도 크게 기여하고 있음을 시사한다.[1][2]

역사[편집]

일레븐랩스는 폴란드 출신의 두 공동 창립자인 피오트르 돔보프스키(Piotr Dąbkowski)와 마테우슈 스타니셰프스키(Mateusz Staniszewski)에 의해 탄생했다. 돔보프스키는 구글에서 머신러닝 엔지니어로 근무했으며, 스타니셰프스키는 팔란티어(Palantir)에서 배포 전략가로 일했다. 이들은 미국 영화의 부적절한 더빙을 경험하면서 음성 합성 기술의 가능성을 깨닫고, 이를 계기로 일레븐랩스를 설립했다. 일레븐랩스는 설립 초기 다양한 자금 조달 옵션을 고려했으며, 2023년 1월에는 첫 프리시드 라운드에서 200만 달러를 유치하는 데 성공했다. 이 라운드는 크레도벤처스(Credo Ventures)와 콘셉트벤처스(Concept Ventures)의 주도로 이루어졌으며, 유럽 내에서도 떠오르는 분야인 AI 음성 인텔리전스 기술에 대한 투자가 이어졌다. 이후 2023년 6월에는 1억 달러의 가치를 평가받으며, 1,900만 달러의 시리즈 A 펀딩을 성공적으로 마무리했다. 이 라운드는 벤처 캐피털 회사인 앤드리슨 호로위츠(Andreessen Horowitz)와 전 깃허브(GitHub) CEO인 냇 프리드먼(Nat Friedman), 기업가 다니엘 그로스(Daniel Gross)가 주도했다. 2024년 1월에는 추가로 8,000만 달러의 시리즈 B 펀딩을 통해 회사 가치를 11억 달러로 끌어올렸으며, 이로써 일레븐랩스는 유니콘 스타트업으로 자리 잡았다.[1][3]

제품[편집]

일레븐랩스 리더[편집]

일레븐랩스 리더(ElevenLabs Reader)는 텍스트를 고품질의 자연스러운 AI 음성으로 변환하는 도구이다. 이 앱은 기사를 비롯해 ePub, PDF, 뉴스레터와 같은 다양한 텍스트 형식을 지원하며, 사용자들이 이동 중에도 텍스트 자료를 오디오로 청취할 수 있게 돕는다. 특히 학습 도구로서의 활용 가치가 높은데, 학생들이 학습 자료를 음성으로 청취하며 복습할 수 있도록 지원한다. 또한 다국어 학습을 위해 텍스트를 음성으로 변환해 발음과 억양을 연습하는 데에도 유용하다. 이 앱은 AI 음성 합성 기술을 바탕으로 사용자가 원하는 음성 톤과 속도를 선택할 수 있으며, 일관된 음성 출력을 유지하면서도 감정과 억양이 살아있는 음성을 제공한다. 영어를 비롯해 32개 언어를 지원하며, 한국어 또한 포함되어 있어 국내 사용자들도 다양한 텍스트를 음성으로 변환해 들을 수 있다. 특히 OCR(광학 문자 인식) 기능을 통해 이미지 속 텍스트도 음성으로 변환할 수 있어 다양한 텍스트 자료를 음성으로 변환하는 데에 편리하다.

활용
  • 학습 도구: 학생들이 학습 자료를 음성으로 청취하며 복습하는 데 유용하다.
  • 뉴스 청취: 출퇴근 시 텍스트 뉴스 기사를 음성으로 변환해 청취할 수 있다.
  • 다국어 학습: 외국어 텍스트를 음성으로 변환해 발음과 억양을 연습할 수 있다.
  • 이동 중 사용: 운전이나 운동 중 텍스트를 들을 수 있어 시간 효율을 극대화한다.
  • 업무 효율성 향상: 이메일, 보고서 등을 음성으로 청취하며 멀티태스킹, 회의 자료 준비 시 내용 확인 및 교정하는 데 쓰일 수 있다.
  • 접근성 개선: 시각장애인들의 정보 접근성 향상, 독서에 어려움을 겪는 사람들을 위한 대안이 된다.
  • 콘텐츠 제작: 유튜브 영상, 팟캐스트 등의 내레이션 제작, 오디오북의 제작 시간 및 비용을 절감할 수 있다.
사용 방법
  • 앱 설치 및 실행: 구글 플레이스토어애플 앱스토어에서 '일레븐랩스 리더'를 검색하여 앱을 설치한다.
  • 회원가입: 구글 계정으로 회원가입하고 'Get started' 버튼을 눌러서 단계를 모두 완료한다.
  • 파일 업로드: 'Home' 메뉴에서 샘플 파일을 청취하거나, 오른쪽 + 버튼을 클릭하여 텍스트 파일, 웹사이트 URL, PDF, ePub 파일 등을 업로드하여 음성으로 변환한다.
  • 음성 선택: 'Voices' 메뉴에서 음성의 종류를 선택하여 원하는 음성 톤과 속도를 설정한다.
  • 텍스트 읽기: 텍스트를 입력하거나, 파일을 업로드한 후 플레이 버튼을 클릭하여 실시간으로 음성을 청취한다.[4]

AI 음성 분리기[편집]

AI 음성 분리기(AI Voice Isolator)는 녹음된 오디오에서 배경 소음을 자동으로 제거하고 사람의 목소리만 깨끗하게 분리해내는 도구이다. 이 도구는 특히 영화, 팟캐스트, 유튜브 동영상과 같은 콘텐츠에서 원치 않는 배경 소음을 제거하는 데 유용하다. 사용자가 오디오 파일을 업로드하면, AI 음성 분리기는 해당 파일을 분석하여 기본 모델이 소음을 감지하고 제거하며, 최종적으로 목소리만 남긴다. 일레븐랩스는 이 도구를 통해 사용자가 몇 초 만에 스튜디오에서 녹음한 것과 유사한 고품질 음성을 얻을 수 있다고 주장하고 있다. 현재 AI 음성 분리기는 음악 파일에 대해서는 작동하지 않지만, 향후 발전 가능성이 있다. 이 서비스는 일레븐랩스 플랫폼에서만 제공되며, 월 10분(약 1만 자)의 오디오 파일에 대해 무료로 사용할 수 있다. 더 많은 분량의 오디오 파일을 처리하려면 월 5달러부터 시작하는 유료 플랜에 가입해야 하며, 이 외에도 API 액세스를 통해 사용자의 프로젝트에 통합할 수 있는 기능이 몇 주 내에 추가될 예정이다. 이러한 AI 음성 분리 기능은 특히 팟캐스트 제작자나 영상 편집자에게 소음 제거의 편의성을 제공하며, 빠른 시간 내에 고품질 음성을 추출할 수 있어 작업 효율성을 크게 향상시킨다.[5][6]

비디오-사운드 이펙트[편집]

비디오-사운드 이펙트(Video to Sound Effects) 앱은 비디오 파일에서 장면에 맞는 음향 효과를 자동으로 생성해주는 기능을 제공한다. 사용자가 비디오 파일을 업로드하면, 이 앱은 비디오에서 1초 간격으로 네 개의 프레임을 추출하고, 이를 기반으로 오픈AIGPT-4 모델을 활용해 각 프레임에 적합한 음향 효과를 자동 생성한다. 이후 이 음향 효과는 일레븐랩스의 사운드 이펙트 모델 API를 통해 생성되며, 최종적으로 비디오와 음향 효과가 결합된 단일 파일을 다운로드할 수 있다. 이는 소셜 미디어 콘텐츠, 게임, 영화 등의 다양한 영상 프로젝트에서 음향 효과를 손쉽게 추가할 수 있게 해주며, 제작자들의 창작 과정을 대폭 간소화한다.[7]

사운드 이펙트[편집]

사운드 이펙트(Sound Effects)는 텍스트 기반으로 음향 효과를 생성하는 AI 도구로, 영화, 게임, 팟캐스트 등 다양한 콘텐츠 제작에 활용될 수 있다. 사용자가 입력한 프롬프트에 따라 최대 22초 길이의 사운드를 생성하며, 다운로드 가능한 오디오 클립을 제공한다. 일레븐랩스는 이 도구가 특히 스톡 오디오 라이브러리에서 원하는 음향 효과를 찾기 어려운 상황에서 창작자들에게 큰 도움이 될 것이라고 언급하고 있다. 또한 무료 사용자는 월 1만 자의 프롬프트 제한이 있으며, 유료 플랜 가입 시 생성된 음향 효과를 상업적으로 활용할 수 있다. 이는 콘텐츠 제작 과정에서 시간과 비용을 절감하는 데 중요한 역할을 한다.[8]

오디오 네이티브[편집]

오디오 네이티브(Audio Native)는 웹페이지텍스트 콘텐츠를 자동으로 음성으로 변환해주는 임베디드 음성 플레이어이다. 블로그, 뉴스레터, 기사 등의 텍스트를 음성으로 변환해 사용자들이 듣기 쉽게 제공하며, 한국어를 포함한 29개 언어를 지원한다. 웹사이트 소유자는 간단한 HTML 코드 삽입만으로 이 기능을 구현할 수 있고, 음성 스타일과 배경색 등 다양한 커스터마이징 옵션도 제공된다. 이를 통해 독자 참여도를 높이고, 접근성을 개선할 수 있다. 특히 오디오 네이티브는 월 11달러에 제공되는 크리에이터 등급을 통해 청중의 참여를 모니터링할 수 있는 대시보드와 메트릭스를 제공하여, 웹사이트 운영자들이 청취자들의 반응을 효율적으로 분석할 수 있도록 돕는다.[9]

사용 기술[편집]

텍스트 분석

일레븐랩스의 음성 생성은 텍스트 분석에서 시작된다. 사용자가 입력한 텍스트는 AI 시스템에 의해 철저하게 분석되며, 문장의 구조와 단어의 의미, 문맥을 이해한다. 이 분석 과정에서 텍스트에 담긴 감정이나 강조를 파악하고, 이에 맞는 적절한 억양과 발음을 결정한다. 이로 인해 단순한 정보 전달을 넘어 감정이 담긴 자연스러운 음성을 생성할 수 있게 된다.

음성 합성

일레븐랩스는 딥러닝 기반의 음성 합성 모델을 사용한다. 이 모델은 방대한 양의 음성 데이터를 학습하여 목소리의 다양한 특징을 이해하며, 이를 바탕으로 새로운 음성을 생성한다. 이 과정에서 기존의 텍스트-음성 변환(TTS) 기술보다 더 자연스럽고 감정이 담긴 음성이 만들어진다. 사용자는 생성된 음성의 톤이나 속도를 조절할 수 있으며, 특정 감정을 표현하도록 설정할 수도 있다. 이러한 고급 음성 합성 기술 덕분에 일레븐랩스의 서비스는 뉴스, 오디오북, 팟캐스트 등 다양한 콘텐츠 제작에 사용되고 있다.

개인화된 음성 생성

일레븐랩스의 또 다른 강점은 음성 복제 기술이다. 이 기술은 사용자가 제공한 짧은 음성 샘플을 기반으로 특정 인물의 목소리를 정밀하게 재현할 수 있다. 이를 통해 실제 사람의 목소리를 거의 그대로 복제할 수 있으며, 다양한 언어와 억양까지 지원한다. 이러한 개인화된 음성 생성은 맞춤형 콘텐츠나 개인 브랜딩에 활용될 수 있는 강력한 도구로 작용할 수 있다.

활용[편집]

일레븐랩스의 음성 합성 기술은 콘텐츠 제작, 게임, 오디오북, 라디오 등 다양한 분야에서 활용되고 있다. 예를 들어, 2023년 3월에는 코미디언 드루 캐리(Drew Carey)가 일레븐랩스의 음성 복제 기술을 사용해 자신의 라디오 쇼 에피소드를 진행했고, 전 NFL 선수이자 작가인 팀 그린(Tim Green)은 AI 음성 복제를 통해 자신의 팟캐스트를 진행하며, 더 이상 말할 수 없는 상태에서도 청중과 소통할 수 있었다.

또한, 일레븐랩스는 스토리텔(Storytel)과의 파트너십을 통해 오디오북을 제작하는 데에도 기여하고 있다. 이 협력을 통해 사용자는 자신만의 음성 프로필을 생성하여 맞춤형 청취 경험을 제공받을 수 있다. 더 나아가, 일레븐랩스는 스웨덴 게임 개발사 패러독스 인터랙티브(Paradox Interactive) 및 영국에 본사를 둔 매지케이브(Magicave)와 협력해 게임 내 캐릭터의 음성을 생성하는 데 사용되기도 했다.[1]

진행성 핵상 마비(PSP)로 인해 목소리를 잃었던 미국 하원의원 제니퍼 웩스턴(Jennifer Wexton)은 일레븐랩스의 음성 복제 기술 덕분에 자신의 목소리로 다시 연설할 수 있게 되었다. 웩스턴의 사례는 이 기술이 단순히 음성 합성에 그치지 않고, 진정성 있는 소통과 연결을 가능하게 하는 혁신적인 도구임을 보여준다. 웩스턴은 일레븐랩스의 AI 음성 복제를 통해 원래 자신의 목소리로 연설을 할 수 있었으며, 이 기술은 AI가 언어 장애가 있는 사람들에게도 큰 도움을 줄 수 있음을 입증했다.[10]

논란[편집]

일레븐랩스는 뛰어난 기술력으로 찬사를 받고 있지만, 동시에 여러 윤리적 문제에 직면해 있다. 2023년 1월, 일부 사용자가 유명인의 목소리를 복제해 증오 메시지를 공유한 사례가 드러나면서 비판을 받았다. 특히 4chan 사용자들이 이 도구를 악용해 논란을 일으킨 사건은 소프트웨어의 남용 가능성에 대한 윤리적 우려를 더욱 키웠다. 이 사건 이후 일레븐랩스는 음성 복제 기능에 대한 접근을 제한하고, 신원 확인 절차를 강화하며 남용 방지 대책을 마련했다. 일부 성우들은 일레븐랩스가 동의 없이 자신의 음성 샘플을 사용했다는 문제를 제기하기도 했다. 이러한 비판에도 불구하고 일레븐랩스는 계속해서 기술 혁신을 이어가며 AI 음성 합성 시장에서 중요한 역할을 하고 있다.[1]

문제점[편집]

가장 큰 문제는 음성 복제 기술의 악용 가능성이다. 일레븐랩스는 특정인의 목소리를 비교적 짧은 시간(30초에서 1분)의 음성 샘플만으로도 매우 정밀하게 복제할 수 있다. 이 기술을 통해 톤, 억양, 말투까지 복제할 수 있으며, 감정 표현까지 가능하기 때문에 음성 사칭 범죄, 특히 딥보이스 피싱(Deep Voice Phishing) 공격에 악용될 위험이 높다. 최근 몇 년간 AI 기술을 악용한 보이스 피싱 사례가 급증하고 있다. 음성 복제 기술을 활용하면 실제 사람의 목소리와 구분하기 어려울 정도로 자연스러운 가짜 음성을 만들 수 있으며, 이를 통해 범죄자는 금전적 피해를 유도할 수 있다. 특히 SNS통화 내용을 기반으로 쉽게 음성 데이터를 수집할 수 있기 때문에 누구든지 피해자가 될 수 있다.

일레븐랩스의 AI 리더 앱은 주디 갈랜드, 제임스 딘 등 전설적인 배우들의 목소리를 재현하며 또 하나의 업적을 기록했다. 하지만 한편으로는 딥페이크와 무단 음성 복제와 관련된 윤리적 문제가 제기된다. 이러한 기술은 사망한 연기자의 목소리를 무단으로 사용할 위험이 있다. 할리우드 배우 조합인 SAG-AFTRA는 사망한 연기자의 목소리 오용을 방지하기 위한 법안을 후원하고 있지만, 현행 법체계는 여전히 부족한 상황이다. 일레븐랩스는 상속자와 협력하여 일부 우려를 완화했지만, 보다 강력한 법적 보호장치가 필요하다. 상업적 사용의 제한 일레븐랩스의 기술은 상징적인 목소리를 개별 스트리밍으로만 제공하며, 상업적 콘텐츠 생성에는 사용되지 않는다. 이는 기술의 상업적 활용 가능성을 제한하며, 사용자가 기술을 완전히 활용하지 못하게 하는 문제를 야기할 수 있다.[11]

또한, 이 기술은 불법적 콘텐츠 제작에도 악용될 수 있다. 음성 복제 기술을 이용해 특정인의 음성을 재현하고 이를 이용해 허위 정보를 퍼뜨리거나, 음성 사칭을 통해 부적절한 콘텐츠를 제작하는 등의 문제가 발생할 수 있다. 일레븐랩스 측도 이러한 우려를 인지하고 있으며, 기술 악용을 방지하기 위한 조치들을 마련하고 있다. 예를 들어, 음성 복제 사용 시 특정 인증 절차를 요구하거나, 음성 생성 시 사전 동의를 구하는 등의 방식이 도입될 수 있다. 그러나 이러한 조치가 얼마나 효과적으로 작동할지는 아직 미지수이며, AI 기술에 대한 전반적인 규제와 윤리적 지침 마련이 중요한 과제로 떠오르고 있다.[12]

각주[편집]

  1. 1.0 1.1 1.2 1.3 ElevenLabs〉, 《Wikipedia》
  2. 이안 에디터, 〈발렌시아가가 선택한 음성 AI 스타트업 ‘일레븐랩스’,
설립 2년 만에 유니콘 등극!〉, 《넥스트유니콘》, 2024-02-27
  3. 엄수영 기자, 〈보이스 AI 스타트업 일레븐랩스, 최근 자금 조달 후 유니콘 지위 획득〉, 《한국경제》, 2024-01-22
  4. tilnote, 〈일레븐랩스 리더 (ElevenLabs Reader) - 어떤 텍스트든 읽어주는 AI 앱〉, 《틸노트》, 2024-08-26
  5. 박찬 기자, 〈일레븐랩스, 배경 소음 제거하는 ’AI 음성 분리기’ 출시...가우디오랩에 못 미쳐〉, 《AI타임스》, 2024-07-05
  6. AI리포터, 〈목소리만 '쏙'…일레븐랩스, 배경 잡음 제거 AI 공개〉, 《디지털투데이》, 2024-07-08
  7. 박찬 기자, 〈달아 오르는 음향 생성 AI...일레븐랩스도 오픈 소스 앱 출시〉, 《AI타임스》, 2024-06-19
  8. 박찬 기자, 〈일레븐랩스, 음향 효과 생성 AI ‘사운드 이펙트’ 출시〉, 《AI타임스》, 2024-06-01
  9. 박찬 기자, 〈일레븐랩스, 음성 비서 등장에 '화들짝'...이틀 새 제품 2개 출시〉, 《AI타임스》, 2024-05-19
  10. 디지털투데이 AI리포터, 〈美 하원의원, AI로 목소리 되찾았다…일레븐랩스 신기술 '눈길'〉, 《네이트뉴스》, 2024-07-16
  11. 유경남 기자, 〈AI로 되살아난 할리우드 목소리....상업용으로는 못써〉, 《내외신문》, 2024-07-10
  12. 이소미 기자, 〈[bnTV] 내 목소리 빼앗는 ‘딥보이스 피싱’ 주의보〉, 《보안뉴스》, 2024-09-11

참고자료[편집]

같이 보기[편집]


  질문.png 이 문서는 로고 수정이 필요합니다.  

  검수요청.png검수요청.png 이 일레븐랩스 문서는 인공지능 서비스에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.