"TTS"의 두 판 사이의 차이

2024년 9월 12일 (목) 16:05 기준 최신판

TTS(Text-to-Speech) 또는 음성 합성은 텍스트를 음성으로 변환하는 기술로, 인간과 기계 간의 상호작용을 자연스럽게 만드는 중요한 기술이다. 이 기술은 다양한 분야에서 활용되며, 최근 인공지능(AI)과 딥러닝의 발전에 따라 그 적용 범위가 급속히 확장되고 있다.

특징[편집]

TTS 기술은 시각 장애인의 정보 접근성을 향상시키기 위해 개발되었다.^[1] 해외에서는 리드스피커(Readspeaker)와 브라우저어라우드(Browsealoud)와 같은 웹 기반 서비스가 널리 활용되고 있으며, 이들 프로그램은 웹사이트의 내용을 음성으로 읽어주는 역할을 한다. 일본의 경우, 지방자치단체 웹사이트 중 70% 이상이 TTS 음성 서비스를 제공하고 있다. 한국에서는 웹톡스(WebTalks)와 보이스몬(Voicemon)과 같은 웹 기반 TTS 서비스 제공업체가 주목받고 있으며, 이들은 서비스와 솔루션을 함께 제공한다.

일부 TTS 시스템은 매우 자연스러운 음성을 출력할 수 있다. 예를 들어, 구글 딥마인드(Google DeepMind)에서 발표한 딥러닝 기반의 웨이브넷(WaveNet)은 TTS 기술의 발전을 상징하는 사례로, 연구가 진전되면서 성우가 직접 읽은 문장보다도 자연스러운 발음을 구현할 수 있게 되었다. 실제로 웨이브넷에서 생성된 음성은 성우의 음성인지, TTS 시스템의 결과물인지 구별하기 어려울 정도로 자연스럽다. 웨이브넷은 무작위 발음으로 사람의 중얼거림을 모방할 수도 있는데, 비록 무의미한 소리라 할지라도 호흡과 간격이 매우 자연스럽다.^[2]^[3]

하지만 상용화된 TTS 시스템 중 많은 제품이 개인용으로 판매되지 않으며, 이를 사용하려면 불법적인 경로를 통해 구해야 하는 경우가 있다. 만약 구입할 수 있다고 해도 비용이 상당히 비싸 수천만 원을 호가하는 경우가 많다. 대부분의 TTS 플레이어는 프리웨어로 제공되지만, 핵심적인 보이스 엔진은 유료로 판매되는 경우가 많다. 한국어 TTS 엔진 중 가장 잘 알려진 것은 준우(Junwoo)와 유미(Yumi)이며, 기본적으로 제공되는 엔진들이 기계적이고 부자연스럽기 때문에 별도의 엔진을 구입해야 더 자연스러운 결과를 얻을 수 있다. 구할 수 있는 TTS 플레이어로는 판옵프리터(Panopreter), 발라볼카(Balabolka), 텍스트얼라우드(TextAloud) 등이 있다. 판옵프리터는 가볍지만, 너무 많은 텍스트를 한 번에 읽을 수 없으며, 중간부터 다시 읽는 기능이 없어 처음부터 다시 시작해야 하는 불편함이 있다. 발라볼카는 PC에 설치된 엔진뿐만 아니라 구글 번역기의 TTS 엔진을 사용할 수 있어 음성 파일 제작이 가능하지만, 프로그램 자체가 무겁고, 실시간으로 문장을 들을 경우 앞부분의 음성이 약해지는 문제가 발생할 수 있다. 텍스트얼라우드는 프로그램이 비교적 가볍고, 중간부터 들을 수 있는 기능이 있지만, 유료라는 단점이 있다. 이 세 가지 프로그램 모두 음성 파일을 생성할 수 있으며, 기본적으로 WAV 형식으로 출력되지만 설정을 통해 MP3 파일로 변환할 수도 있다.

TTS 프로그램을 한국어로 설정하고 영어 문장을 입력하면 '콩글리시' 발음이 나오는 것도 흥미로운 점이다. 마찬가지로 다른 언어로 설정한 후 영어 문장을 입력하면 해당 언어의 억양이 섞인 영어 발음을 들을 수 있다. 영어 음성 더빙 전문 서비스를 제공하는 프로그램으로는 타입캐스트(Typecast)가 있으며, 외국인 인공지능 성우 캐릭터가 지원된다. 최근 딥러닝 기술을 적용해 감정, 음높이, 발음 길이 등을 조절할 수 있는 TTS 프로그램도 등장하고 있다.^[4] 이와 더불어, 사용자의 목소리를 학습해 TTS 시스템을 개인화하는 것도 가능하지만, 상당한 시간과 노력이 필요하다.^[5]^[6]

주요 요소[편집]

TTS 시스템은 세 가지 주요 요소로 구성된다. 첫째, SAPI라는 윈도우 구성 요소, 둘째, 음성 합성 엔진(보이스 엔진), 셋째, 음성을 출력하는 플레이어이다. 이 요소들을 비디오 플레이어에 비유하자면, SAPI는 운영체제, 보이스 엔진은 코덱, 플레이어는 실제 재생기와 같다. SAPI는 윈도우 운영체제에 기본적으로 포함되어 있으며, 제어판의 "접근성 센터"에서 "텍스트 음성 변환" 항목을 통해 이를 확인할 수 있다. 해당 기능을 통해 한 줄의 문장을 작성하고 음성을 선택하는 것이 가능하며, 이것이 TTS의 기본 원리이다. 예를 들어, Microsoft Heami Desktop - Korean이라는 보이스 엔진이 SAPI 5.1 버전용으로 제공되며, 이를 통해 기본적인 음성 출력을 할 수 있다. 비록 이 제어판 항목에서는 긴 문장을 입력하기 어렵지만, 추가적인 플레이어 프로그램을 통해 더 긴 텍스트도 음성으로 변환하여 들을 수 있다. 예를 들어, 윈도우 XP에서는 마이크로소프트 샘(Microsoft Sam), 윈도우 비스타(Windows Vista)와 윈도우 7에서는 마이크로소프트 안나(Microsoft Anna), 그리고 윈도우 8.1과 윈도우 10에서는 마이크로소프트 혜미(Microsoft Heami)가 기본 보이스 엔진으로 제공된다. 윈도우 10에서는 추가적인 언어팩을 설치하면 다양한 언어의 음성 데이터도 함께 설치할 수 있다.^[5]

단계[편집]

TTS 시스템은 크게 두 가지 중요한 단계로 나눌 수 있다. 텍스트 처리(또는 자연어 처리)와 음성 합성이다.

텍스트 처리[편집]

TTS의 첫 단계인 텍스트 처리는 텍스트를 이해하고 이를 음성으로 변환하기 위한 기초 작업이다. 텍스트 처리는 여러 복잡한 하위 작업들로 나뉘며, 이 과정이 얼마나 잘 이루어지느냐에 따라 음성 합성의 품질이 결정된다. 텍스트 처리는 기본적으로 언어의 문법, 의미, 그리고 발음 규칙을 분석하여 적절한 음성 데이터를 준비하는 과정이다.

문장 분석[편집]

문장 분석은 텍스트를 문장 단위로 분리하는 과정이다. 이때 마침표, 쉼표, 물음표, 감탄사 등의 문장 부호를 사용하여 텍스트를 적절히 분리하고, 각각의 문장이 어떻게 발음될지를 예측한다. 문장 부호는 음성 합성에서 중요한 역할을 한다. 예를 들어, 쉼표는 일시적인 멈춤을 의미하고, 물음표는 억양이 상승하는 문장이라는 신호가 된다. 이 단계에서는 텍스트 내 문장 구조를 파악하고, 이를 자연스러운 음성으로 변환하기 위한 기초를 마련한다.

단어 분리 및 품사 태깅[편집]

문장 분석이 완료되면 각 문장을 단어 단위로 분리하고, 각 단어의 품사를 분석하는 작업이 이루어진다. 품사는 문장에서 단어가 어떤 역할을 하는지 나타내는 중요한 정보로, 이는 발음 방식에 영향을 미친다. 예를 들어, 명사와 동사는 각기 다른 억양을 가질 수 있으며, 동일한 단어라도 품사에 따라 발음이 달라질 수 있다. 한국어의 경우 조사의 유무에 따라 발음이 달라지거나, 명사형과 동사형이 구분되는 경우가 많기 때문에 이 과정이 매우 중요하다. 이 단계에서는 자연어 처리(NLP) 기술이 사용된다. NLP는 텍스트에서 언어적 의미를 이해하고 분석하는 인공지능(AI) 기술로, 문장의 구조와 단어의 품사를 정확히 파악할 수 있게 해준다. 이를 통해 TTS 시스템은 텍스트의 문맥을 이해하고, 상황에 맞는 자연스러운 발음을 생성할 수 있게 된다.

발음 기호 변환[편집]

발음 기호 변환 단계에서는 텍스트의 각 단어를 음소(Phoneme)로 변환한다. 음소는 언어의 가장 작은 발음 단위로, 예를 들어 "고양이"라는 단어를 음소로 변환하면 [g] [o] [y] [a] [ŋ] [i]와 같이 분석된다. 음소는 각각의 소리를 나타내며, 이를 기반으로 음성이 생성된다. 이 과정에서 언어별로 고유한 발음 규칙이 적용되며, 한국어와 같은 경우에는 자음과 모음의 조합을 정확히 분석해야 한다. 이 단계에서 중요한 것은 동음이의어나 문맥에 따른 발음 변화다. 예를 들어, "배"라는 단어는 과일, 신체 부위, 교통수단 등 여러 의미를 가질 수 있으며, 문맥에 따라 다르게 발음될 수 있다. 이를 정확하게 처리하기 위해서는 문장의 의미를 파악하는 능력이 필요하다. 인공지능(AI) 기반 TTS 시스템은 이러한 문맥 분석을 통해 적절한 발음을 선택하게 된다.

강세 및 억양 처리[편집]

텍스트를 음성으로 변환할 때, 단순히 단어의 발음만이 중요한 것이 아니라 문장의 강세와 억양도 중요한 요소이다. 특히, 한국어의 경우 의문문과 평서문의 억양 차이가 크기 때문에 이를 적절히 반영해야 자연스러운 음성을 생성할 수 있다. 예를 들어, 의문문은 끝부분이 상승하는 억양을 가져야 하고, 감탄문은 감정이 실린 발음으로 처리해야 한다. 강세와 억양은 문장의 감정과 의미 전달에서 매우 중요한 역할을 한다. 예를 들어, 동일한 문장이라도 억양이 다르면 질문으로 인식되거나 명령으로 해석될 수 있다. 최신 TTS 시스템에서는 딥러닝을 이용해 억양과 감정 변화를 반영하는 음성을 생성하는 기술이 발전하고 있다. 이는 자연스러운 인간 음성에 더욱 가깝게 다가가기 위한 중요한 연구 분야다.

음성 합성[편집]

음성 합성은 텍스트 처리가 완료된 후, 실제로 음성을 생성하는 단계이다. 음성 합성 방식은 다양한 기술을 활용하여 텍스트를 소리로 변환하는 과정이다. 전통적인 방식부터 딥러닝 기반의 최신 기술까지 다양한 방법이 존재하며, 각 방법마다 장단점이 있다.

파형 연결법[편집]

파형 연결법은 TTS 시스템에서 가장 오래된 기술 중 하나다. 이 방식은 미리 녹음된 음성 데이터베이스에서 음소 또는 단어 단위의 음성을 조합해 음성을 생성하는 방식이다. 이 방법의 기본 개념은 음성 조각을 잘게 쪼개어, 텍스트에 맞는 음성 조각들을 이어 붙이는 것이다. 파형 연결법의 장점은 녹음된 음성 샘플을 사용하기 때문에 비교적 자연스러운 음질을 제공할 수 있다는 것이다. 하지만 이 방식에는 여러 한계가 존재한다. 첫째, 음성 데이터베이스에 저장된 음성 샘플에 따라 음성의 범위가 제한된다. 예를 들어, 특정 단어나 음소의 발음이 데이터베이스에 없으면, 그 단어를 자연스럽게 발음하기 어려울 수 있다. 둘째, 음성을 조합할 때 억양이나 강세 변화에 대응하기 어려운 경우가 많다. 이런 이유로, 파형 연결법은 고정된 음성 합성에서는 유용하지만, 다양한 억양이나 감정을 표현하는 데에는 한계가 있다.

파라메트릭 합성[편집]

파라메트릭 합성은 음성을 파라미터화하여 생성하는 방식으로, 음성의 여러 특성을 수학적으로 모델링하여 음성을 생성한다. 파라메트릭 합성에서는 음성의 높낮이, 속도, 강세 등의 요소를 조절할 수 있는 파라미터가 사용되며, 이를 통해 다양한 음성을 생성할 수 있다. 이 방식은 적은 양의 음성 데이터로도 다양한 음성을 합성할 수 있다는 장점이 있다. 특히 억양이나 강세를 제어하기 쉬워, 다양한 목소리나 감정을 반영할 수 있다. 하지만 파라메트릭 합성은 파형 연결법에 비해 음질이 떨어질 수 있다. 음성 합성의 결과물이 부자연스럽거나 기계적일 수 있으며, 이는 사용자가 TTS 시스템을 사용할 때 불편함을 느끼게 할 수 있다. 파라메트릭 합성은 오래된 기술이지만, 최신 AI 기술과 결합되면서 다양한 개선이 이루어지고 있다. 특히, 딥러닝을 적용한 파라메트릭 모델들은 기존 방식보다 훨씬 자연스러운 음성을 생성할 수 있다.

신경망 기반 합성[편집]

최근 들어 가장 주목받는 음성 합성 방식은 신경망 기반 합성이다. 딥러닝을 활용한 TTS 시스템은 음성 합성의 품질을 획기적으로 향상시켰다. 대표적인 예로 타코트론(Tacotron)과 웨이브넷(WaveNet)이 있다.

타코트론(Tacotron) : 구글(Google)에서 개발한 딥러닝 기반의 TTS 모델로, 텍스트를 스펙트로그램으로 변환하고 이를 다시 음성으로 합성하는 방식이다. 스펙트로그램은 음성 신호의 시각적 표현으로, 시간에 따른 주파수 변화를 보여준다. 타코트론은 텍스트를 입력받아 해당 스펙트로그램을 생성한 후, 이를 기반으로 음성을 합성한다. 이 방식은 기존의 파라메트릭 합성에 비해 훨씬 자연스러운 음성을 제공하며, 억양과 강세도 더욱 유연하게 처리할 수 있다. 타코트론의 중요한 특징 중 하나는 데이터 기반 학습을 통해 음성의 특징을 자동으로 학습한다는 점이다. 이전 방식에서는 억양이나 감정 변화를 수동으로 설정해야 했지만, 타코트론은 텍스트의 문맥을 학습하여 자동으로 적절한 억양을 생성할 수 있다. 이로 인해 매우 자연스러운 음성이 생성되며, 인간의 발음에 가까운 결과를 낼 수 있다.
웨이브넷(WaveNet) : 음성 합성 기술의 또 다른 혁신으로, 구글(Google) 딥마인드(DeepMind)에서 개발한 딥러닝 모델이다. 웨이브넷은 매우 세밀한 수준에서 음성 샘플을 하나씩 예측하여 음성을 생성한다. 기존의 음성 합성 방식은 주로 음소나 단어 단위로 음성을 생성했지만, 웨이브넷은 음성 신호의 미세한 변화를 모두 반영하여 훨씬 자연스러운 음질을 제공한다. 웨이브넷의 주요 특징은 파형을 직접 생성한다는 점이다. 이를 통해 사람의 목소리와 거의 구별되지 않는 수준의 음성을 합성할 수 있으며, 다양한 감정과 억양을 자연스럽게 구현할 수 있다. 특히, 웨이브넷은 다양한 언어와 목소리 스타일에 대해 뛰어난 유연성을 보여주며, AI 음성비서나 음성 기반 콘텐츠 제작에 널리 사용되고 있다.

활용 분야[편집]

TTS 기술은 AI와 결합하여 많은 혁신적인 분야에서 활용되고 있다. 특히, 음성비서, 챗봇, 접근성 도구, 콘텐츠 제작, 의료 및 교육 분야에서 큰 성과를 내고 있다.

음성 비서 : AI 기반 음성 비서는 TTS 기술을 통해 사용자와 자연스러운 대화를 나눌 수 있다. 예를 들어, 애플의 시리(Siri), 구글의 구글 어시스턴트(Google Assistant), 아마존의 알렉사(Alexa)와 같은 음성 비서들은 TTS 기술을 통해 사용자 명령에 대한 응답을 음성으로 전달한다. 이러한 시스템은 딥러닝 기반 TTS 기술을 사용하여 사용자와의 상호작용을 더욱 매끄럽게 만들고 있으며, 점점 더 인간에 가까운 음성을 생성하고 있다.^[7]
접근성 도구 : TTS는 시각 장애인이나 난독증을 가진 사람들을 위한 접근성 도구로도 널리 사용된다. 텍스트를 음성으로 변환하여 시각적으로 정보를 얻기 어려운 사용자들이 책, 웹사이트, 앱 등의 콘텐츠에 접근할 수 있도록 돕는다. AI 기반 TTS 시스템은 텍스트의 문맥을 이해하고 적절한 억양을 반영하여, 더 자연스러운 음성을 제공함으로써 사용자의 경험을 향상시키고 있다.
챗봇 및 고객 서비스 : 기업들은 AI 기반 챗봇을 통해 고객 서비스의 효율성을 높이고 있으며, 여기에 TTS 기술이 적용된다. 고객의 질문에 자동으로 응답하는 AI 챗봇은 음성 합성을 통해 실시간으로 대화를 음성으로 전달한다. 이는 특히 콜센터나 고객 지원 서비스에서 인간 상담원 대신 자동화된 응답 시스템을 구축하는 데 유용하다.^[8]
콘텐츠 제작 : AI와 TTS는 콘텐츠 제작에서도 큰 역할을 하고 있다. 예를 들어, 자동 뉴스 낭독 시스템, 팟캐스트 생성 도구, 오디오북 제작 등에 사용된다. 딥러닝 기반 TTS 기술은 특정 감정을 반영한 음성을 생성하거나, 특정 스타일의 음성을 구현하는 데 도움을 준다. 이는 사람이 직접 녹음하지 않아도 고품질의 음성 콘텐츠를 빠르게 생성할 수 있는 장점이 있다.
의료 및 교육 : 의료 분야에서는 TTS 기술이 환자와 의료진 간의 의사소통을 돕는 데 사용된다. 특히 말하기에 어려움을 겪는 환자들이 자신의 의사를 표현할 수 있도록 돕는 도구로 활용된다. 교육 분야에서는 외국어 학습 도구로 TTS가 사용되며, 학생들이 정확한 발음을 학습하고, 텍스트를 듣는 훈련을 할 수 있게 도와준다.

비교[편집]

보컬로이드[편집]

보컬로이드(Vocaloid)와 TTS는 텍스트를 음성으로 변환한다는 공통점이 있지만, 그 목적과 방식에는 상당한 차이가 있다. 보컬로이드는 주로 음악을 위한 음성 합성 도구로 사용되며, 가상의 가수가 노래를 부를 수 있도록 음계를 기반으로 작동한다. 사용자는 음정, 박자, 억양 등을 세밀하게 조정할 수 있는데, 이 과정에서 많은 시간과 노력이 필요하다. 반면 TTS는 일반적인 텍스트 낭독을 목적으로 하며, 텍스트를 입력하면 자동으로 음성이 생성된다. 이로 인해 사용자가 특별히 음성을 세부적으로 조작할 필요 없이 빠르게 음성을 출력할 수 있다는 장점이 있지만, 억양과 발음의 자연스러움은 다소 제한적일 수 있다.

음질 면에서도 차이가 있다. 보컬로이드는 사용자의 조작에 따라 노래나 발음을 표현할 수 있지만, 기계적인 느낌이 남을 수 있다. TTS는 최근 딥러닝 기술의 발전으로 매우 자연스러운 음성을 제공할 수 있게 되었지만, 음악처럼 음정 변화가 필요한 복잡한 음성을 만드는 데는 한계가 있다. 보컬로이드는 주로 음악 창작자들이 사용하며, 가상의 캐릭터가 노래를 부르는 데 특화되어 있다. 반면 TTS는 시각장애인이나 난독증 환자 등의 접근성을 높이기 위한 도구로, 스마트폰 음성 비서나 내비게이션, 자동 안내 시스템 등에서 정보를 음성으로 전달하는 데 주로 활용된다.

또한, 보컬로이드는 사용자가 음성의 세부 요소를 직접 조정할 수 있는 높은 유연성을 제공하는 반면, TTS는 자동화된 방식으로 즉각적인 음성 출력을 제공한다. 이는 TTS가 빠르고 간편한 처리를 가능하게 하지만, 세밀한 감정 표현이나 억양 조정에는 한계가 있음을 의미한다. 기술적 기원에서도 두 시스템은 차이가 있는데, 보컬로이드는 음악 합성 기술에서 발전한 반면, TTS는 자연어 처리(NLP)와 음성 인식 기술을 바탕으로 정보 전달에 최적화된 방식으로 발전해 왔다.^[9]

우려[편집]

TTS 기술의 발전으로 성우들의 일자리가 위협받고 있다는 우려도 제기된다. 이는 인공지능(AI) 기술이 도입된 여러 분야에서 발생하는 공통적인 문제로, 성우들만의 문제는 아니다. 다만 TTS도 기존의 목소리를 기반으로 작동하기 때문에, 성우가 자신의 목소리를 제공하고 로열티를 받는 방식의 대안이 존재할 수 있다. 성우의 목소리를 TTS로 변환할 경우, 저작권자가 그로 인해 피해를 입었다고 판단하면 법적 조치를 취할 가능성도 있다. 성우들 사이에서는 IT 기업이 음성 저작권의 영구 양도를 요구하는 관행이 문제라는 시각이 있다.^[10] 그러나 기업이 외주 결과물에 대한 저작권을 가지는 것은 일반적인 계약 관행이며, 모든 경우에 저작권을 가져가는 것이 잘못된 것은 아니다. 이 문제의 핵심은 계약서 작성의 미비나 계약 내용의 불명확성에서 비롯되며, 이는 계약 당사자 간의 협상과 정부의 감독 및 입법 조치를 통해 해결해야 할 과제다.

일본에서는 니코니코동화를 통해 TTS 실황 플레이가 인기를 끌었으며, 다양한 게임에서 TTS를 활용하는 사례도 증가하고 있다. 또한, 북한의 김정은이나 리춘희 목소리를 TTS로 변환하는 시도도 있었다. 2018년 이후에는 TTS를 이용한 성대모사 기술이 등장했으며,^[11] 유튜브에서는 인기 유튜버의 목소리를 TTS로 변환해 패러디 영상을 제작하는 사례도 나타났다.^[5]^[12]

각주[편집]

↑ 박지훈 기자, 〈일상생활 속의 AI노믹스 ⑦ TTS | 점점 알아채기 힘든 AI 성우 목소리 딥페이크 판별해낼 기술도 중요해져〉, 《매일경제》, 2020-07-30
↑ 곽노필 기자, 〈인공지능, 사람 목소리까지 훔치다〉, 《한겨레》, 2024-06-29
↑ 신지은 기자, 〈(싸이테크) 김정은의 진짜 같은 '가짜 목소리'의 실체... '음성 합성 기술' 어디까지 왔나〉, 《테크엠》, 2020-10-16
↑ 정윤영 기자, 〈'AI 성우'가 영어로 감정 연기한다…TTS기술 어디까지 왔나〉, 《뉴스핌》, 2020-06-23
↑ ^5.0 ^5.1 ^5.2 〈SCE-TTS: 내 목소리로 TTS 만들기〉, 《깃허브》
↑ 〈Text to Speech〉, 《나무위키》
↑ SW마에스트로, 〈(서포터즈 취재) "시리야~", "오케이 구글", "헤이 빅스비"〉, 《네이버 블로그》, 2020-04-28
↑ 〈(AI 음성인식)우리 일상생활 속에 녹아있는 STT, TTS 기술〉, 《와이즈에이아이》, 2024-02-29
↑ 숭의여자대학교 시각디자인과 김도희 교수, 〈보컬로이드 가상캐릭터의 특성 분석 연구 - 아이돌캐릭터 하츠네 미쿠를 중심으로〉, 《The Korea Society of Illustration Research Vol.56》, 2018
↑ 한동현 기자, 〈성우가 목소리 노예?...IT기업, 음성 저작권 영구 양도 요구〉, 《서울와이어》, 2021-12-06
↑ 남재현 기자, 〈"어, 박명수 목소린데?" 더 이상 '원본'은 없다〉, 《MBC뉴스》, 2018-06-02
↑ MrGreenGuy, 〈NileRed's Christmas be like〉, 《유튜브》, 2022-01-06

참고자료[편집]

〈Text to Speech〉, 《나무위키》
〈SCE-TTS: 내 목소리로 TTS 만들기〉, 《깃허브》
시각디자인과 김도희 교수, 〈보컬로이드 가상캐릭터의 특성 분석 연구〉, 《숭의여자대학교》, 2018
남재현 기자, 〈"어, 박명수 목소린데?" 더 이상 '원본'은 없다〉, 《MBC뉴스》, 2018-06-02
SW마에스트로, 〈(서포터즈 취재) "시리야~", "오케이 구글", "헤이 빅스비"〉, 《네이버 블로그》, 2020-04-28
정윤영 기자, 〈'AI 성우'가 영어로 감정 연기한다…TTS기술 어디까지 왔나〉, 《뉴스핌》, 2020-06-23
박지훈 기자, 〈일상생활 속의 AI노믹스 ⑦ TTS | 점점 알아채기 힘든 AI 성우 목소리 딥페이크 판별해낼 기술도 중요해져〉, 《매일경제》, 2020-07-30
신지은 기자, 〈(싸이테크) 김정은의 진짜 같은 '가짜 목소리'의 실체... '음성 합성 기술' 어디까지 왔나〉, 《테크엠》, 2020-10-16
한동현 기자, 〈성우가 목소리 노예?...IT기업, 음성 저작권 영구 양도 요구〉, 《서울와이어》, 2021-12-06
MrGreenGuy, 〈NileRed's Christmas be like〉, 《유튜브》, 2022-01-06
〈(AI 음성인식)우리 일상생활 속에 녹아있는 STT, TTS 기술〉, 《와이즈에이아이》, 2024-02-29<
곽노필 기자, 〈인공지능, 사람 목소리까지 훔치다〉, 《한겨레》, 2024-06-29

같이 보기[편집]

이 TTS 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

인공지능 : 인공지능 서비스, 인공지능 로봇, 인공지능 기술^□^■^⊕, 인공지능 기업, 인공지능 인물

인공지능 기술	AI 워싱 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링

문자인식과 음성인식	ICR • OCR • OMR • STT • TTS • 문자인식 • 음성인식 • 자연어 • 화자인식

인공지능 데이터	데이터라벨러 • 데이터라벨링 • 데이터셋 • 크라우드워커 • 토큰 • 토큰화

인공지능 학습	ADP • CoLLM • DALL-E • DDPG • DQN • LMM • SARSA • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 모델 기반 강화학습 • 모델 프리 강화학습 • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 심층믿음망 • 어니 • 에이전트 • 인공지능 학습 • 지도학습 • 학습 • 확률적 경사하강법

인공지능 알고리즘	AGI • ANI • ASI • RAG • XAI • 관계형 네트워크(RN) • 다층퍼셉트론 • 데이터마이닝 • 방사신경망 • 분산 샌드박스 • 생성대립신경망(GAN) • 생성형 AI • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 시그모이드 함수 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 역전파 • 인공신경망(ANN) • 인공지능(AI) • 제한 볼츠만 머신(RBM) • 전방전달신경망 • 코헨 자기조직 신경망 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 합성곱 신경망(CNN)

계산복잡도	NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 프로그램	BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 알렉스넷 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 한돌

인공지능 특징	결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론

인공지능 법적 지위	권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[1] 박지훈 기자, 〈일상생활 속의 AI노믹스 ⑦ TTS | 점점 알아채기 힘든 AI 성우 목소리 딥페이크 판별해낼 기술도 중요해져〉, 《매일경제》, 2020-07-30

[2] 곽노필 기자, 〈인공지능, 사람 목소리까지 훔치다〉, 《한겨레》, 2024-06-29

[3] 신지은 기자, 〈(싸이테크) 김정은의 진짜 같은 '가짜 목소리'의 실체... '음성 합성 기술' 어디까지 왔나〉, 《테크엠》, 2020-10-16

[4] 정윤영 기자, 〈'AI 성우'가 영어로 감정 연기한다…TTS기술 어디까지 왔나〉, 《뉴스핌》, 2020-06-23

[.EB.82.98.EB.AC.B4-5] 5.0 ^5.1 ^5.2 〈SCE-TTS: 내 목소리로 TTS 만들기〉, 《깃허브》

[6] 〈Text to Speech〉, 《나무위키》

[7] SW마에스트로, 〈(서포터즈 취재) "시리야~", "오케이 구글", "헤이 빅스비"〉, 《네이버 블로그》, 2020-04-28

[8] 〈(AI 음성인식)우리 일상생활 속에 녹아있는 STT, TTS 기술〉, 《와이즈에이아이》, 2024-02-29

[9] 숭의여자대학교 시각디자인과 김도희 교수, 〈보컬로이드 가상캐릭터의 특성 분석 연구 - 아이돌캐릭터 하츠네 미쿠를 중심으로〉, 《The Korea Society of Illustration Research Vol.56》, 2018

[10] 한동현 기자, 〈성우가 목소리 노예?...IT기업, 음성 저작권 영구 양도 요구〉, 《서울와이어》, 2021-12-06

[11] 남재현 기자, 〈"어, 박명수 목소린데?" 더 이상 '원본'은 없다〉, 《MBC뉴스》, 2018-06-02

[12] MrGreenGuy, 〈NileRed's Christmas be like〉, 《유튜브》, 2022-01-06

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

위키원

이름공간

변수

보기

더 보기

검색