검수요청.png검수요청.png

음성인식

위키원
(STT에서 넘어옴)
이동: 둘러보기, 검색

음성인식(Speech Recognition)이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자데이터로 전환하는 처리를 말하며 STT(Speech-to-Text)라고도 한다. 키보드 대신 문자를 입력하는 방식으로 주목을 받고 있다. 로봇, 텔레매틱스 등 음성으로 기기제어, 정보검색이 필요한 경우에 응용된다. 대표적인 알고리즘은 HMM(Hidden Markov Model)으로서, 다양한 화자들이 발성한 음성들을 통계적으로 모델링하여 음향모델을 구성하며 말뭉치 수집을 통하여 언어모델을 구성한다. 미리 기록해 둔 음성 패턴과 비교해 개인 인증 등의 용도로 사용하기도 하는데 이를 화자 인식이라고 한다. 음성인식 AI는 스마트폰이나 자율주행 차량, 각종 전자기기를 비롯한 다양한 산업군에서 빠른 속도로 진화하며 생활 속에 녹아들고 있다.

타고 월렌트 대형 가로 배너.jpg
이 그림에 대한 정보
[타고] 1개월 단위로 전기차가 필요할 때! 타고 월렌트 서비스

개요[편집]

음성인식 기능을 주위에서 쉽게 찾아볼 수 있게 했다. 스마트폰을 열면, 스마트폰 자체 혹은 앱에서 이러한 기능을 엿볼 수 있다. 가령 검색, 입력 등의 업무를 음성 명령어로 수행할 수 있다.

음성인식은 시스템이 음성을 인식해 문자로 바꿔주는 기술로 정의하는데, 음향 모델과 언어 모델을 기반으로 하고 있다. 음향 모델은 글자 기호의 소리에서 나타나는 음향 신호를 수집하고 분석해놓은 알고리즘이다. 특정 음향이 들리면, 이러한 알고리즘에 따라 글자 기호를 추론한다.

언어 모델은 음향 모델을 교정하는 역할을 한다. 음향모델에서 추론한 기호를 보고, 해당 기호와 매칭되는 단어 혹은 문장을 연결해 준다. 음향 모델에서 추론한 기호와 단어 간에 관계를 분석한 알고리즘으로 볼 수 있다.

최근 음성인식은 시스템이 음성 내용을 이해할 수 있는 기능까지 포함하고 있다. 따라서 이러한 기술에서 자연어 처리 기술까지 포함하는 것이 강조되고 있다. 그뿐만 아니라, 음성합성 기술까지 중요해지고 있다.

음성합성은 음성을 만들어내는 기술인데, 이러한 기술이 중요해진 이유는 시스템이 음성 내용을 이해함에 따라 사람과의 상호작용이 가능해지고 있기 때문이다. 기술 구현 방법은 음성 인식과 비슷하다. 엄밀히 말해, 음성 인식과 반대로 생각하면 된다. 음성 합성은 발음할 단어에 따른 음향 정보를 추론해 음성을 만들어내기 때문이다.

시스템이 사람 간의 상호 작용을 위해서 음성 인식과 음성 합성만으로는 충분하지 않다. 누구와 대화하고 있는지에 관한 인식도 중요하다. 다자간 대화 시에 필요한 상대방 인식이 필요한 셈이다.

화자 인식이 이러한 역할을 담당한다. 화자 인식은 시스템이 사용자의 목소리를 분석해 사용자를 인식하는 기술이다. 해당 기술은 2017년 하반기부터 적용되기 시작했는데, 이유는 AI 스피커가 사용자와 관계없이 음성 명령어에 반응했기 때문이다.

화자 인식은 생각보다 오래전인 1937년부터 연구됐다. 당시 목적은 법정에서 활용되는 목소리 출처를 분명하게 밝히기 위함이다. 녹음된 음성 주체가 본인이 아니라고 반박할 수 있는 소지가 있는데, 화자 인식은 이러한 반박의 여지를 막는다.

화자 인식 원리는 목소리 지문이라고 불리는 '성문'에 있다. 성문에 나타나는 특징으로 말하는 주체를 파악하는 셈인데, 화자 인식은 성문 분석과 함께 발전해왔다.

음성인식 서비스의 종류[편집]

음성인식기술을 바탕으로 한 다양한 음성인식 서비스들은 2000년대 후반에 본격적으로 소개되기 시작했다. 대표적인 것이 2011년에 출시된 애플의 음성 기반 개인비서 서비스인 '시리(Siri)'다. 시리는 아이폰 사용자의 음성명령을 바탕으로 모바일 검색은 물론, 일정관리, 전화 걸기, 메모, 음악 재생 등 다양한 생활편의 서비스를 제공하는 개인비서 서비스다. 애플의 시리 출시 이후, 구글은 '구글 나우(Google Now)', 마이크로소프트는 '코타나(Cortana)'와 같은 음성인식 기반의 개인비서 서비스를 출시했으며, 일본의 NTT도코모는 '샤베테콘쉐루(しゃべってコンシェル)'라는 외국어 통역 서비스를 출시하기도 했다.

삼성전자LG전자 같은 스마트폰 제조사들도 'S보이스'나 'Q보이스' 같은 서비스를 출시하기도 했다. 사실, 이러한 음성인식 서비스들은 서비스라기보다는 다양한 응용 서비스를 위한 음성 인터페이스 역할을 했다는 것이 더 정확할 것이다. 최근에는 아마존이 '대쉬(Dash)'나 '에코(Echo)'와 같은 음성인식 기반의 서비스 장치(Service Device)를 출시하고 있으며, 구글의 '온허브(OnHub)'처럼 음성인식 기반의 스마트홈 허브 장치들도 다양하게 출시되고 있다.

차량 음성인식 시스템[편집]

음성인식 기술은 음성명령을 인식하여 시스템에 명령을 내리는 기술로, 운전 중에 미디어를 안전하게 작동하기 위해 필수적인 기능이다. 안타깝게도, 기술적인 한계 때문에 모든 음성 명령이 시스템에서 인식되지는 않는다. 이 한계를 보완하기 위해, 시스템은 사용 가능한 음성 명령을 화면에 표시한다.

사람들 간의 소통에는 오류가 발생한다. 마찬가지로, 음성 인식도 일부 상황에서는 음성 명령을 잘못 인식할 수 있다. 이런 경우, 화면에서 제공되는 옵션을 확인하고 명령을 다시 말하거나 화면에서 해당 명령 버튼을 수동으로 선택하여 누르면 된다.

동영상[편집]

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 음성인식 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.