화자인식
화자인식(speaker recognition)은 입력 받은 음성 데이터를 미리 저장된 데이터베이스와 비교하여 화자가 누군지를 식별하는 기술이다. 음성인식 분야의 가장 어려운 분야 중 하나이며, 이론적으로 완벽한 식별은 불가능하다고 알려져 있다. 음성인식 보안 솔루션에 가장 많이 응용된다.
기술
화자 인식
화자 식별과 화자 검증을 통틀어 화자 인식 기술이라고 부른다. 때로는 음성 인식 기술의 일종으로, 때로는 독립된 기술로 구분되기도 한다. 그 목적은 분명하다. '누가 말을 했는지를 정확히 알아내는 것'이다. 인공지능(AI)이 자동으로 통화 내용을 기록하거나 여러 명이 참여하는 회의에서 발언자를 식별해야 할 때, 누가 어떤 발언을 했는지 알 수 없다면 기록의 가치가 줄어들 수 있다. 이를 위해서는 화자 식별과 검증 외에도 추가적인 기술이 필요하다.
화자 식별
화자 식별은 여러 등록된 음성을 비교하여 현재 말하는 사람의 신원을 확인하는 기술이다. 예를 들어, '다은'과 '현우'의 음성을 AI 스피커에 등록했다고 가정해 봤을 때 다은이 AI 스피커에게 '블루투스 핸드폰 연결해줘'라고 명령하면, AI 스피커는 현우가 아닌 다은의 핸드폰을 연결해야 한다. AI 스피커는 등록된 두 개의 음성과 현재 화자의 음성을 비교하여 가장 유사한 음성의 주인을 추정하고, 다은의 핸드폰에 블루투스를 연결하는 명령을 수행한다. 만약 다은의 친구가 같은 명령어를 사용하면, AI 스피커는 새로운 화자가 아닌 등록된 두 음성 중 하나로 추정할 수 있다. 이처럼 등록된 화자들 간의 음성 패턴과 음색을 인식하는 화자 식별 기술은 사물인터넷(IoT) 기기에서 개인화 기능을 제공하는 데 필수적이다. 그러나 등록되지 않은 음성을 정확히 인식하는 데는 한계가 있다.
화자 검증
화자 검증은 지문이나 마스크로 인해 불편함이 커진 얼굴 인식 기술을 개선하는 차세대 보안 기술이다. 화자 검증은 '다은'의 음성을 등록한 경우, 입력되는 음성과 등록된 음성의 일치 여부를 성공(Pass)/실패(Fail) 방식으로 판별한다. 화자 식별 기술이 적용된 출입문은 제3의 인물이 나타나더라도 가장 유사한 음성의 인물로 추정할 수 있지만, 화자 검증 기반 보안은 '시스템에 등록되지 않은 음성'이 등록된 음성과 일치하는지를 확인하는 것이 특징이다. 정확도가 높은 화자 검증은 개인 확인 절차를 간소화한다. 예를 들어, 은행 고객 센터에 전화할 때 주소나 생년월일로 본인 확인을 대신해 화자 검증을 통해 신속하게 상담을 진행할 수 있다.
화자 분리
여러 사람과 대화를 나누거나 팀 미팅을 상상해 보면 대화가 겹치는 상황, 즉 '오디오가 물린다'는 현상이 종종 발생한다. 여러 화자가 동시에 말을 하거나 말을 끼어드는 경우가 있다. 화자 분리는 여러 화자의 음성이 겹칠 때 이를 각각 분리하여 인식할 수 있도록 해주는 기술이다. 이 기술을 '보이스 필터'라고 부르기도 하는데, 보이스 필터는 등록된 음성만을 남기고 음성 인식의 정확성을 높이는 도구로 활용된다.
화자 분할
잘 편집된 TV 프로그램을 떠올려 보면 '오디오가 물리는' 경우는 드물고, 오히려 여러 명의 화자가 빈틈없이 대화를 이어가는 경우가 많다. 화자 분할은 말 그대로 ‘화자가 다르다는 것을 인식’하기 위한 기술이다. 이는 토론 프로그램에서 진행자와 패널의 목소리를 구분하거나, 전화 통화에서 발신자와 수신자를 구별하는 데 사용된다.
각주
참고자료
- 〈화자 인식〉, 《화자인식》
- 〈누가 기침 소리를 내었는가 - 음성 인식부터 화자 인식까지〉, 《Cochl》
- NUGU, 〈(AI 기술) AI는 어떻게 사람의 말을 알아듣는 걸까? : 화자인식 기술 편〉, 《네이버 블로그》, 2020-05-14
- 〈음성인식, 화자식별, 화자분할... 알고보면 모두 다른 음성 AI〉, 《스켈터랩스》, 2021-05-17
- Zorba, 〈화자 식별(Speaker Identification), 화자 검증(Speaker Verification)〉, 《티스토리》, 2022-07-29
- 똘키아빠, 〈화자인식기술〉, 《티스토리》, 2022-07-10
같이 보기