화자인식
화자인식(speaker recognition)은 입력 받은 음성 데이터를 미리 저장된 데이터베이스와 비교하여 화자가 누군지를 식별하는 기술이다. 음성인식 분야의 가장 어려운 분야 중 하나이며, 이론적으로 완벽한 식별은 불가능하다고 알려져 있다. 음성인식 보안 솔루션에 가장 많이 응용된다.
기술[편집]
화자 인식[편집]
화자 식별과 화자 검증을 통틀어 화자 인식 기술이라고 부른다. 때로는 음성 인식 기술의 일종으로, 때로는 독립된 기술로 구분되기도 한다. 그 목적은 분명하다. '누가 말을 했는지를 정확히 알아내는 것'이다. 인공지능(AI)이 자동으로 통화 내용을 기록하거나 여러 명이 참여하는 회의에서 발언자를 식별해야 할 때, 누가 어떤 발언을 했는지 알 수 없다면 기록의 가치가 줄어들 수 있다. 이를 위해서는 화자 식별과 검증 외에도 추가적인 기술이 필요하다.
화자 식별[편집]
화자 식별은 여러 등록된 음성을 비교하여 현재 말하는 사람의 신원을 확인하는 기술이다. 예를 들어, '다은'과 '현우'의 음성을 AI 스피커에 등록했다고 가정해 봤을 때 다은이 AI 스피커에게 '블루투스 핸드폰 연결해줘'라고 명령하면, AI 스피커는 현우가 아닌 다은의 핸드폰을 연결해야 한다. AI 스피커는 등록된 두 개의 음성과 현재 화자의 음성을 비교하여 가장 유사한 음성의 주인을 추정하고, 다은의 핸드폰에 블루투스를 연결하는 명령을 수행한다. 만약 다은의 친구가 같은 명령어를 사용하면, AI 스피커는 새로운 화자가 아닌 등록된 두 음성 중 하나로 추정할 수 있다. 이처럼 등록된 화자들 간의 음성 패턴과 음색을 인식하는 화자 식별 기술은 사물인터넷(IoT) 기기에서 개인화 기능을 제공하는 데 필수적이다. 그러나 등록되지 않은 음성을 정확히 인식하는 데는 한계가 있다.
화자 검증[편집]
화자 검증은 지문이나 마스크로 인해 불편함이 커진 얼굴 인식 기술을 개선하는 차세대 보안 기술이다. 화자 검증은 '다은'의 음성을 등록한 경우, 입력되는 음성과 등록된 음성의 일치 여부를 성공(Pass)/실패(Fail) 방식으로 판별한다. 화자 식별 기술이 적용된 출입문은 제3의 인물이 나타나더라도 가장 유사한 음성의 인물로 추정할 수 있지만, 화자 검증 기반 보안은 '시스템에 등록되지 않은 음성'이 등록된 음성과 일치하는지를 확인하는 것이 특징이다. 정확도가 높은 화자 검증은 개인 확인 절차를 간소화한다. 예를 들어, 은행 고객 센터에 전화할 때 주소나 생년월일로 본인 확인을 대신해 화자 검증을 통해 신속하게 상담을 진행할 수 있다.
화자 분리[편집]
여러 사람과 대화를 나누거나 팀 미팅을 상상해 보면 대화가 겹치는 상황, 즉 '오디오가 물린다'는 현상이 종종 발생한다. 여러 화자가 동시에 말을 하거나 말을 끼어드는 경우가 있다. 화자 분리는 여러 화자의 음성이 겹칠 때 이를 각각 분리하여 인식할 수 있도록 해주는 기술이다. 이 기술을 '보이스 필터'라고 부르기도 하는데, 보이스 필터는 등록된 음성만을 남기고 음성 인식의 정확성을 높이는 도구로 활용된다.
화자 분할[편집]
잘 편집된 TV 프로그램을 떠올려 보면 '오디오가 물리는' 경우는 드물고, 오히려 여러 명의 화자가 빈틈없이 대화를 이어가는 경우가 많다. 화자 분할은 말 그대로 ‘화자가 다르다는 것을 인식’하기 위한 기술이다. 이는 토론 프로그램에서 진행자와 패널의 목소리를 구분하거나, 전화 통화에서 발신자와 수신자를 구별하는 데 사용된다.
각주[편집]
참고자료[편집]
- 〈화자 인식〉, 《화자인식》
- 〈누가 기침 소리를 내었는가 - 음성 인식부터 화자 인식까지〉, 《Cochl》
- NUGU, 〈(AI 기술) AI는 어떻게 사람의 말을 알아듣는 걸까? : 화자인식 기술 편〉, 《네이버 블로그》, 2020-05-14
- 〈음성인식, 화자식별, 화자분할... 알고보면 모두 다른 음성 AI〉, 《스켈터랩스》, 2021-05-17
- Zorba, 〈화자 식별(Speaker Identification), 화자 검증(Speaker Verification)〉, 《티스토리》, 2022-07-29
- 똘키아빠, 〈화자인식기술〉, 《티스토리》, 2022-07-10
같이 보기[편집]