화자인식

화자인식(speaker recognition)은 입력 받은 음성 데이터를 미리 저장된 데이터베이스와 비교하여 화자가 누군지를 식별하는 기술이다. 음성인식 분야의 가장 어려운 분야 중 하나이며, 이론적으로 완벽한 식별은 불가능하다고 알려져 있다. 음성인식 보안 솔루션에 가장 많이 응용된다.

기술

화자 인식

화자 식별과 화자 검증을 통틀어 화자 인식 기술이라고 부른다. 때로는 음성 인식 기술의 일종으로, 때로는 독립된 기술로 구분되기도 한다. 그 목적은 분명하다. '누가 말을 했는지를 정확히 알아내는 것'이다. 인공지능(AI)이 자동으로 통화 내용을 기록하거나 여러 명이 참여하는 회의에서 발언자를 식별해야 할 때, 누가 어떤 발언을 했는지 알 수 없다면 기록의 가치가 줄어들 수 있다. 이를 위해서는 화자 식별과 검증 외에도 추가적인 기술이 필요하다.

화자 식별

화자 식별은 여러 등록된 음성을 비교하여 현재 말하는 사람의 신원을 확인하는 기술이다. 예를 들어, '다은'과 '현우'의 음성을 AI 스피커에 등록했다고 가정해 봤을 때 다은이 AI 스피커에게 '블루투스 핸드폰 연결해줘'라고 명령하면, AI 스피커는 현우가 아닌 다은의 핸드폰을 연결해야 한다. AI 스피커는 등록된 두 개의 음성과 현재 화자의 음성을 비교하여 가장 유사한 음성의 주인을 추정하고, 다은의 핸드폰에 블루투스를 연결하는 명령을 수행한다. 만약 다은의 친구가 같은 명령어를 사용하면, AI 스피커는 새로운 화자가 아닌 등록된 두 음성 중 하나로 추정할 수 있다. 이처럼 등록된 화자들 간의 음성 패턴과 음색을 인식하는 화자 식별 기술은 사물인터넷(IoT) 기기에서 개인화 기능을 제공하는 데 필수적이다. 그러나 등록되지 않은 음성을 정확히 인식하는 데는 한계가 있다.

화자 검증

화자 검증은 지문이나 마스크로 인해 불편함이 커진 얼굴 인식 기술을 개선하는 차세대 보안 기술이다. 화자 검증은 '다은'의 음성을 등록한 경우, 입력되는 음성과 등록된 음성의 일치 여부를 성공(Pass)/실패(Fail) 방식으로 판별한다. 화자 식별 기술이 적용된 출입문은 제3의 인물이 나타나더라도 가장 유사한 음성의 인물로 추정할 수 있지만, 화자 검증 기반 보안은 '시스템에 등록되지 않은 음성'이 등록된 음성과 일치하는지를 확인하는 것이 특징이다. 정확도가 높은 화자 검증은 개인 확인 절차를 간소화한다. 예를 들어, 은행 고객 센터에 전화할 때 주소나 생년월일로 본인 확인을 대신해 화자 검증을 통해 신속하게 상담을 진행할 수 있다.

화자 분리

여러 사람과 대화를 나누거나 팀 미팅을 상상해 보면 대화가 겹치는 상황, 즉 '오디오가 물린다'는 현상이 종종 발생한다. 여러 화자가 동시에 말을 하거나 말을 끼어드는 경우가 있다. 화자 분리는 여러 화자의 음성이 겹칠 때 이를 각각 분리하여 인식할 수 있도록 해주는 기술이다. 이 기술을 '보이스 필터'라고 부르기도 하는데, 보이스 필터는 등록된 음성만을 남기고 음성 인식의 정확성을 높이는 도구로 활용된다.

화자 분할

잘 편집된 TV 프로그램을 떠올려 보면 '오디오가 물리는' 경우는 드물고, 오히려 여러 명의 화자가 빈틈없이 대화를 이어가는 경우가 많다. 화자 분할은 말 그대로 ‘화자가 다르다는 것을 인식’하기 위한 기술이다. 이는 토론 프로그램에서 진행자와 패널의 목소리를 구분하거나, 전화 통화에서 발신자와 수신자를 구별하는 데 사용된다.

각주

참고자료

〈화자 인식〉, 《화자인식》
〈누가 기침 소리를 내었는가 - 음성 인식부터 화자 인식까지〉, 《Cochl》
NUGU, 〈(AI 기술) AI는 어떻게 사람의 말을 알아듣는 걸까? : 화자인식 기술 편〉, 《네이버 블로그》, 2020-05-14
〈음성인식, 화자식별, 화자분할... 알고보면 모두 다른 음성 AI〉, 《스켈터랩스》, 2021-05-17
Zorba, 〈화자 식별(Speaker Identification), 화자 검증(Speaker Verification)〉, 《티스토리》, 2022-07-29
똘키아빠, 〈화자인식기술〉, 《티스토리》, 2022-07-10

같이 보기

이 화자인식 문서는 인공지능 기술에 관한 글로서 내용 추가가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 추가해 주세요.

인공지능 : 인공지능 서비스, 인공지능 로봇, 인공지능 기술^□^■^⊕, 인공지능 기업, 인공지능 인물

인공지능 기술	AI 워싱 • 랭체인 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링

문자인식과 음성인식	ICR • OCR • OMR • TTS • URL • 글자 • 답변 • 대화 • 동영상 • 디자인 • 맥락 • 문서 • 문자 • 문자인식 • 문자채팅 • 발음 • 번역 • 분류 • 상담 • 소스코드 • 스토리 • 얼굴 • 얼굴인식 • 음성 • 음성채팅 • 음성인식(STT) • 이미지 • 인공어 • 자막 • 자연어 • 질문 • 채팅 • 코드 • 코딩 • 텍스트 • 통번역 • 통역 • 파일 • 폴더 • 화상채팅 • 화자인식

인공지능 데이터	데이터라벨러 • 데이터라벨링 • 데이터셋 • 벡터 • 벡터DB • 벡터공간 • 스칼라 • 임베딩 • 크라우드워커 • 토큰 • 토큰화

인공지능 학습	ADP • CoLLM • DALL-E • DDPG • DQN • LAM • LMM • SARSA • sLLM • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 과적합 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 메타추론 • 모델 기반 강화학습 • 모델 프리 강화학습 • 미세조정(파인튜닝) • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 어니 • 에이전트 • 인공지능 학습 • 전이학습 • 준지도학습 • 지도학습 • 추론 • 학습 • 확률적 경사하강법

인공지능 알고리즘	AGI • ANI • ASI • RAG • XAI • 가중치 • 관계형 네트워크(RN) • 뉴런 • 다층퍼셉트론 • 단층퍼셉트론 • 데이터마이닝 • 방사신경망 • 볼츠만 머신 • 분산 샌드박스 • 생성대립신경망(GAN) • 생성형 AI • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 시그모이드 함수 • 신경망 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 역전파 • 은닉층 • 인공신경망(ANN) • 인공지능(AI) • 제한 볼츠만 머신(RBM) • 전방전달신경망 • 주의 메커니즘 • 코헨 자기조직 신경망 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 합성곱 신경망(CNN)

계산복잡도	NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 프로그램	BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 알렉스넷 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 파이토치 • 한돌

인공지능 특징	결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론

인공지능 법적 지위	권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

위키원

이름공간

변수

보기

더 보기

검색