화자인식

화자인식(speaker recognition)은 입력 받은 음성 데이터를 미리 저장된 데이터베이스와 비교하여 화자가 누군지를 식별하는 기술이다. 음성인식 분야의 가장 어려운 분야 중 하나이며, 이론적으로 완벽한 식별은 불가능하다고 알려져 있다. 음성인식 보안 솔루션에 가장 많이 응용된다.

기술[편집]

화자 인식[편집]

화자 식별과 화자 검증을 통틀어 화자 인식 기술이라고 부른다. 때로는 음성 인식 기술의 일종으로, 때로는 독립된 기술로 구분되기도 한다. 그 목적은 분명하다. '누가 말을 했는지를 정확히 알아내는 것'이다. 인공지능(AI)이 자동으로 통화 내용을 기록하거나 여러 명이 참여하는 회의에서 발언자를 식별해야 할 때, 누가 어떤 발언을 했는지 알 수 없다면 기록의 가치가 줄어들 수 있다. 이를 위해서는 화자 식별과 검증 외에도 추가적인 기술이 필요하다.

화자 식별[편집]

화자 식별은 여러 등록된 음성을 비교하여 현재 말하는 사람의 신원을 확인하는 기술이다. 예를 들어, '다은'과 '현우'의 음성을 AI 스피커에 등록했다고 가정해 봤을 때 다은이 AI 스피커에게 '블루투스 핸드폰 연결해줘'라고 명령하면, AI 스피커는 현우가 아닌 다은의 핸드폰을 연결해야 한다. AI 스피커는 등록된 두 개의 음성과 현재 화자의 음성을 비교하여 가장 유사한 음성의 주인을 추정하고, 다은의 핸드폰에 블루투스를 연결하는 명령을 수행한다. 만약 다은의 친구가 같은 명령어를 사용하면, AI 스피커는 새로운 화자가 아닌 등록된 두 음성 중 하나로 추정할 수 있다. 이처럼 등록된 화자들 간의 음성 패턴과 음색을 인식하는 화자 식별 기술은 사물인터넷(IoT) 기기에서 개인화 기능을 제공하는 데 필수적이다. 그러나 등록되지 않은 음성을 정확히 인식하는 데는 한계가 있다.

화자 검증[편집]

화자 검증은 지문이나 마스크로 인해 불편함이 커진 얼굴 인식 기술을 개선하는 차세대 보안 기술이다. 화자 검증은 '다은'의 음성을 등록한 경우, 입력되는 음성과 등록된 음성의 일치 여부를 성공(Pass)/실패(Fail) 방식으로 판별한다. 화자 식별 기술이 적용된 출입문은 제3의 인물이 나타나더라도 가장 유사한 음성의 인물로 추정할 수 있지만, 화자 검증 기반 보안은 '시스템에 등록되지 않은 음성'이 등록된 음성과 일치하는지를 확인하는 것이 특징이다. 정확도가 높은 화자 검증은 개인 확인 절차를 간소화한다. 예를 들어, 은행 고객 센터에 전화할 때 주소나 생년월일로 본인 확인을 대신해 화자 검증을 통해 신속하게 상담을 진행할 수 있다.

화자 분리[편집]

여러 사람과 대화를 나누거나 팀 미팅을 상상해 보면 대화가 겹치는 상황, 즉 '오디오가 물린다'는 현상이 종종 발생한다. 여러 화자가 동시에 말을 하거나 말을 끼어드는 경우가 있다. 화자 분리는 여러 화자의 음성이 겹칠 때 이를 각각 분리하여 인식할 수 있도록 해주는 기술이다. 이 기술을 '보이스 필터'라고 부르기도 하는데, 보이스 필터는 등록된 음성만을 남기고 음성 인식의 정확성을 높이는 도구로 활용된다.

화자 분할[편집]

잘 편집된 TV 프로그램을 떠올려 보면 '오디오가 물리는' 경우는 드물고, 오히려 여러 명의 화자가 빈틈없이 대화를 이어가는 경우가 많다. 화자 분할은 말 그대로 ‘화자가 다르다는 것을 인식’하기 위한 기술이다. 이는 토론 프로그램에서 진행자와 패널의 목소리를 구분하거나, 전화 통화에서 발신자와 수신자를 구별하는 데 사용된다.

각주[편집]

참고자료[편집]

〈화자 인식〉, 《화자인식》
〈누가 기침 소리를 내었는가 - 음성 인식부터 화자 인식까지〉, 《Cochl》
NUGU, 〈(AI 기술) AI는 어떻게 사람의 말을 알아듣는 걸까? : 화자인식 기술 편〉, 《네이버 블로그》, 2020-05-14
〈음성인식, 화자식별, 화자분할... 알고보면 모두 다른 음성 AI〉, 《스켈터랩스》, 2021-05-17
Zorba, 〈화자 식별(Speaker Identification), 화자 검증(Speaker Verification)〉, 《티스토리》, 2022-07-29
똘키아빠, 〈화자인식기술〉, 《티스토리》, 2022-07-10

같이 보기[편집]

이 화자인식 문서는 인공지능 기술에 관한 글로서 내용 추가가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 추가해 주세요.

[접기]인공지능 : 인공지능 서비스, 인공지능 기술^□^■^⊕, 인공지능 로봇, 인공지능 기업, 인공지능 인물

인공지능 기술	AI 워싱 • 랭체인 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 킬 스위치 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링

문자인식과 음성인식	ICR • OCR • OMR • URL • 감정 • 글자 • 단어 • 답변 • 대화 • 동영상 • 디자인 • 맥락 • 문단 • 문서 • 문자 • 문자인식 • 문자채팅 • 문장 • 발음 • 번역 • 분류 • 상담 • 소스코드 • 스토리 • 얼굴 • 얼굴인식 • 음성 • 음성채팅 • 음성인식(STT) • 음성합성(TTS) • 의미 • 이미지 • 인공어 • 인공지능 음성 • 자막 • 자연어 • 질문 • 채팅 • 출처 • 코드 • 코딩 • 텍스트 • 통번역 • 통역 • 파일 • 폴더 • 화상채팅 • 화자인식

인공지능 데이터	노드 • 데이터라벨러 • 데이터라벨링 • 데이터셋 • 돌마 • 레이블 • 벡터 • 벡터DB • 벡터공간 • 스칼라 • 시뮬레이션 • 엣지 • 임베딩 • 청크(Chunk) • 크라우드워커 • 토큰 • 토큰화

인공지능 학습	ADP • CoLLM • DALL-E • DDPG • DQN • LAM • LMM • SARSA • sLLM • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 과적합 • 기억 • 단기기억 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 메타추론 • 모델 기반 강화학습 • 모델 프리 강화학습 • 미세조정(파인튜닝) • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 어니 • 에이전트 • 인공지능 학습 • 자기지도학습 • 장기기억 • 전이학습 • 준지도학습 • 지도학습 • 추론 • 학습 • 훈련

인공지능 알고리즘	AGI • ANI • ASI • FFN • MHSA • RAG • ReLU 함수 • Seq2Seq • VLA • XAI • Word2Vec • 가중치 • 경사하강법 • 관계형 네트워크(RN) • 기울기 소실 • 뉴런 • 다층퍼셉트론 • 단층퍼셉트론 • 데이터마이닝 • 디코더 • 로지스틱 함수 • 리키 ReLU 함수 • 매개변수 • 미시 함수 • 방사신경망 • 볼츠만 머신 • 분산 샌드박스 • 비선형 함수 • 생성대립신경망(GAN) • 생성형 AI • 선형 함수 • 소프트맥스 함수 • 손실함수 • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 스위시 함수 • 시그모이드 함수 • 신경망 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 어탠션 • 에이전트체인(CoA) • 역전파 • 역치 • 온도 • 원핫 • 은닉층 • 인공신경망(ANN) • 인공지능(AI) • 인코더 • 입력층 • 잔차신경망(레즈넷) • 제한 볼츠만 머신(RBM) • 전방전달신경망(FFNN) • 정렬위장 • 주의 메커니즘 • 초매개변수(하이퍼 파라미터) • 출력층 • 코헨 자기조직 신경망 • 탄젠트 함수 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 하이퍼볼릭 탄젠트 함수(tanh) • 학습률 • 합성곱 신경망(CNN) • 확률분포 • 확률적 경사하강법 • 활성화 함수

계산복잡도	NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 프로그램	BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 파이토치 • 한돌

인공지능 장비	GPU • 그래픽카드 • 레니게이드 • 반도체 • 엔비디아 • 엔비디아 A100 • 엔비디아 H100 • 엔비디아 H200 • 워보이 • 집적회로(칩)

인공지능 특징	결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론

인공지능 법적 지위	권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법

위키 : 인공지능, 개발, 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인물, 행사, 일반

위키원

이름공간

변수

보기

더 보기

검색