의견.png

스마트스피커

위키원
leod0904 (토론 | 기여)님의 2020년 7월 27일 (월) 14:33 판
이동: 둘러보기, 검색

스마트 스피커(smart speaker)는 무선 스피커의 일종이며, 음성인식 가상비서라고도 한다. 사물인터넷(IoT) 음성인식 인공지능(AI) 비서가 탑재된 스피커 및 그 서비스를 총칭하는 용어이다.

개요

스마트 스피커는 외부적으로는 단일 유닛 무선 스피커인 경향이 있으며 내부적으로는 인공지능이 내장되어 있다. 단순히 입력된 명령을 음성을 통해 인지하고 실행하는 것이 아니나 사용자와의 대화를 이해하고 행동 패턴을 분석하여 필요한 서비스를 제공하는 진화한 스피커이다. 스마트 스피커가 사용자의 말을 듣고 사람처럼 답하기 위해서는 음성인식과 자연어 처리, 음성합성을 위한 고난도의 인공지능 기술이 필요하다. 음성인식은 사람의 말을 텍스트로 변환하는 기술로 음성인식 인터페이스를 사용하는 스마트 스피커의 기반기술이다. 사람마다 서로 다른 발음과 상황에 따른 같은 단어의 다른 발음 등의 다양한 문제로 구현이 쉽지 않았으나 딥러닝의 발전으로 현재는 개별 단어 단위에서 인식률이 95%에 이른다. 스마트 스피커는 주변 소음, 음악과 사람의 음성을 분리하기 위해 여러 개의 마이크를 내장하여 전처리 하는 과정을 거친다. 자연어 처리는 사람의 말을 기계가 이해하도록 만드는 인공지능 기술로 텍스트 문장에서 핵심어를 추출하여 명령 도메인과 구체적인 요청사항을 구분한다. 음성명령에 적절하게 응답하기 위해서는 통합 지식 데이터베이스를 구축하고 검색과 텍스트 요약, 개인화 추천 기술들을 적용해야 한다. 스마트 스피커의 인공지능 플랫폼은 클라우드에서 작동한다. 개별 기기는 웨이크업 명령 인식과 음성 데이터 전처리만 담당하며, 웨이크업 명령 처리를 제외한 음성인식은 클라우드에서 구동한다. 자연어 처리 모듈, 사용자 명려오가 서비스 매칭, 음성합성 기능도 클라우드 상에서만 구현된다.[1]

기존 인공지능 플랫폼을 보유하고 있는 기업부터 새롭게 진출하는 기업까지 다양한 기업들이 현재 스마트 스피커 시장에 진출하고 있다. 한 대의 기기만으로 거주하고 있는 모든 사람들과 접점을 만들고 일상의 정보를 수집할 수 있으며, 가정 내 다른 스마트 가전들과 다르게 스마트 스피커는 개별 기기로서가 아닌 가정 내 모든 스마트 가전들을 이어주는 코어로서 그 역할이 더욱 중요하다. 스마트 스피커를 통해서 스마트 기기들을 개별 제어하는 복잡성을 해소할 수 있다는 점과 스마트 스피커를 통해 연결되는 다양한 서비스를 손쉽게 이용할 수 있다는 것이 큰 강점이다. 그러나 연결의 이면에는 보안의 위험도 존재한다. 스마트 스피커를 통해 가정 내 연결된 다양한 스마트 기기들까지 해킹될 수 있는 우려도 실제 존재하기 때문이다. 또한, 녹음 기능은 도청과 같은 사생활 침해로도 이어질 수 있다. 특히 생활과 밀접한 공간에서 이용되는 만큼 정보의 탈취 외에도 개인에 대한 침해와 사고로도 이어질 수 있기 때문에 심각한 보안 문제를 초래할 수 있다.[2] 전 세계 스마트 스피커 시장은 연평균 30% 내외로 성장하여 2022년에는 2017년 대비 약 3.5배 증가한 87.1억 달러로 예상한다. 미국이 성숙시장으로 서서히 진입하고 있음을 감안하더라도 올해 전 세계 스마트 스피커 판매량은 최소 5천만대에서 최대 8천만대에 이를 것으로 전망된다.[3]

역사

  • 2014년 : 아마존(Amazon)의 에코(Echo) 출시
  • 2016년 : 구글(Google)의 구글홈(Google Home) 출시, 에스케이텔레콤(SK)의 누구(NUGU) 출시
  • 2017년 : 스피커와 셋톱박스(Set-Top Box)를 결합하여 음성과 TV 디스플레이를 동시에 보여주는 케이티(KT)의 기가지니 출시
  • 2018년 : 시리(Siri)가 탑재된 애플(Apple)의 홈파드(HomePod) 출시, 삼성전자 빅스비(Bixby) 탑재한 스피커 출시

특징

등장배경

음성 인터페이스는 터치의 한계를 극복하기 위한 대안이다. 스마트폰과 함께 등장한 터치 인터페이스는 기존의 입력 장치인 키보드나 마우스, 물리적 버튼, 스타일러스펜의 한계를 극복한다. 터치 방식은 별도의 물리적 입력 장치 없이 누구나 직관적으로 스마트폰을 사용할 수 있도록 만든 혁신적인 기술이다. 하지만 누군가에게 문자를 보내거나 스마트폰의 설정을 변경하려고 할 때 여러 단계를 거쳐야 하고, 사용 중에는 스마트폰에서 눈고 손을 뗄 수 없는 단점이 있다. 이러한 한계를 극복하기 위해 음성 인터페이스가 나왔으며, 여러 단계를 거치지 않고 필요한 기능을 바로 사용할 수 있고, 터치에 비해서 훨씬 더 직관적인 방식이다. 이러한 측면에서, 스마트 스피커는 음성 인터페이스를 활용하기 위한 최적의 플랫폼이다.[3]

현재 상황

음성 인식 인공지능 비서 서비스를 탑재한 스마트 스피커의 급속한 보급 증가는 음성 인공지능 기술과 시장이 확대되는 데 가장 큰 기여를 하고 있다. 글로벌 시장조사업체 카날리스(canalys)에 따르면 전 세계 스마트 스피커 연간 출하량은 2018년 7800만 대에서 2019년 전년 대비 60% 증가하여 1억 2460만 대에 이르는 것으로 조사되었다. 2017년 스마트 스피커 시장은 아마존과 구글이 양분했으나 2018년부터 바이두, 알리바바 샤오미 등 중국 벤더들의 출하량이 크게 늘어나기 시작했다. 2019년에는 바이두, 알리바바, 샤오미 중각 3사 제품의 출하량 합계가 4820만 대로 2019년 아마존과 구글 출하량 합계인 6110만 대를 추격하는 양상을 보이고 있다. 미국의 시장조사기관인 에디슨 리서치에 따르면, 2019년말 기준으로 미국 전체 성인의 24%에 해당하는6000만 명이 스마트 스피커를 보유하고 있으며 스마트 스피커 보유자의 33%는 하루에도 수 차례, 27%는 거의 매일, 21%가 최소 1주일에 한 번 이상 이용해 스마트 스피커의 사용 빈도 또한 높게 나타났다.

국내 시장에서도 스마트 스피커 판매량이 크게 증가했다. 과학기술정보통신부가 집계한 바에 따르면, 2019년 3월 기준 국내 스마트 스피커 누적 판매량은 412만 대로 전년 대비 2배 가량 증가했으며, 언론에서는 2019년 말 기준 누적 판매가 800만 대에 이를 것으로 추정하고 있다. 국내 스마트 스피커는 2018년과 2019년 하반기부터는 스마트 스피커에 대한 소비자들의 호기심 감소와 시장 수요 침체로 판매량이 크게 낮아진 것으로 알려졌다.[4]

작동방식

스마트 스피커가 사람의 목소리를 인지하고 명령한 것을 처리하는 과정은 크게 4단계의 알고리즘(Algorithm)으로 생각할 수 있다.

  • 트리거 워드(Trigger word) : 스마트 스피커를 활성화하기 위해서는 잠자고 있는 스마트 스피커를 깨워야 한다. 예를 들어, 아이폰의 시리 같은 경우 트리거 워드는 "시리야"이다. 이때, 스마트 스피커에 러닝머신이 적용된다. 즉, 트리거 워드는 오디오 클립(Audio clip)으로 인풋값이 설정되고, 아웃풋으로 0 혹은 1을 내놓는다. 스마트 스피커가 트리거 워드를 인지하면 두번째 단계인 음성인식(speech recognition)을 수행한다.
  • 음성인식 : 이때, 인공지능 스피커가 해야할 일은 트리거 워드 다음으로 하는 말이 인풋값이 되고, 그 오디오 클립의 아웃풋은 텍스트 트랜스크립트(Text transcript)가 된다. 만약, 사용자가 "시리야, 오늘 날씨 어때?"라고 말했다면 "시리야" 다음으로 말한 "오늘 날씨 어때?"가 인풋값이 되고 아웃풋은 이 단어의 텍스트 트랜스크립트가 된다.
  • 의도인식(Intent recognition) : 다음 알고리즘은 "오늘 날씨 어때?"를 이해해야 한다. 오늘날의 스마트 스피커가 인지할 수 있는 명령어는 시간 말하기, 타이머 설정, 날씨 묻기, 전화 걸기 등과 같이 제한적이지만 간단한 명령어 처리는 문제가 없다.
  • 실행(Execute) : 사용자가 스마트 스피커에 요청한 명령을 실행한다.[5]

설계

마이크

디지털 마이크는 아날로그 마이크보다 비싸지만 아날로그 마이크는 시스템온칩(SoC) 앞에 추가 아날로그-디지털 변환회로(ADC)가 있어야 한다. 별도의 ADC가 있는 아날로그 마이크와 비교했을 때, 디지털 마이크는 주어진 마이크 내부의 ADC에 포함된 변환기 사이즈 제한과 통합 ADC 자체의 성능 제한에 대해 신호 대 잡음 비율과 동적 범위가 낮다. 일반적인 디지털 마이크는 약 65dB의 잡음 비율과 104dB의 동적 범위를 제공하며 ADC가 포함되어 있으므로 필터링과 오버샘플링을 통해 잡음비율과 동적 범위를 강화할 수 없다. 반면에 아날로그 마이크는 외부 ADC와 통합되어 있으므로 최대 120dB의 잡음 비율 및 동적 범위를 경험할 수 있다. 일반적인 혼잡한 방 또는 음악이 재생되고 있는 방의 주변 사운드 레벨이 쉽게 60dB이 된다는 점을 고려하면, 디지털 마이크의 동적 범위가 더 낮으면 음성 명령이 주변 사운드보다 훨씬 높지 않은 이상 음성 명령을 제대로 인식하지 못할 수 있다. 즉, 최종 사용자가 마이크에 더 가깝게 가야 하거나 스마트 스피커에 더 많은 마이크가 필요하게 된다.[6]

스피커 증폭기 및 전원

스피커 증폭기의 경우 출력 전력, 전력 소모, 열, 크기, 스피커 보호 및 사운드 정확도가 균형을 이루고 있다. 하나의 중간 범위 스피커 및 우퍼가 있는 단순한 스피커는 좋은 사운드를 제공하지만, 최신 오디오 처리 기술이 결합된 다중 스피커는 360도 오디오 경험을 제공할 수 있다. 소비 전력 및 열 측면에서 지속적인 전력 드레인을 줄이기 위한 하나의 접근 방법은 증폭기 펄스폭 변조 방법을 어댑티브 전원 공급 장치를 결합하여 스피커의 전력 요구 사항을 줄이는 것이다. 이 기술은 가변 클래스 D출력에 대해 스위칭 주파수를 사용하고, 오디오 콘텐츠에 기반하여 주파수를 변경한다. 즉, 콘텐츠가 많아질수록 스위칭이 많아지고, 콘텐츠가 적어질수록 스위칭이 적어진다. 효율성을 추가하기 위해 콘텐츠에 따라 증폭기의 출력 전원 공급 장치 전압을 동적으로 조정할 수도 있다. 이러한 기술을 엔빌로프 트래킹이라고 한다. 이 기술은 음악에 전력 향상이 필요한 경우, 특히 베이스가 많은 부분에서만 오디오 콘텐츠를 추적하고 전압을 높인다.[6]

전원 관리

대부분의 전자 시스템과 마찬가지로, 전력 관리는 시스템 설계에서 매우 중요한 역할을 한다. 궁극적인 목표는 더 적은 열을 방출하는 전력 효율성을 제공하여 더 작고 비용이 낮은 시스템을 사용할 수 있도록 하고, 휴대용 시스템의 경우 배터리 작동 시간을 늘리는 것이다. 고정된 통합 솔루션이 제공하는 것을 넘어서 더 낮은 전류로 작동하는 것 또는 더 높은 스위칭 주파수를 사용하는 것과 같은 고정된 통합 솔루션이 제공하는 것 이상으로 설계를 최적화하여 소형 인덕터의 필요성에 따라 더 작은 풋프린트를 달성하고 싶어 할 수도 있다. 또는 펄스 스킵 또는 에코 모드를 사용하여 낮은 부하에서 전력을 절약하는 동시에 20kHz 미만에서 전환하지 않음으로써 오디오 대역에 간섭하지 않으려고 할 수 있다. 휴대용 스피커의 경우 전원 경로 보호라고 불리는 기술을 통해 외부 AC/DC 벽면 어댑터로 배터리를 충전하는 동시에 통합 레귤레이터를 통해 스피커에 전원을 공급할 수 있다. 배터리 충전기는 입력을 더 높은 배터리 전압까지 늘려야 하며, 피크 전력 상황에서 더 높은 전압을 달성하기 위해 스피커 증폭기 레일에 대한 추가 부스트 컨버터가 필요하다. 또한, 휴대용 스마트 스피커 시스템에는 낮은 대기 전력 등급 및 배터리가 단일 전원일 때 충전 사이클 간에 더 긴 런타임을 제공하기 위한 효율적인 강압 컨버터가 있어야 한다. 스피커가 전력 소모의 상당 부분을 차지하기 때문에 증폭기의 요구 사항과 밀접하게 통합된 전원 공급 장치는 전력 및 비용 효율적인 설계를 갖추게 된다.[6]

사용자 인터페이스

스마트 스피커 시장 차별화에 있어 인간과 기계 상호작용(HMI)은 주요 요소이기 때문에 원하는 최종 사용자 경험에 따라 어떤 유형의 사용자 인터페이스를 제공할지 결정해야 한다. 인터페이스는 저비용의 단순한 버튼과 단일 표시기 LED, 회전 LED, 터치 입력 및 햅틱 피드백을 제공하는 LCD 디스플레이에 이르기까지 다양하다. LED는 상태를 알리는 데 사용되며, 최근에는 다양한 패턴으로 움직이는 색상을 생성하여 최종 사용자 경험을 향상한다. 각 선택에는 비용, 전력, 시스템 부담 장단점이 따른다. 또한 정전식 터치 인식 표면은 더 많은 상호 작용을 지원하고 사용자 인터페이스를 강화한다. 물리적인 힘이 필요하지 않으며, 동일한 표면에서 최종 사용자의 근접도를 감지하고 어두운 곳에서도 쉽게 사용할 수 있도록 백라이트를 활성화한다. 터치 인식 표면은 단순한 푸시 대신에 스와이프 또는 스핀을 지원하며 더 친숙한 인터페이스를 구현할 수 있고, 스마트 스피커를 차별화하는 데 도움이 된다. 적절하게 설계된 정전식 터치 컨트롤러는 플라스틱, 유리, 금속 등 다양한 표면에서 작동하며, 스피커 케이스 표면과 동일한 높이로 설계될 수 있다.[6]

무선 연결

인터넷에 연결되지 않으면 스마트 스피커는 의도한 대로 작동하지 않는다. 주어진 속도 요구 사항 및 전력 제약 조건에서 연결할 수 있는 가장 좋은 방법과 관련된 설계 작동이 있다. 스마트 스피커를 인터넷에 연결하는 가장 일반적인 형식은 와이파이를 통해 직접 연결하는 것이다. 그러나 와이파이 전력 증폭기가 매우 많은 전력을 소모하며 배터리로 작동하는 스마트 스피커의 재생 시간을 제한할 수 있다. 이 이유로 인해 와이파이 지원 스피커는 지속적으로 작동하기 이해 매립식 콘센트에 직접 꽂아 사용되거나 AC 어댑터와 함께 사용되기도 한다. 배터리로 구동되는 휴대용 스피커는 와이파이 클라우드 연결을 근처 모바일 장치로 오프로드할 수 있다. 간접 클라우드 연결을 위해 모바일 장치에 연결하거나 모바일 장치에 저장된 콘텐츠를 들으려면 블루투스(Bluetooth) 저에너지의 대역폭 제한 및 전력 체계로 인해 오디오 콘텐츠를 스트리밍 하기 위한 지속적인 연결에 블루투스 클래식이 필요하다.[6]

기능

  • 음악 재생 : 대한민국 음악 스트리밍 사이트 멜론, 지니, 네이버 뮤직은 스마트 스피커에 음악 추천 기능을 도입했다.
  • 알람 및 타이머 : 알람 설정, 확인, 삭제, 끄기, 켜기, 알람 음악 설정 등을 할 수 있다. 타이머는 타이머 설정, 중단, 재시작 등의 기능이 있다.
  • 뉴스 및 날씨 : 뉴스는 카테고리별, 인기순, 테마 등으로 나눠서 들을 수 있다. 날씨는 현재 날씨, 일자별 날씨, 주간 날씨, 시간별 날씨, 세계 날씨 등을 알 수 있다.
  • 일정 및 메모 : 일정 등록, 조회, 삭제 등 메모 추가 기능이 있다.
  • 기타 : 환율, 운세, 로또, 주식 등의 생활 정보 제공과 일상 대화 하기, 쇼핑 등이 있다.

제품

국내

  • 케이티 : 케이티에서는 2017년 1월 스마트 스피커 제품인 기가지니를 공개한 데 이어 2018년 2월에는 기가지니2를 출시했다. 기가지니2는 IPTV 셋톱박스에 스마트 스피커를 결합한 제품으로 월정액 요금으로 판매된다. 하만카돈 스피커를 탑재했으며, TV 등 가전제품을 음성으로 제어하는 홈 사물인터넷 기능을 제공한다.
  • 에스케이텔레콤 : 에스케이텔레콤은 스마트 스피커 누구를 2016년 9월에 출시했다. 누구는 딥러닝 방식으로 데이터를 학습하며 성장하는 방식으로, 초록, 파랑 등으로 색이 바뀌며 빛나는 LED 조명 기능을 내장하고 있다. 누구는 음악·오디오, 전화, 생활·정보, 검색, 쇼핑·주문, 키즈, 금융 등의 서비스를 제공한다. 에스케이텔레콤은 디스플레이를 탑재한 누구 네모, 소형 버전인 누구 미니, 셋톱박스와 결합된 B tv x 누구 등으로 제품 라인업을 확대하고 있다.
  • 네이버 : 네이버는 2017년 8월 원통형 모양의 클로바 웨이브, 2017년 10월 네이버의 캐릭터 브라운과 샐리를 디자인에 활용한 클로바 프렌즈를 출시했다. 음악 스트리밍, 날시 및 뉴스 브리핑, 음성 검색 등 네이버 서비스와 연계된 기능을 제공한다. 네이버는 엘지유플러스와 제휴하여 클로바 스마트 스피커를 엘지유플러스의 유플러스우리집인공지능(U+우리집AI) 제품으로 공급하고 있다.
  • 카카오 : 카카오는 2017년 11월 카카오톡 캐릭터 피규어를 부착한 스마트 스피커 카카오미니를 출시했다. 멜론 음악 스트리밍 서비스와 카카오톡과 연동한 음성으로 메시지 전송, 카카오 택시 호출 등 카카오 서비스와 연계된 서비스가 강점이다.
  • 삼성전자 : 삼성전자는 2018년 7월 제품 공개 행사에서 항아리 모양의 갤럭시 홈스피커를 공개했지만 아직 출시 일정은 미정이다. 2019년 9월 부터는 개발자들을 대상으로 소형 스마트 스피커인 갤럭시 홈 미니의 베타 테스트를 진행 중이며, 조만간 상용화한다는 계획을 밝혔다. 갤럭시 홈은 AKG 스피커 6개와 우퍼를 탑재하여 고음질에 중점을 두고 있으며, 갤럭시 홈 미니는 적외선 송신기를 탑재해 인터넷에 연결되지 않아 리모컨으로만 작동하는 타사 제품을 음성으로 제어 가능한 것이 특징이다.
  • 엘지 : 엘지 전자가 2019년 1월 선보인 엘지 엑스붐 인공지능 씽큐는 영국 오디오 업체인 메리디안의 기술을 적용하여 사운드 성능을 향상시켰으며, 엘지 씽큐와 구글 어시스턴트 인공지능을 탑재했다. 음성으로 세탁기, 냉장고, 등 엘지 씽큐 탑재 가전제품의 동작을 제어할 수 있다.[4]

해외

  • 아마존 : 아마존은 2014년 11월 스마트 스피커 에코를 출시했다. 현재 3세대 제품까지 출시된 에코는 아마존의 음성 인공지능 비서 플랫폼인 알렉사를 탑재하고 있어 사용자가 음성으로 명령을 내리거나 기기와 대화를 나눌 수 있다. 음악 재생, 알람 설정, 날씨 및 교통정보 제공 등 다양한 기능을 제공하며 아마존 스킬을 이용한 서드파디 서비스도 계속해서 확장되고 있다. 아마존은 2016년 3월 에코의 소형 버전인 에코 닷(Echo Dot)을 출시했으며, 이 제품은 하키퍽 형태의 작은 스마트 스피커로 에코의 모든 기능을 담고 있지만 스피커의 출력이 낮아졌고 가격 또한 매우 저렴해졌다. 아마존은 에코 닷을 작은 방에 하나씩 놓고 기기 간 페어링을 통해 거실과 방 어디서든 음성 인공지능 기능을 사용할 수 있게 되는 것을 목표로 하고 있다. 한편 아마존은 2017년 6월 전면에 LCD 스크린을 탑재한 에코 쇼(Echo Show)를 출시했다. 에코 쇼는 스마트 스피커에 스크린이 결합된 형태로, 기존 에코 모델의 기능에 전자 액자, 영상 재생, 화상 통화 등의 기능을 추가로 제공한다.
  • 구글 : 구글은 2016년 11월 아마존 에코의 대항마로 자사의 음성 인공지능 플랫폼인 구글 어시스턴트를 탑재한 스마트 스피커 구글 홈을 출시했다. 구글 홈은 구글 캘린더, 플레이 뮤직, 유튜브 등 구글 서비스와 연동되는 것이 강점이며, 스마트홈 기기를 조작할 수 있는 기능도 제공한다. 구글은 2017년 10월 미니 스마트 스피커인 구글 홈 미니를 시판했으며, 아마존과 동일하게 낮은 가격을 책정하여 복수의 기기 구매를 유도한다는 전략이다. 한편 구글은 2018년 10월 7인치 스크린을 탑재한 구글 홈 허브를 출시했다. 구글 홈 허브는 스마트 스피커의 모든 기능을 동일하게 이용 가능하며, 사용자가 화면 터치를 통해 조작할 수도 있다. 현재까지 아마존과 구글의 스마트 스피커 출시 현황을 보면, 아마존이 먼저 출시한 제품 라인업과 유사한 모델을 구글이 선보이는 흐름을 보이고 있다. 처음에 원통형 스피커 형태의 기본 모델을 출시한 이후 가격을 낮춘 소형 버전으로 방에 여러 대의 기기를 갖추도록 유도하고, 스크린을 탑재한 스마트 디스플레이 모델로 영상 시청, 화상 통화 등 고객의 여러 가지 수요에 대응하는 전략이다.
  • 애플 : 애플은 2018년 2월 스마트 스피커 홈팟을 선보였다. 홈팟은 애플의 인공지능 비서 서비스인 시리를 탑재하고 있으며, 7개의 트위터와 대형 우퍼를 장착하여 오디오 성능에 중점을 두고 있다. 주변 공간을 인식하여 풍부한 사운드를 재생하며, 아이폰6에 채택된 바 있는 프로세서인 에이8(A8) 칩셋을 탑재하고 있다. 애플은 홈팟을고급 오디오 기기로 내세우고 있으며 실제 가격대가 높은 만큼 소리의 품질은 여타의 스마트 스피커 대비 우수하다는 평가이다.
  • 바이두 : 바이두는 2018년 6월 자사의 음성 인공지능 플랫폼인 두어OS를 탑재한 스마트 스피커 샤오두를 선보였다. 249위안의 저렴한 가격이 강점이며, 출시 초기와 광군제 등 시기에는 50% 이상 할인가로 공격적인 보급에 나서고 있다. 알리바바는 2017년 7월 부터 티몰지니라는 브랜드의 스마트 스피커를 판매했다. 티몰지니는 알리바바의 인공지능 플랫폼인 알리지니를 탑재하고 있으며, 스마트홈 기기 제어 기능과 함께 음악, 날씨, 뉴스 등 기능을 제공하며 알리바바의 온라인 쇼핑몰 티몰에서 음성으로 상품을 주문할 수 있는 보이스 커머스를 지원한다.[4]

한계

보안

가정의 거실과 방 곳곳에 위치한 스마트 스피커는 항시 실행을 대기하면서 사용자의 모든 음성 대화를 수집할 수 있다는 문제가 있다. 2019년 4월에는 아마존이 세계 전역에서 수천 명의 인력을 동원하여 아마존 에코 스마트 스피커로 사용자의 음성 명령을 녹음해왔다는 사실이 드러나면서 논란이 되기도 했다. 애플 시리와 구글 어시스턴트 또한 이러한 음성 명령 녹음 논란에서 자유롭지 못하다. 음성 인공지능 기능이 딥러닝 방식으로 기존의 음성 명령을 학습하면서 성능이 향상되기 때문에, 개발 과정에서의 음성 데이터 수집을 피할 수 없는 작업으로 여겨지고 있기 때문이다. 따라서 업계에서는 사용자의 음성 데이터 수집과 활용 시 개인 정보와 프라이버시를 엄격하게 보호할 수 있는 방안을 마련하는 것이 중요하다고 보고 있다. 구글은 자사의 스마트 스피커 단말인 구글 홈에 음성 입력 버튼을 탑재하여 버튼을 눌렀을 때만 음성 데이터를 받아들이도록 하는 기능을 탑재하고 있지만, 이러한 방식은 스마트 스피커를 사용하기 위해 버튼을 항상 눌러야만 실행이 되는 불편함을 가져올 수 밖에 없다. 결국 음성 데이터의 프라이버시 문제를 해결하면서도 기기의 편의성과 성능 향상을 담보할 수 있는 대책 마련이 필요하다. 또한 음성을 결제에 활용하느 ㄴ보이스 커머스에서는 보안성 확보도 필요하다. 누군가가 사용자의 음성을 녹음해 보이스 결제에 도용하거나, 해킹을 통한 결제가 일어나지 않도록 방지할 수 있는 장치가 요구된다.

음성 인식 성능

음성 인공지능의 인식 정확도가 사람을 뛰어넘는 95% 이상 수준까지 발전했지만, 아직도 실제 음성 인공지능 단말과 서비스를 사용하는 사람들은 여러 불편함을 호소하고 있다. 그 중 하나는 문맥을 이해하지 못하는 음성 인공지능의 한계이다. 예를 들어 다소 복잡한 문장이나 두 단계에 걸쳐 이뤄지는 질문을 음성 인공지능에게 제시할 경우 엉뚱한 명령을 실행하거나 수행 불가능이라고 응답하는 것과 같이 질문의 해석에 어려움을 겪는 경우가 많다. 따라서 문맥을 정확하게 이해하는 음성 인공지능을 개발하는 것은 향후 음성 인공지능 단말과 서비스의 성능과 효용성을 크게 향상시키는 데 기여할 수 있다. 다만, 문맥 해석을 위해서는 다층적으로 해석될 수 있는 여러 정황 정보를 파악하고 여러 가지 경우의수에서 최적의 답을 찾아내는 작업이 필요하므로, 문맥을 이해하는 인공지능 개발에는 아직도 많은 연구와 개발이 필요할 것으로 전망된다. 국내 음성 인공지능 단말과 서비스는 구글 홈이나 아마존 알렉사와 같은 영어 기반의 플랫폼보다 정확도가 떨어지는 것으로 알려져 음성 인공지능의 기본적인 성능 향상이 더 필요한 것으로 보인다. 구글과 아마존의 단말에서도 한국어 음성 입력 성능은 영어보다 더 낮은 것으로 나타나, 이는 한국어 음성 데이터가 아직 충분히 확보되고 분석되지 못한 데서 기인하는 문제로 볼 수 있다.

다양한 응용 서비스와 킬러 서비스

알렉사 스킬과 구글 액션과 같은 확장 기능의 급속한 증가로 음성 인공지능에서 사용할 수 있는 서비스도 급격하게 증가했다. 양적으로는 크게 증가했음에도, 아직 음성 인공지능의 특징을 살린 서비스는 눈에 띄지 않는 것이 사실이다. 앞으로도 음성 인공지능의 응용 서비스는 지속적으로 증가할 것으로 보이지만, 음성 인공지능 시장의 규모 확대와 주류 시장 자리매김을 위해서는 킬러 서비스의 등장이 필요하다. 확장 기능이 양적 확대는 서비스의 절적 향상과 킬러 서비스의 개발로도 이어질 수 있다. 이를 위해서는 다양한 실험적인 서비스들의 시도와 함께, 사용자들의 수요에 맞춰 원하는 바를 충족시키는 파급력이 높은 서비스의 개발이 요구된다. 또한 음성만이 담고 있는 정체성과 감정을 효과적으로 활용하는 것도 음성 인공지능 서비스의 성공을 가져올 수 있는 중요한 요소로 평가된다.[4]

플랫폼의 개방

인공지능 플랫폼의 등장으로 특정 기업이 독점하거나 일자리를 빼앗는 것이 아닌, 공유와 협력 시대에 맞추어 플랫폼간의 협력이 시도되어야 한다. 구글 등 글로벌 아이씨티(ICT) 기업은 많은 투자르르 해온 인공지능 플랫폼을 무료로 공개하기 시작했다. 소스코드, 응용 프로그램 프로그래밍 인터페이스(API), 테스트 환경 등 개발 플랫폼을 공개하고 있고, 이 툴을 스타트업들이 적극 활용하게 되어 생태계를 구축하고 있다. 인공지능 기반 기술 및 서비스 플랫폼은 대규모 자본이 투하되므로 자본력이 있는 아이씨티 기업이나 공공이 주로 담당하고, 다양한 환경에서 새로운 기술을 발굴하고 도메인 영역의 서비스 구현은 콘텐츠 보유 기업과 스타트업의 역할이 필요하다. 또한 정부는 인공지능 생태계가 형성될 수 있도록 공공에서 데이터의 공유와 표준 수립, 지원정책 제시가 필요하다.[7]

각주

  1. 김성미 기자, 〈AI 기반 스마트홈 관문 ‘스마트 스피커’ 시장 진단〉, 《보안뉴스》, 2019-03-02
  2. JiranSecurity, 〈우리집의 똑똑한 비서, 스마트 스피커〉, 《마켓인텔리전스》, 2017-09-18
  3. 3.0 3.1 강맹수, 〈[스마트 스피커 시장 동향과 전망]〉, 《산업기술리서치센터》, 2018-12-13
  4. 4.0 4.1 4.2 4.3 삼정KPMG 경제연구원, 〈음성 AI 시장의 동향과 비즈니스 기회〉, 《삼정KPMG》, 2020-04-13
  5. wacany, 〈스마트 스피커(Smart speaker)의 작동원리〉, 《네이버 블로그》, 2020-03-22
  6. 6.0 6.1 6.2 6.3 6.4 스마트 스피커 기본 사항: 설계 장단점 따져 보기〉, 《TEXAS INSTRUMENTS》, 2019-02-08
  7. 김돈정, 〈음성인식 가상비서 기술 동향 및 전망〉, 《한국산업기술평가관리원》, 2019-04-19

참고자료

같이 보기


  의견.png 이 스마트스피커 문서는 인공지능 기술에 관한 토막글입니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 이 문서의 내용을 채워주세요.