스마트스피커

스마트 스피커(smart speaker)는 무선 스피커의 일종이며, 음성인식 가상비서라고도 한다. 사물인터넷(IoT) 음성인식 인공지능(AI) 비서가 탑재된 스피커 및 그 서비스를 총칭하는 용어이다.

개요

스마트 스피커는 외부적으로는 단일 유닛 무선 스피커인 경향이 있으며 내부적으로는 인공지능이 내장되어 있다. 단순히 입력된 명령을 음성을 통해 인지하고 실행하는 것이 아니나 사용자와의 대화를 이해하고 행동 패턴을 분석하여 필요한 서비스를 제공하는 진화한 스피커이다. 스마트 스피커가 사용자의 말을 듣고 사람처럼 답하기 위해서는 음성인식과 자연어 처리, 음성합성을 위한 고난도의 인공지능 기술이 필요하다. 음성인식은 사람의 말을 텍스트로 변환하는 기술로 음성인식 인터페이스를 사용하는 스마트 스피커의 기반기술이다. 사람마다 서로 다른 발음과 상황에 따른 같은 단어의 다른 발음 등의 다양한 문제로 구현이 쉽지 않았으나 딥러닝의 발전으로 현재는 개별 단어 단위에서 인식률이 95%에 이른다. 스마트 스피커는 주변 소음, 음악과 사람의 음성을 분리하기 위해 여러 개의 마이크를 내장하여 전처리 하는 과정을 거친다. 자연어 처리는 사람의 말을 기계가 이해하도록 만드는 인공지능 기술로 텍스트 문장에서 핵심어를 추출하여 명령 도메인과 구체적인 요청사항을 구분한다. 음성명령에 적절하게 응답하기 위해서는 통합 지식 데이터베이스를 구축하고 검색과 텍스트 요약, 개인화 추천 기술들을 적용해야 한다. 스마트 스피커의 인공지능 플랫폼은 클라우드에서 작동한다. 개별 기기는 웨이크업 명령 인식과 음성 데이터 전처리만 담당하며, 웨이크업 명령 처리를 제외한 음성인식은 클라우드에서 구동한다. 자연어 처리 모듈, 사용자 명령과 서비스 매칭, 음성합성 기능도 클라우드 상에서만 구현된다.^[1]

기존 인공지능 플랫폼을 보유하고 있는 기업부터 새롭게 진출하는 기업까지 다양한 기업들이 현재 스마트 스피커 시장에 진출하고 있다. 한 대의 기기만으로 거주하고 있는 모든 사람들과 접점을 만들고 일상의 정보를 수집할 수 있으며, 가정 내 다른 스마트 가전들과 다르게 스마트 스피커는 개별 기기로서가 아닌 가정 내 모든 스마트 가전들을 이어주는 코어로써 그 역할이 더욱 중요하다. 스마트 스피커를 통해서 스마트 기기들을 개별 제어하는 복잡성을 해소할 수 있다는 점과 스마트 스피커를 통해 연결되는 다양한 서비스를 손쉽게 이용할 수 있다는 것이 큰 강점이다. 그러나 연결의 이면에는 보안의 위험도 존재한다. 스마트 스피커를 통해 가정 내 연결된 다양한 스마트 기기들까지 해킹될 수 있는 우려도 실제 존재하기 때문이다. 또한, 녹음 기능은 도청과 같은 사생활 침해로도 이어질 수 있다. 특히 생활과 밀접한 공간에서 이용되는 만큼 정보의 탈취 외에도 개인에 대한 침해와 사고로도 이어질 수 있기 때문에 심각한 보안 문제를 초래할 수 있다.^[2] 전 세계 스마트 스피커 시장은 연평균 30% 내외로 성장하여 2022년에는 2017년 대비 약 3.5배 증가한 87.1억 달러로 예상한다. 미국이 성숙시장으로 서서히 진입하고 있음을 감안하더라도 올해 전 세계 스마트 스피커 판매량은 최소 5천만 대에서 최대 8천만 대에 이를 것으로 전망된다.^[3]

역사

2014년 : 아마존(Amazon)의 에코(Echo) 출시
2016년 : 구글(Google)의 구글홈(Google Home) 출시, 에스케이텔레콤㈜(SK)의 누구(NUGU) 출시
2017년 : 스피커와 셋톱박스(Set-Top Box)를 결합하여 음성과 TV 디스플레이를 동시에 보여주는 ㈜케이티(KT)의 기가지니 출시
2018년 : 시리(Siri)가 탑재된 애플(Apple)의 홈파드(HomePod) 출시, 삼성전자㈜ 빅스비(Bixby) 탑재한 스피커 출시

특징

등장배경

음성 인터페이스는 터치의 한계를 극복하기 위한 대안이다. 스마트폰과 함께 등장한 터치 인터페이스는 기존의 입력 장치인 키보드나 마우스, 물리적 버튼, 스타일러스펜의 한계를 극복한다. 터치 방식은 별도의 물리적 입력 장치 없이 누구나 직관적으로 스마트폰을 사용할 수 있도록 만든 혁신적인 기술이다. 하지만 누군가에게 문자를 보내거나 스마트폰의 설정을 변경하려고 할 때 여러 단계를 거쳐야 하고, 사용 중에는 스마트폰에서 눈과 손을 뗄 수 없는 단점이 있다. 이러한 한계를 극복하기 위해 음성 인터페이스가 나왔으며, 여러 단계를 거치지 않고 필요한 기능을 바로 사용할 수 있고, 터치에 비해서 훨씬 더 직관적인 방식이다. 이러한 측면에서, 스마트 스피커는 음성 인터페이스를 활용하기 위한 최적의 플랫폼이다.^[3]

현재 상황

음성 인식 인공지능 비서 서비스를 탑재한 스마트 스피커의 급속한 보급 증가는 음성 인공지능 기술과 시장이 확대되는 데 가장 큰 기여를 하고 있다. 글로벌 시장조사업체 카날리스(canalys)에 따르면 전 세계 스마트 스피커 연간 출하량은 2018년 7800만 대에서 2019년 전년 대비 60% 증가하여 1억 2460만 대에 이르는 것으로 조사되었다. 2017년 스마트 스피커 시장은 아마존과 구글이 양분했으나 2018년부터 바이두, 알리바바 샤오미 등 중국 벤더들의 출하량이 크게 늘어나기 시작했다. 2019년에는 바이두, 알리바바, 샤오미 중각 3사 제품의 출하량 합계가 4820만 대로 2019년 아마존과 구글 출하량 합계인 6110만 대를 추격하는 양상을 보이고 있다. 미국의 시장조사기관인 에디슨 리서치에 따르면, 2019년 말 기준으로 미국 전체 성인의 24%에 해당하는 6000만 명이 스마트 스피커를 보유하고 있으며 스마트 스피커 보유자의 33%는 하루에도 여러 차례, 27%는 거의 매일, 21%가 최소 1주일에 한 번 이상 이용해 스마트 스피커의 사용 빈도 또한 높게 나타났다. 해외에서의 주된 사용 목적은 음악 감상 또는 아주 간단한 명령을 실행하는 것 등으로 제한적이다.^[4] 미국과 영국 사용자 대상 조사에 따르면 사용자들은 스마트 스피커를 음악 재생이나 날씨, 뉴스, 알람 및 일정 설정, 간단한 질의·응답의 용도로 사용한다. 이는 스마트 스피커를 다른 작업을 하는 도중에 간단한 명령을 실행시키는 용도로 주로 사용한다는 의미이며, 국가별로 사용자의 이용 방식에 차별성이 없다는 사실은 처리할 수 있는 명령이 제한적이어서 스카트 스피커의 차별성이 뚜렷하지 않기 때문일 수도 있다. 현재의 스마트 스피커는 자연어 처리를 위한 인공지능 기술의 한계로 단문 형태의 간단한 명령만 처리가 가능하다. 또한 스마트 스피커 메이커들이 기대했던 것과 달리 온라인 쇼핑에 활용하는 비중은 아직 낮을 편이다. 영국 사용자에 대한 조사 결과, 스마트 스피커를 통해 온라인으로 제품을 구매한 경험이 있는 경우는 9%에 불과했다. 온라인 쇼핑에서 결제나 제품 검색을 위한 보조 수단으로 스마트 스피커를 사용하면 구매 과정의 번거로움을 줄일 수 있기 때문에 점차 이용이 증가할 것으로 예상한다.^[3]

국내 시장에서도 스마트 스피커 판매량이 크게 증가했다. 과학기술정보통신부가 집계한 바에 따르면, 2019년 3월 기준 국내 스마트 스피커 누적 판매량은 412만 대로 전년 대비 2배가량 증가했으며, 언론에서는 2019년 말 기준 누적 판매가 800만 대에 이를 것으로 추정하고 있다. 국내 스마트 스피커는 2018년과 2019년 하반기부터는 스마트 스피커에 대한 소비자들의 호기심 감소와 시장 수요 침체로 판매량이 크게 낮아진 것으로 알려졌다.^[4] 국내의 주된 이용 목적은 음악 감상, 날씨 확인 등에 주로 이용하며, TV 조작에 활용하는 비중이 특히 높다. 사용자들의 이용 형태는 기본적으로 해외 사례와 크게 다르지 않다. 음악 감상, 일기 예보, 간단한 대화, 정보 검색, 알람 설정 등을 주로 사용하며, 에스케이텔레콤과 케이티 자체 IP TV와 스마트 스피커를 연계하여 판매하면서 텔레비전 조작과 관련된 기능을 많이 활용하는 것이 특징이다. 스마트 스피커 이용 만족도는 50%를 넘지 않는 상황이며, 컴슈머인사이트의 조사에 따르면 스마트 스피커에 만족하는 사용자는 평균 49%에 불과하여 소비자의 기대에는 미치지 못하고 있다. 가장 큰 불만족 이유는 음성 인식이 잘 되지 않는 것이었으며, 이는 한국어에 대한 음성인식과 자연어 처리 기술 개발이 영어에 비해 더 까다롭기 때문이다.^[3]

작동방식

스마트 스피커가 사람의 목소리를 인지하고 명령한 것을 처리하는 과정은 크게 4단계의 알고리즘(Algorithm)으로 생각할 수 있다.

트리거 워드(Trigger word) : 스마트 스피커를 활성화하기 위해서는 잠자고 있는 스마트 스피커를 깨워야 한다. 예를 들어, 아이폰의 시리 같은 경우 트리거 워드는 "시리야"이다. 이때, 스마트 스피커에 러닝머신이 적용된다. 즉, 트리거 워드는 오디오 클립(Audio clip)으로 인풋 값이 설정되고, 아웃풋으로 0 혹은 1을 내놓는다. 스마트 스피커가 트리거 워드를 인지하면 두 번째 단계인 음성인식(speech recognition)을 수행한다.

음성인식 : 이때, 인공지능 스피커가 해야 할 일은 트리거 워드 다음으로 하는 말이 인풋 값이 되고, 그 오디오 클립의 아웃풋은 텍스트 트랜스크립트(Text transcript)가 된다. 만약, 사용자가 "시리야, 오늘 날씨 어때?"라고 말했다면 "시리야" 다음으로 말한 "오늘 날씨 어때?"가 인풋 값이 되고 아웃풋은 이 단어의 텍스트 트랜스크립트가 된다.

의도 인식(Intent recognition) : 다음 알고리즘은 "오늘 날씨 어때?"를 이해해야 한다. 오늘날의 스마트 스피커가 인지할 수 있는 명령어는 시간 말하기, 타이머 설정, 날씨 묻기, 전화 걸기 등과 같이 제한적이지만 간단한 명령어 처리는 문제가 없다.

실행(Execute) : 사용자가 스마트 스피커에 요청한 명령을 실행한다.^[5]

설계

마이크

디지털 마이크는 아날로그 마이크보다 비싸지만, 아날로그 마이크는 시스템온칩(SoC) 앞에 추가 아날로그-디지털 변환 회로(ADC)가 있어야 한다. 별도의 ADC가 있는 아날로그 마이크와 비교했을 때, 디지털 마이크는 주어진 마이크 내부의 ADC에 포함된 변환기 사이즈 제한과 통합 ADC 자체의 성능 제한에 대해 신호 대 잡음 비율과 동적 범위가 낮다. 일반적인 디지털 마이크는 약 65dB의 잡음 비율과 104dB의 동적 범위를 제공하며 ADC가 포함되어 있으므로 필터링과 오버 샘플링을 통해 잡음 비율과 동적 범위를 강화할 수 없다. 반면에 아날로그 마이크는 외부 ADC와 통합되어 있으므로 최대 120dB의 잡음 비율 및 동적 범위를 경험할 수 있다. 일반적인 혼잡한 방 또는 음악이 재생되고 있는 방의 주변 사운드 레벨이 쉽게 60dB이 된다는 점을 고려하면, 디지털 마이크의 동적 범위가 더 낮으면 음성 명령이 주변 사운드보다 훨씬 높지 않은 이상 음성 명령을 제대로 인식하지 못할 수 있다. 즉, 최종 사용자가 마이크에 더 가깝게 가야 하거나 스마트 스피커에 더 많은 마이크가 필요하게 된다.^[6]

스피커 증폭기 및 전원

스피커 증폭기의 경우 출력 전력, 전력 소모, 열, 크기, 스피커 보호 및 사운드 정확도가 균형을 이루고 있다. 하나의 중간 범위 스피커 및 우퍼가 있는 단순한 스피커는 좋은 사운드를 제공하지만, 최신 오디오 처리 기술이 결합한 다중 스피커는 360도 오디오 경험을 제공할 수 있다. 소비 전력 및 열 측면에서 지속적인 전력 드레인을 줄이기 위한 하나의 접근 방법은 증폭기 펄스폭 변조 방법을 어댑티브 전원 공급 장치를 결합하여 스피커의 전력 요구 사항을 줄이는 것이다. 이 기술은 가변 클래스 D 출력에 대해 스위칭 주파수를 사용하고, 오디오 콘텐츠에 기반하여 주파수를 변경한다. 즉, 콘텐츠가 많아질수록 스위칭이 많아지고, 콘텐츠가 적어질수록 스위칭이 적어진다. 효율성을 추가하기 위해 콘텐츠에 따라 증폭기의 출력 전원 공급 장치 전압을 동적으로 조정할 수도 있다. 이러한 기술을 엔빌로프 트래킹이라고 한다. 이 기술은 음악에 전력 향상이 필요한 경우, 특히 베이스가 많은 부분에서만 오디오 콘텐츠를 추적하고 전압을 높인다.^[6]

전원 관리

대부분의 전자 시스템과 마찬가지로, 전력 관리는 시스템 설계에서 매우 중요한 역할을 한다. 궁극적인 목표는 더 적은 열을 방출하는 전력 효율성을 제공하여 더 작고 비용이 낮은 시스템을 사용할 수 있도록 하고, 휴대용 시스템의 경우 배터리 작동 시간을 늘리는 것이다. 고정된 통합 솔루션이 제공하는 것을 넘어서 더 낮은 전류로 작동하는 것 또는 더 높은 스위칭 주파수를 사용하는 것과 같은 고정된 통합 솔루션이 제공하는 것 이상으로 설계를 최적화하여 소형 인덕터의 필요성에 따라 더 작은 풋 프린트를 달성하고 싶어 할 수도 있다. 또는 펄스 스킵 또는 에코 모드를 사용하여 낮은 부하에서 전력을 절약하는 동시에 20kHz 미만에서 전환하지 않음으로써 오디오 대역에 간섭하지 않으려고 할 수 있다. 휴대용 스피커의 경우 전원 경로 보호라고 불리는 기술을 통해 외부 AC/DC 벽면 어댑터로 배터리를 충전하는 동시에 통합 레귤레이터를 통해 스피커에 전원을 공급할 수 있다. 배터리 충전기는 입력을 더 높은 배터리 전압까지 늘려야 하며, 피크 전력 상황에서 더 높은 전압을 달성하기 위해 스피커 증폭기 레일에 대한 추가 부스트 컨버터가 필요하다. 또한, 휴대용 스마트 스피커 시스템에는 낮은 대기 전력 등급 및 배터리가 단일 전원일 때 충전 사이클 간에 더 긴 런타임을 제공하기 위한 효율적인 강압 컨버터가 있어야 한다. 스피커가 전력 소모의 상당 부분을 차지하기 때문에 증폭기의 요구 사항과 밀접하게 통합된 전원 공급 장치는 전력 및 비용 효율적인 설계를 갖추게 된다.^[6]

사용자 인터페이스

스마트 스피커 시장 차별화에 있어 인간과 기계 상호작용(HMI)은 주요 요소이기 때문에 원하는 최종 사용자 경험에 따라 어떤 유형의 사용자 인터페이스를 제공할지 결정해야 한다. 인터페이스는 저비용의 단순한 버튼과 단일 표시기 LED, 회전 LED, 터치 입력 및 햅틱 피드백을 제공하는 LCD 디스플레이에 이르기까지 다양하다. LED는 상태를 알리는 데 사용되며, 최근에는 다양한 패턴으로 움직이는 색상을 생성하여 최종 사용자 경험을 향상한다. 각 선택에는 비용, 전력, 시스템 부담 장단점이 따른다. 또한 정전식 터치 인식 표면은 더 많은 상호 작용을 지원하고 사용자 인터페이스를 강화한다. 물리적인 힘이 필요하지 않으며, 동일한 표면에서 최종 사용자의 근접도를 감지하고 어두운 곳에서도 쉽게 사용할 수 있도록 백라이트를 활성화한다. 터치 인식 표면은 단순한 푸시 대신에 스와이프 또는 스핀을 지원하며 더 친숙한 인터페이스를 구현할 수 있고, 스마트 스피커를 차별화하는 데 도움이 된다. 적절하게 설계된 정전식 터치 컨트롤러는 플라스틱, 유리, 금속 등 다양한 표면에서 작동하며, 스피커 케이스 표면과 동일한 높이로 설계될 수 있다.^[6]

무선 연결

인터넷에 연결되지 않으면 스마트 스피커는 의도한 대로 작동하지 않는다. 주어진 속도 요구 사항 및 전력 제약 조건에서 연결할 수 있는 가장 좋은 방법과 관련된 설계 작동이 있다. 스마트 스피커를 인터넷에 연결하는 가장 일반적인 형식은 와이파이(Wi-Fi)를 통해 직접 연결하는 것이다. 그러나 와이파이 전력 증폭기가 매우 많은 전력을 소모하며 배터리로 작동하는 스마트 스피커의 재생 시간을 제한할 수 있다. 이 이유로 인해 와이파이 지원 스피커는 지속적으로 작동하기 위해 매립식 콘센트에 직접 꽂아 사용되거나 AC 어댑터와 함께 사용되기도 한다. 배터리로 구동되는 휴대용 스피커는 와이파이 클라우드 연결을 근처 모바일 장치로 오프로드할 수 있다. 간접 클라우드 연결을 위해 모바일 장치에 연결하거나 모바일 장치에 저장된 콘텐츠를 들으려면 블루투스(Bluetooth) 저에너지의 대역폭 제한 및 전력 체계로 인해 오디오 콘텐츠를 스트리밍하기 위한 지속적인 연결에 블루투스 클래식이 필요하다.^[6]

기능

음악 재생 : 대한민국 음악 스트리밍 사이트 멜론, 지니, 네이버 뮤직은 스마트 스피커에 음악 추천 기능을 도입했다.
알람 및 타이머 : 알람 설정, 확인, 삭제, 끄기, 켜기, 알람 음악 설정 등을 할 수 있다. 타이머는 타이머 설정, 중단, 재시작 등의 기능이 있다.
뉴스 및 날씨 : 뉴스는 카테고리별, 인기순, 테마 등으로 나눠서 들을 수 있다. 날씨는 현재 날씨, 일자별 날씨, 주간 날씨, 시간별 날씨, 세계 날씨 등을 알 수 있다.
일정 및 메모 : 일정 등록, 조회, 삭제 등 메모 추가 기능이 있다.
기타 : 환율, 운세, 로또, 주식 등의 생활 정보 제공과 일상 대화 하기, 쇼핑 등이 있다.

제품

국내

기가지니 : 기가지니는 2017년 1월 ㈜KT가 출시한 인공지능 스피커이다. 기가지니는 출시 1년만에 판매 50만대를 돌파했으며, 셋톱박스 기능을 탑재한 가전제품으로 사용자들의 편리함을 극대화 시켰다. 셋톱박스 형태가 아닌 휴대용이며, LTE를 가입하게 되면 와이파이 없이 사용이 가능하다. 기가지니는 스마트폰 올레tv와 연동하며 단순 스피커가 아닌 셋톱박스를 내장하여 올래tv, 지니 뮤직, 사물인터넷 기기와 연동하여 사용할 수 있다.

기가지니2 : 2018년 1월 경 출시되었다. 음성으로도 가전제품 제어가 가능하며 가스안전기, 열림감지기, 디지털도어락, 스마트 플러그, 에어닥터, 공기청정기 등 언제 어디에서나 관리할 수 있다. 기가지니2는 기가지니보다 디자인이 좀 더 부드러워졌으며, 더 작은 사이즈이다. IPTV 셋톱박스에 스마트 스피커를 결합한 제품으로 월정액 요금으로 판매된다.

누구 : 에스케이텔레콤㈜이 2016년 9월에 출시한 누구는 딥러닝 방식으로 데이터를 학습하며 성장하는 방식이다. 초록, 파랑 등으로 색이 바뀌며 빛나는 LED 조명 기능을 내장하고 있다. 누구는 음악·오디오, 전화, 생활·정보, 검색, 쇼핑·주문, 키즈, 금융 등의 서비스를 제공한다.

누구네모 : 7인치 디스플레이를 탑재한 누구네모는 인공지능 스피커가 전달하는 정보를 보다 직관적이로 정확하게 확인하는 것은 물론, 사용 편의가 대폭 향상되었다. 누구네모를 통해 음악 감상 시 가사 확인, 실시간 환율정보, 증권정보, 한영사전 등 다양한 정보 확인이 가능해졌다. 또한 기존 누구에서 제공하던 음악 감상, 날씨 확인, 일정 관리 등 30여 가지 생활 밀착형 기능들도 동일하게 이용할 수 있다.^[7]

누구미니 : 내장 배터리를 기반으로 작동하는 누구미니는 집은 물론 공원 등 외부에서도 사용할 수 있어, 유선 기반의 인공지능 기기가 갖고 있던 장소 제한성을 극복했다. 기존 누구와 비교하여 크기는 절반 이하지만, 기능은 음악 감상, 스마트홈, 일정 관리, 날씨 알림 등 동일하다. 또한 누구미니 출시에 맞춰 금융정보, 영화정보, 한영사전, 오디오북, 감성 대화 서비스 등 5가지 서비스를 새홉게 선보였다.^[8]

클로바 웨이브 : 클로바를 기반으로 한 스마트 스피커이다. 블루투스 페어링이 가능하기 때문에 웨이브를 외부기기 스피커로 사용할 수 있다. 오디오 클립 서비스, 생활 타이머 기능, 클로바 확장 서비스, 기기/음악 컨트롤이 새롭게 적용되었다.

클로바 프렌즈 : 2017년 10월 네이버의 캐릭터 브라운과 샐리를 디자인에 활용한 스마트 스피커이다. 음악 스트리밍, 날씨 및 뉴스 브리핑, 음성 검색 등 네이버 서비스와 연계된 기능을 제공한다.

카카오미니 : 2017년 7월에 출시된 카카오의 첫 스마트 스피커이다. 아직까지 한국어 음성 인식이 제대로 이루어지는 스마트 스피커가 드문 상황에서 음성 인식, 택시 호출, 주가 확인 등 다양한 작업이 음성 인식으로 가능하다고 한다. 특히 카카오T택시를 이용하는 등 카카오톡을 비롯한 카카오의 많은 기능들과 연동될 수 있다.

갤럭시홈미니 : 삼성에서 개발한 갤럭시홈미니는 음악을 음원 사이트와 연결하여 들을 수 있고, 빅스비를 기반으로 작동하기 때문에 사용자가 음성으로 명령을 내릴 수 있다. 또한, 내장형 IR 적외선 리모컨이 탑재되어 있어 스마트싱스 앱에 등록된 TV나 에어컨, 선풍기, 공기청정기 등을 명령으로 제어할 수 있다.^[9]

엑스붐AI씽큐 : LG전자㈜에서 출시한 엑스붐AI씽큐는 가수의 음성을 깨끗하게 들을 수 있는 목소리 보정 모드와 풍부한 중저음을 강화할 수 있는 저음 강화 모드가 탑재되었다. 또한, 구글의 음성인식 서비스인 구글 어시스턴트 한국어 서비스를 지원하여 사용자들은 음악 추천을 물론 날씨, 일정 관리, 번역, 알람 등을 간단한 음성 명령으로 이용할 수 있다. 엘지씽큐가 탑재된 세탁기, 냉장고, 에어컨, 건조기 등 가전 제품의 상태를 실시간으로 확인하고 제어할 수 있다.^[10]

해외

에코 :
에코닷 :
에코쇼 :
구글홈 :
구글홈미니 :
구글홈허브 :
홈팟 :
샤오두 :
티몰지니 :
코타나 :
인보크 :
얀덱스 스테이션 :

전망

스마트 스피커 시장 규모는 2022년, 2017년 대비 3.5배 증가한 87억 달러로 예상된다. 에스앤피 글로벌 마켓 인텔리전스(S&P Global Market Intelligence)는 스마트 스피커의 유용성이 향상되고 수요가 꾸준히 증가한다면 2022년까지 연평균 30% 내외의 성장을 할 것으로 추정된다. 스마트 스피커 시장의 성장 속도가 매번 시장조사회사의 전망치보다 크게 높았던 점을 고려하면 실제 시장 규모는 훨씬 더 클 가능성이 높다. 다만, 평균 판매 단가는 2018년 81.9달러에서 2022년 61.3달러로 하락할 전망이다. 스마트 스피커 시장이 초기 대중화 단계로 서서히 진입함에 따라 경쟁 심화로 인해 대당 판매가는 예상보다 더 빠르게 하락할 가능성이 높다.

또한, 스마트 스피커를 중심을 인공지능 서비스 개발 플랫폼 구축이 활발해질 전망이다. 스마트 스피커에 접목된 다양한 인공지능 기술을 활용하면 새로운 서비스 개발 기간을 단축하고 시장에 빠르게 확산시킬 수 있고, 구축한 음성인식·합성과 자연어 처리 모듈, 방대한 지식 데이터베이스를 활용하면 외부 개발자들의 다양한 아이디어를 쉽게 구현할 수 있는 장점이 있다. 클라우드를 통해 외부 개발자들의 신규 서비스를 기존 스마트 스피커 사용자 전체에 손쉽게 확산시킬 수 있으며, 스마트 스피커 메이커들은 외부 개발자들과 활발한 오픈 이노베이션을 함으로써 인공지능 생태계 경쟁력을 확보하려고 시도한다. 아마존, 구글 등의 해외 선도기업뿐만 아니라 국내에서도 스마트 스피커 중심의 플랫폼 구축이 빠르게 진행되는 상황이다.

초기 보급 단계를 지나 스피커의 차별화가 부각되는 시기로, 스마트 스피커 메이커에 따른 차별성이 거의 없는 현재 상황을 개선하기 위한 새로운 서비스 개발이 시급하다. 음악 재생, 날씨나 뉴스 검색 등을 벗어나 소비자들이 스마트 스피커를 구입해야 할 이유를 제시할 수 있는 대표 서비스가 필요하며, 스마트 스피커를 활용한 양방향 커뮤니케이션이 가능한 외국어 교육 서비스, 음성인식 인터페이스를 활용하여 온라인 쇼핑이나 음식 배달, 금융 서비스 이용 등 편의성을 획기적으로 향상시킬 수 있는 서비스 등이 가능할 것으로 예상된다. 해외기업인 구글, 아마존, 애플의 음성인식 인터페이스를 활용하여 다양한 형태의 제품들이 등장하고 있으며, 음악 감상 목적으로 스마트 스피커를 활용하는 사용자를 대상으로 전문 스피커 제조기업이 만든 스마트 스피커 메이커와 협업하는 경우가 늘어날 것이다. 또한, 음성인식 인터페이스와 화면이 결합된 스마트 디스플레이가 시장점유율을 높여 나갈 것으로 기대된다. 레노바(Lenova)의 스마트 디스플레이(Smart Display), 아마존의 에코쇼, 제이비엘(JBL)의 링크뷰(Link View), 구글의 구글홈허브(Google Home Hub), 엘지의 더블유케이9(WK9) 등이 이미 출시된 상황이다. 외부기업들은 단일 플랫폼에 종속되기보다 서로 다른 음성인식 인터페이스를 모두 지원하는 형태로 제품을 개발하는 경향이 심화될 것이다. 엘지전자는 씽큐 가전제품에 구글, 아마존, 네이버의 음성인식 인터페이스를 지원하고, 소노스(Sonos)도 구글, 아마존, 애플을 모두 지원한다.^[3]

한계

보안

가정의 거실과 방 곳곳에 위치한 스마트 스피커는 항시 실행을 대기하면서 사용자의 모든 음성 대화를 수집할 수 있다는 문제가 있다. 2019년 4월에는 아마존이 세계 전역에서 수천 명의 인력을 동원하여 아마존 에코 스마트 스피커로 사용자의 음성 명령을 녹음해왔다는 사실이 드러나면서 논란이 되기도 했다. 애플 시리와 구글 어시스턴트 또한 이러한 음성 명령 녹음 논란에서 벗어나지 못한다. 음성 인공지능 기능이 딥러닝(Deep Learning) 방식으로 기존의 음성 명령을 학습하면서 성능이 향상되기 때문에, 개발 과정에서의 음성 데이터 수집을 피할 수 없는 작업으로 여겨지고 있기 때문이다. 따라서 업계에서는 사용자의 음성 데이터 수집과 활용 시 개인 정보와 프라이버시를 엄격하게 보호할 수 있는 방안을 마련하는 것이 중요하다고 보고 있다. 구글은 자사의 스마트 스피커 단말인 구글 홈에 음성 입력 버튼을 탑재하여 버튼을 눌렀을 때만 음성 데이터를 받아들이도록 하는 기능을 탑재하고 있지만, 이러한 방식은 스마트 스피커를 사용하기 위해 버튼을 항상 눌러야만 실행이 되는 불편함을 가져올 수밖에 없다. 결국 음성 데이터의 프라이버시 문제를 해결하면서도 기기의 편의성과 성능 향상을 담보할 수 있는 대책 마련이 필요하다. 또한 음성을 결제에 활용하는 보이스 커머스에서는 보안성 확보도 필요하다. 누군가가 사용자의 음성을 녹음해 보이스 결제에 도용하거나, 해킹을 통한 결제가 일어나지 않도록 방지할 수 있는 장치가 요구된다.

음성 인식 성능

음성 인공지능의 인식 정확도가 사람을 뛰어넘는 95% 이상 수준까지 발전했지만, 아직도 실제 음성 인공지능 단말과 서비스를 사용하는 사람들은 여러 불편함을 호소하고 있다. 그중 하나는 문맥을 이해하지 못하는 음성 인공지능의 한계이다. 예를 들어 다소 복잡한 문장이나 두 단계에 걸쳐 이뤄지는 질문을 음성 인공지능에게 제시할 경우 엉뚱한 명령을 실행하거나 수행 불가능이라고 응답하는 것과 같이 질문의 해석에 어려움을 겪는 경우가 많다. 따라서 문맥을 정확하게 이해하는 음성 인공지능을 개발하는 것은 향후 음성 인공지능 단말과 서비스의 성능과 효용성을 크게 향상시키는 데 기여할 수 있다. 다만, 문맥 해석을 위해서는 다층적으로 해석될 수 있는 여러 정황 정보를 파악하고 여러 가지 경우의 수에서 최적의 답을 찾아내는 작업이 필요하므로, 문맥을 이해하는 인공지능 개발에는 아직도 많은 연구와 개발이 필요할 것으로 전망된다. 국내 음성 인공지능 단말과 서비스는 구글 홈이나 아마존 알렉사와 같은 영어 기반의 플랫폼보다 정확도가 떨어지는 것으로 알려져 음성 인공지능의 기본적인 성능 향상이 더 필요한 것으로 보인다. 구글과 아마존의 단말에서도 한국어 음성 입력 성능은 영어보다 더 낮은 것으로 나타나, 이는 한국어 음성 데이터가 아직 충분히 확보되고 분석되지 못한 데서 기인하는 문제로 볼 수 있다.

다양한 응용 서비스와 킬러 서비스

알렉사 스킬과 구글 액션과 같은 확장 기능의 급속한 증가로 음성 인공지능에서 사용할 수 있는 서비스도 급격하게 증가했다. 양적으로는 크게 증가했음에도, 아직 음성 인공지능의 특징을 살린 서비스는 눈에 띄지 않는 것이 사실이다. 앞으로도 음성 인공지능의 응용 서비스는 지속적으로 증가할 것으로 보이지만, 음성 인공지능 시장의 규모 확대와 주류 시장 자리매김을 위해서는 킬러 서비스의 등장이 필요하다. 확장 기능이 양적 확대는 서비스의 절적 향상과 킬러 서비스의 개발로도 이어질 수 있다. 이를 위해서는 다양한 실험적인 서비스들의 시도와 함께, 사용자들의 수요에 맞춰 원하는 바를 충족시키는 파급력이 높은 서비스의 개발이 요구된다. 또한 음성만이 담고 있는 정체성과 감정을 효과적으로 활용하는 것도 음성 인공지능 서비스의 성공을 가져올 수 있는 중요한 요소로 평가된다.^[4]

플랫폼의 개방

인공지능 플랫폼의 등장으로 특정 기업이 독점하거나 일자리를 빼앗는 것이 아닌, 공유와 협력 시대에 맞추어 플랫폼간의 협력이 시도되어야 한다. 구글 등 글로벌 아이씨티(ICT) 기업은 많은 투자르르 해온 인공지능 플랫폼을 무료로 공개하기 시작했다. 소스코드, 응용 프로그램 프로그래밍 인터페이스(API), 테스트 환경 등 개발 플랫폼을 공개하고 있고, 이 툴을 스타트업들이 적극 활용하게 되어 생태계를 구축하고 있다. 인공지능 기반 기술 및 서비스 플랫폼은 대규모 자본이 투하되므로 자본력이 있는 아이씨티 기업이나 공공이 주로 담당하고, 다양한 환경에서 새로운 기술을 발굴하고 도메인 영역의 서비스 구현은 콘텐츠 보유 기업과 스타트업의 역할이 필요하다. 또한 정부는 인공지능 생태계가 형성될 수 있도록 공공에서 데이터의 공유와 표준 수립, 지원정책 제시가 필요하다.^[11]

각주

↑ 김성미 기자, 〈AI 기반 스마트홈 관문 ‘스마트 스피커’ 시장 진단〉, 《보안뉴스》, 2019-03-02
↑ JiranSecurity, 〈우리집의 똑똑한 비서, 스마트 스피커〉, 《마켓인텔리전스》, 2017-09-18
↑ ^3.0 ^3.1 ^3.2 ^3.3 ^3.4 강맹수, 〈[스마트 스피커 시장 동향과 전망]〉, 《산업기술리서치센터》, 2018-12-13
↑ ^4.0 ^4.1 ^4.2 삼정KPMG 경제연구원, 〈음성 AI 시장의 동향과 비즈니스 기회〉, 《삼정KPMG》, 2020-04-13
↑ wacany, 〈스마트 스피커(Smart speaker)의 작동원리〉, 《네이버 블로그》, 2020-03-22
↑ ^6.0 ^6.1 ^6.2 ^6.3 ^6.4 〈스마트 스피커 기본 사항: 설계 장단점 따져 보기〉, 《TEXAS INSTRUMENTS》, 2019-02-08
↑ 정원영 기자, 〈SK텔레콤, 보이는 AI 스피커 ‘누구 네모’ 출시〉, 《로봇신문》, 2019-04-18
↑ 김수아 기자, 〈SK텔레콤, 이동형 인공지능(AI) ‘누구 미니’ 출시〉, 《인공지능신문》, 2017-08-08
↑ @메모리, 〈갤럭시 홈 미니 리뷰〉, 《메모리의티스토리》, 2020-03-12>
↑ 송고시간, 〈LG전자, 고음질 프리미엄 인공지능 스피커 '엑스붐 AI 씽큐'〉, 《연합뉴스》, 2019-01-21
↑ 김돈정, 〈음성인식 가상비서 기술 동향 및 전망〉, 《한국산업기술평가관리원》, 2019-04-19

참고자료

스마트 스피커 위키백과 - https://ko.wikipedia.org/wiki/%EC%8A%A4%EB%A7%88%ED%8A%B8_%EC%8A%A4%ED%94%BC%EC%BB%A4
스마트 스피커 나무위키 - https://namu.wiki/w/%EC%8A%A4%EB%A7%88%ED%8A%B8%20%EC%8A%A4%ED%94%BC%EC%BB%A4
JiranSecurity, 〈우리집의 똑똑한 비서, 스마트 스피커〉, 《마켓인텔리전스》, 2017-09-18
강맹수, 〈[스마트 스피커 시장 동향과 전망]〉, 《산업기술리서치센터》, 2018-12-13
〈스마트 스피커 기본 사항: 설계 장단점 따져 보기〉, 《TEXAS INSTRUMENTS》, 2019-02-08
김성미 기자, 〈AI 기반 스마트홈 관문 ‘스마트 스피커’ 시장 진단〉, 《보안뉴스》, 2019-03-02
wacany, 〈스마트 스피커(Smart speaker)의 작동원리〉, 《네이버 블로그》, 2020-03-22
삼정KPMG 경제연구원, 〈음성 AI 시장의 동향과 비즈니스 기회〉, 《삼정KPMG》, 2020-04-13
김돈정, 〈음성인식 가상비서 기술 동향 및 전망〉, 《한국산업기술평가관리원》, 2019-04-19

같이 보기

이 스마트스피커 문서는 인공지능 기술에 관한 토막글입니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 이 문서의 내용을 채워주세요.

인공지능 : 인공지능 서비스, 인공지능 로봇, 인공지능 기술^□^■^⊕, 인공지능 기업, 인공지능 인물

인공지능 기술	AI 워싱 • 랭체인 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링

문자인식과 음성인식	ICR • OCR • OMR • TTS • URL • 글자 • 답변 • 대화 • 동영상 • 디자인 • 맥락 • 문서 • 문자 • 문자인식 • 문자채팅 • 발음 • 번역 • 분류 • 상담 • 소스코드 • 스토리 • 얼굴 • 얼굴인식 • 음성 • 음성채팅 • 음성인식(STT) • 이미지 • 인공어 • 인공지능 음성 • 자막 • 자연어 • 질문 • 채팅 • 코드 • 코딩 • 텍스트 • 통번역 • 통역 • 파일 • 폴더 • 화상채팅 • 화자인식

인공지능 데이터	데이터라벨러 • 데이터라벨링 • 데이터셋 • 돌마 • 벡터 • 벡터DB • 벡터공간 • 스칼라 • 임베딩 • 크라우드워커 • 토큰 • 토큰화

인공지능 학습	ADP • CoLLM • DALL-E • DDPG • DQN • LAM • LMM • SARSA • sLLM • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 과적합 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 메타추론 • 모델 기반 강화학습 • 모델 프리 강화학습 • 미세조정(파인튜닝) • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 어니 • 에이전트 • 인공지능 학습 • 전이학습 • 준지도학습 • 지도학습 • 추론 • 학습 • 확률적 경사하강법

인공지능 알고리즘	AGI • ANI • ASI • RAG • XAI • 가중치 • 관계형 네트워크(RN) • 뉴런 • 다층퍼셉트론 • 단층퍼셉트론 • 데이터마이닝 • 방사신경망 • 볼츠만 머신 • 분산 샌드박스 • 생성대립신경망(GAN) • 생성형 AI • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 시그모이드 함수 • 신경망 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 역전파 • 은닉층 • 인공신경망(ANN) • 인공지능(AI) • 제한 볼츠만 머신(RBM) • 전방전달신경망 • 주의 메커니즘 • 코헨 자기조직 신경망 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 합성곱 신경망(CNN)

계산복잡도	NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 프로그램	BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 알렉스넷 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 파이토치 • 한돌

인공지능 특징	결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론

인공지능 법적 지위	권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[1] 김성미 기자, 〈AI 기반 스마트홈 관문 ‘스마트 스피커’ 시장 진단〉, 《보안뉴스》, 2019-03-02

[2] JiranSecurity, 〈우리집의 똑똑한 비서, 스마트 스피커〉, 《마켓인텔리전스》, 2017-09-18

[.EA.B0.95.EB.A7.B9.EC.88.98-3] 3.0 ^3.1 ^3.2 ^3.3 ^3.4 강맹수, 〈[스마트 스피커 시장 동향과 전망]〉, 《산업기술리서치센터》, 2018-12-13

[.EC.82.BC.EC.A0.95-4] 4.0 ^4.1 ^4.2 삼정KPMG 경제연구원, 〈음성 AI 시장의 동향과 비즈니스 기회〉, 《삼정KPMG》, 2020-04-13

[5] wacany, 〈스마트 스피커(Smart speaker)의 작동원리〉, 《네이버 블로그》, 2020-03-22

[.EC.84.A4.EA.B3.84-6] 6.0 ^6.1 ^6.2 ^6.3 ^6.4 〈스마트 스피커 기본 사항: 설계 장단점 따져 보기〉, 《TEXAS INSTRUMENTS》, 2019-02-08

[7] 정원영 기자, 〈SK텔레콤, 보이는 AI 스피커 ‘누구 네모’ 출시〉, 《로봇신문》, 2019-04-18

[8] 김수아 기자, 〈SK텔레콤, 이동형 인공지능(AI) ‘누구 미니’ 출시〉, 《인공지능신문》, 2017-08-08

[9] @메모리, 〈갤럭시 홈 미니 리뷰〉, 《메모리의티스토리》, 2020-03-12>

[10] 송고시간, 〈LG전자, 고음질 프리미엄 인공지능 스피커 '엑스붐 AI 씽큐'〉, 《연합뉴스》, 2019-01-21

[11] 김돈정, 〈음성인식 가상비서 기술 동향 및 전망〉, 《한국산업기술평가관리원》, 2019-04-19

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

위키원

이름공간

변수

보기

더 보기

검색