스마트스피커

스마트 스피커(smart speaker)는 무선 스피커의 일종이며, 음성인식 가상비서라고도 한다. 사물인터넷(IoT) 음성인식 인공지능(AI) 비서가 탑재된 스피커 및 그 서비스를 총칭하는 용어이다.

개요

스마트 스피커는 외부적으로는 단일 유닛 무선 스피커인 경향이 있으며 내부적으로는 인공지능이 내장되어 있다. 단순히 입력된 명령을 음성을 통해 인지하고 실행하는 것이 아니나 사용자와의 대화를 이해하고 행동 패턴을 분석하여 필요한 서비스를 제공하는 진화한 스피커이다. 기존 인공지능 플랫폼을 보유하고 있는 기업부터 새롭게 진출하는 기업까지 다양한 기업들이 현재 스마트 스피커 시장에 진출하고 있다. 한 대의 기기만으로 거주하고 있는 모든 사람들과 접점을 만들고 일상의 정보를 수집할 수 있으며, 가정 내 다른 스마트 가전들과 다르게 스마트 스피커는 개별 기기로서가 아닌 가정 내 모든 스마트 가전들을 이어주는 코어로서 그 역할이 더욱 중요하다. 스마트 스피커를 통해서 스마트 기기들을 개별 제어하는 복잡성을 해소할 수 있다는 점과 스마트 스피커를 통해 연결되는 다양한 서비스를 손쉽게 이용할 수 있다는 것이 큰 강점이다. 그러나 연결의 이면에는 보안의 위험도 존재한다. 스마트 스피커를 통해 가정 내 연결된 다양한 스마트 기기들까지 해킹될 수 있는 우려도 실제 존재하기 때문이다. 또한, 녹음 기능은 도청과 같은 사생활 침해로도 이어질 수 있다. 특히 생활과 밀접한 공간에서 이용되는 만큼 정보의 탈취 외에도 개인에 대한 침해와 사고로도 이어질 수 있기 때문에 심각한 보안 문제를 초래할 수 있다.^[1] 전 세계 스마트 스피커 시장은 연평균 30% 내외로 성장하여 2022년에는 2017년 대비 약 3.5배 증가한 87.1억 달러로 예상한다. 미국이 성숙시장으로 서서히 진입하고 있음을 감안하더라도 올해 전 세계 스마트 스피커 판매량은 최소 5천만대에서 최대 8천만대에 이를 것으로 전망된다.^[2]

역사

2014년 : 아마존(Amazon)의 에코(Echo) 출시
2016년 : 구글(Google)의 구글홈(Google Home) 출시, 에스케이텔레콤(SK)의 누구(NUGU) 출시
2017년 : 스피커와 셋톱박스(Set-Top Box)를 결합하여 음성과 TV 디스플레이를 동시에 보여주는 케이티(KT)의 기가지니 출시
2018년 : 시리(Siri)가 탑재된 애플(Apple)의 홈파드(HomePod) 출시, 삼성전자 빅스비(Bixby) 탑재한 스피커 출시

특징

등장배경

음성 인터페이스는 터치의 한계를 극복하기 위한 대안이다. 스마트폰과 함께 등장한 터치 인터페이스는 기존의 입력 장치인 키보드나 마우스, 물리적 버튼, 스타일러스펜의 한계를 극복한다. 터치 방식은 별도의 물리적 입력 장치 없이 누구나 직관적으로 스마트폰을 사용할 수 있도록 만든 혁신적인 기술이다. 하지만 누군가에게 문자를 보내거나 스마트폰의 설정을 변경하려고 할 때 여러 단계를 거쳐야 하고, 사용 중에는 스마트폰에서 눈고 손을 뗄 수 없는 단점이 있다. 이러한 한계를 극복하기 위해 음성 인터페이스가 나왔으며, 여러 단계를 거치지 않고 필요한 기능을 바로 사용할 수 있고, 터치에 비해서 훨씬 더 직관적인 방식이다. 이러한 측면에서, 스마트 스피커는 음성 인터페이스를 활용하기 위한 최적의 플랫폼이다.^[2]

작동방식

스마트 스피커가 사람의 목소리를 인지하고 명령한 것을 처리하는 과정은 크게 4단계의 알고리즘(Algorithm)으로 생각할 수 있다.

트리거 워드(Trigger word) : 스마트 스피커를 활성화하기 위해서는 잠자고 있는 스마트 스피커를 깨워야 한다. 예를 들어, 아이폰의 시리 같은 경우 트리거 워드는 "시리야"이다. 이때, 스마트 스피커에 러닝머신이 적용된다. 즉, 트리거 워드는 오디오 클립(Audio clip)으로 인풋값이 설정되고, 아웃풋으로 0 혹은 1을 내놓는다. 스마트 스피커가 트리거 워드를 인지하면 두번째 단계인 음성인식(speech recognition)을 수행한다.

음성인식 : 이때, 인공지능 스피커가 해야할 일은 트리거 워드 다음으로 하는 말이 인풋값이 되고, 그 오디오 클립의 아웃풋은 텍스트 트랜스크립트(Text transcript)가 된다. 만약, 사용자가 "시리야, 오늘 날씨 어때?"라고 말했다면 "시리야" 다음으로 말한 "오늘 날씨 어때?"가 인풋값이 되고 아웃풋은 이 단어의 텍스트 트랜스크립트가 된다.

의도인식(Intent recognition) : 다음 알고리즘은 "오늘 날씨 어때?"를 이해해야 한다. 오늘날의 스마트 스피커가 인지할 수 있는 명령어는 시간 말하기, 타이머 설정, 날씨 묻기, 전화 걸기 등과 같이 제한적이지만 간단한 명령어 처리는 문제가 없다.

실행(Execute) : 사용자가 스마트 스피커에 요청한 명령을 실행한다.^[3]

설계

마이크

디지털 마이크는 아날로그 마이크보다 비싸지만 아날로그 마이크는 시스템온칩(SoC) 앞에 추가 아날로그-디지털 변환회로(ADC)가 있어야 한다. 별도의 ADC가 있는 아날로그 마이크와 비교했을 때, 디지털 마이크는 주어진 마이크 내부의 ADC에 포함된 변환기 사이즈 제한과 통합 ADC 자체의 성능 제한에 대해 신호 대 잡음 비율과 동적 범위가 낮다. 일반적인 디지털 마이크는 약 65dB의 잡음 비율과 104dB의 동적 범위를 제공하며 ADC가 포함되어 있으므로 필터링과 오버샘플링을 통해 잡음비율과 동적 범위를 강화할 수 없다. 반면에 아날로그 마이크는 외부 ADC와 통합되어 있으므로 최대 120dB의 잡음 비율 및 동적 범위를 경험할 수 있다. 일반적인 혼잡한 방 또는 음악이 재생되고 있는 방의 주변 사운드 레벨이 쉽게 60dB이 된다는 점을 고려하면, 디지털 마이크의 동적 범위가 더 낮으면 음성 명령이 주변 사운드보다 훨씬 높지 않은 이상 음성 명령을 제대로 인식하지 못할 수 있다. 즉, 최종 사용자가 마이크에 더 가깝게 가야 하거나 스마트 스피커에 더 많은 마이크가 필요하게 된다.^[4]

스피커 증폭기 및 전원

스피커 증폭기의 경우 출력 전력, 전력 소모, 열, 크기, 스피커 보호 및 사운드 정확도가 균형을 이루고 있다. 하나의 중간 범위 스피커 및 우퍼가 있는 단순한 스피커는 좋은 사운드를 제공하지만, 최신 오디오 처리 기술이 결합된 다중 스피커는 360도 오디오 경험을 제공할 수 있다. 소비 전력 및 열 측면에서 지속적인 전력 드레인을 줄이기 위한 하나의 접근 방법은 증폭기 펄스폭 변조 방법을 어댑티브 전원 공급 장치를 결합하여 스피커의 전력 요구 사항을 줄이는 것이다. 이 기술은 가변 클래스 D출력에 대해 스위칭 주파수를 사용하고, 오디오 콘텐츠에 기반하여 주파수를 변경한다. 즉, 콘텐츠가 많아질수록 스위칭이 많아지고, 콘텐츠가 적어질수록 스위칭이 적어진다. 효율성을 추가하기 위해 콘텐츠에 따라 증폭기의 출력 전원 공급 장치 전압을 동적으로 조정할 수도 있다. 이러한 기술을 엔빌로프 트래킹이라고 한다. 이 기술은 음악에 전력 향상이 필요한 경우, 특히 베이스가 많은 부분에서만 오디오 콘텐츠를 추적하고 전압을 높인다.^[4]

전원 관리

대부분의 전자 시스템과 마찬가지로, 전력 관리는 시스템 설계에서 매우 중요한 역할을 한다. 궁극적인 목표는 더 적은 열을 방출하는 전력 효율성을 제공하여 더 작고 비용이 낮은 시스템을 사용할 수 있도록 하고, 휴대용 시스템의 경우 배터리 작동 시간을 늘리는 것이다. 고정된 통합 솔루션이 제공하는 것을 넘어서 더 낮은 전류로 작동하는 것 또는 더 높은 스위칭 주파수를 사용하는 것과 같은 고정된 통합 솔루션이 제공하는 것 이상으로 설계를 최적화하여 소형 인덕터의 필요성에 따라 더 작은 풋프린트를 달성하고 싶어 할 수도 있다. 또는 펄스 스킵 또는 에코 모드를 사용하여 낮은 부하에서 전력을 절약하는 동시에 20kHz 미만에서 전환하지 않음으로써 오디오 대역에 간섭하지 않으려고 할 수 있다. 휴대용 스피커의 경우 전원 경로 보호라고 불리는 기술을 통해 외부 AC/DC 벽면 어댑터로 배터리를 충전하는 동시에 통합 레귤레이터를 통해 스피커에 전원을 공급할 수 있다. 배터리 충전기는 입력을 더 높은 배터리 전압까지 늘려야 하며, 피크 전력 상황에서 더 높은 전압을 달성하기 위해 스피커 증폭기 레일에 대한 추가 부스트 컨버터가 필요하다. 또한, 휴대용 스마트 스피커 시스템에는 낮은 대기 전력 등급 및 배터리가 단일 전원일 때 충전 사이클 간에 더 긴 런타임을 제공하기 위한 효율적인 강압 컨버터가 있어야 한다. 스피커가 전력 소모의 상당 부분을 차지하기 때문에 증폭기의 요구 사항과 밀접하게 통합된 전원 공급 장치는 전력 및 비용 효율적인 설계를 갖추게 된다.^[4]

사용자 인터페이스

스마트 스피커 시장 차별화에 있어 인간과 기계 상호작용(HMI)은 주요 요소이기 때문에 원하는 최종 사용자 경험에 따라 어떤 유형의 사용자 인터페이스를 제공할지 결정해야 한다. 인터페이스는 저비용의 단순한 버튼과 단일 표시기 LED, 회전 LED, 터치 입력 및 햅틱 피드백을 제공하는 LCD 디스플레이에 이르기까지 다양하다. LED는 상태를 알리는 데 사용되며, 최근에는 다양한 패턴으로 움직이는 색상을 생성하여 최종 사용자 경험을 향상한다. 각 선택에는 비용, 전력, 시스템 부담 장단점이 따른다. 또한 정전식 터치 인식 표면은 더 많은 상호 작용을 지원하고 사용자 인터페이스를 강화한다. 물리적인 힘이 필요하지 않으며, 동일한 표면에서 최종 사용자의 근접도를 감지하고 어두운 곳에서도 쉽게 사용할 수 있도록 백라이트를 활성화한다. 터치 인식 표면은 단순한 푸시 대신에 스와이프 또는 스핀을 지원하며 더 친숙한 인터페이스를 구현할 수 있고, 스마트 스피커를 차별화하는 데 도움이 된다. 적절하게 설계된 정전식 터치 컨트롤러는 플라스틱, 유리, 금속 등 다양한 표면에서 작동하며, 스피커 케이스 표면과 동일한 높이로 설계될 수 있다.^[4]

무선 연결

인터넷에 연결되지 않으면 스마트 스피커는 의도한 대로 작동하지 않는다. 주어진 속도 요구 사항 및 전력 제약 조건에서 연결할 수 있는 가장 좋은 방법과 관련된 설계 작동이 있다. 스마트 스피커를 인터넷에 연결하는 가장 일반적인 형식은 와이파이를 통해 직접 연결하는 것이다. 그러나 와이파이 전력 증폭기가 매우 많은 전력을 소모하며 배터리로 작동하는 스마트 스피커의 재생 시간을 제한할 수 있다. 이 이유로 인해 와이파이 지원 스피커는 지속적으로 작동하기 이해 매립식 콘센트에 직접 꽂아 사용되거나 AC 어댑터와 함께 사용되기도 한다. 배터리로 구동되는 휴대용 스피커는 와이파이 클라우드 연결을 근처 모바일 장치로 오프로드할 수 있다. 간접 클라우드 연결을 위해 모바일 장치에 연결하거나 모바일 장치에 저장된 콘텐츠를 들으려면 블루투스(Bluetooth) 저에너지의 대역폭 제한 및 전력 체계로 인해 오디오 콘텐츠를 스트리밍 하기 위한 지속적인 연결에 블루투스 클래식이 필요하다.^[4]

기술

음성 인식

사용자의 음성 명령을 인식하여 대기모드에서 활성 상태로 전환시킨다. 또한 음성 명령을 텍스트로 변환한다. 하지만 주변 소음과 음성을 구분하고, 2~3m의 원거리에서의 음성 인식과 불명확한 발음 인식, 다중 사용자를 식별해야하는 문제점이 있다.

자연어 처리

텍스트로 변환된 문장에서 처리해야 할 도메인 영역을 식별하고, 사용자의 명령의 의도를 파악한다. 해결해야 할 요소로는 모호한 표현, 처리가능 도메인 범위 확보, 일상대화 처리 등이 있다.

음성 합성

텍스트로 생성된 응답 문장을 음성으로 변환하여 사용자에게 응답한다. 하지만 상황에 따른 음성 높낮이, 끊어 읽기, 발화 속도를 설정하는 것과 문장 내에서의 예외 발음 처리 등이 해결해야 할 요소이다.

통합 데이터베이스 구축 및 활용

방대한 지식 데이터베이스를 활용하여 적절한 응답 문장을 생성하고, 검색, 통합 데이터베이스, 추천기술을 활용한다. 해결해야 할 요소로는 처리가능 도메인 범위 확보, 커버리지 이슈, 자연스러운 응답 문장 생성 등이 있다.

기능

음악 재생 : 대한민국 음악 스트리밍 사이트 멜론, 지니, 네이버 뮤직은 스마트 스피커에 음악 추천 기능을 도입했다.
알람 및 타이머 : 알람 설정, 확인, 삭제, 끄기, 켜기, 알람 음악 설정 등을 할 수 있다. 타이머는 타이머 설정, 중단, 재시작 등의 기능이 있다.
뉴스 및 날씨 : 뉴스는 카테고리별, 인기순, 테마 등으로 나눠서 들을 수 있다. 날씨는 현재 날씨, 일자별 날씨, 주간 날씨, 시간별 날씨, 세계 날씨 등을 알 수 있다.
일정 및 메모 : 일정 등록, 조회, 삭제 등 메모 추가 기능이 있다.
기타 : 환율, 운세, 로또, 주식 등의 생활 정보 제공과 일상 대화 하기, 쇼핑 등이 있다.

시장 전망

해외

국내

제품

한계

보안

음성 인식

각주

↑ JiranSecurity, 〈우리집의 똑똑한 비서, 스마트 스피커〉, 《마켓인텔리전스》, 2017-09-18
↑ ^2.0 ^2.1 강맹수, 〈[스마트 스피커 시장 동향과 전망]〉, 《산업기술리서치센터》, 2018-12-13
↑ wacany, 〈스마트 스피커(Smart speaker)의 작동원리〉, 《네이버 블로그》, 2020-03-22
↑ ^4.0 ^4.1 ^4.2 ^4.3 ^4.4 〈스마트 스피커 기본 사항: 설계 장단점 따져 보기〉, 《TEXAS INSTRUMENTS》, 2019-02-08

참고자료

스마트 스피커 위키백과 - https://ko.wikipedia.org/wiki/%EC%8A%A4%EB%A7%88%ED%8A%B8_%EC%8A%A4%ED%94%BC%EC%BB%A4
스마트 스피커 나무위키 - https://namu.wiki/w/%EC%8A%A4%EB%A7%88%ED%8A%B8%20%EC%8A%A4%ED%94%BC%EC%BB%A4
JiranSecurity, 〈우리집의 똑똑한 비서, 스마트 스피커〉, 《마켓인텔리전스》, 2017-09-18
강맹수, 〈[스마트 스피커 시장 동향과 전망]〉, 《산업기술리서치센터》, 2018-12-13
〈스마트 스피커 기본 사항: 설계 장단점 따져 보기〉, 《TEXAS INSTRUMENTS》, 2019-02-08
김성미 기자, 〈AI 기반 스마트홈 관문 ‘스마트 스피커’ 시장 진단〉, 《보안뉴스》, 2019-03-02
wacany, 〈스마트 스피커(Smart speaker)의 작동원리〉, 《네이버 블로그》, 2020-03-22

같이 보기

이 스마트스피커 문서는 인공지능 기술에 관한 토막글입니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 이 문서의 내용을 채워주세요.

인공지능 : 인공지능 서비스, 인공지능 로봇, 인공지능 기술^□^■^⊕, 인공지능 기업, 인공지능 인물

인공지능 기술	AI 워싱 • 랭체인 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링

문자인식과 음성인식	ICR • OCR • OMR • TTS • URL • 글자 • 답변 • 대화 • 동영상 • 디자인 • 맥락 • 문서 • 문자 • 문자인식 • 문자채팅 • 발음 • 번역 • 분류 • 상담 • 소스코드 • 스토리 • 얼굴 • 얼굴인식 • 음성 • 음성채팅 • 음성인식(STT) • 이미지 • 인공어 • 인공지능 음성 • 자막 • 자연어 • 질문 • 채팅 • 코드 • 코딩 • 텍스트 • 통번역 • 통역 • 파일 • 폴더 • 화상채팅 • 화자인식

인공지능 데이터	데이터라벨러 • 데이터라벨링 • 데이터셋 • 돌마 • 벡터 • 벡터DB • 벡터공간 • 스칼라 • 임베딩 • 크라우드워커 • 토큰 • 토큰화

인공지능 학습	ADP • CoLLM • DALL-E • DDPG • DQN • LAM • LMM • SARSA • sLLM • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 과적합 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 메타추론 • 모델 기반 강화학습 • 모델 프리 강화학습 • 미세조정(파인튜닝) • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 어니 • 에이전트 • 인공지능 학습 • 전이학습 • 준지도학습 • 지도학습 • 추론 • 학습 • 확률적 경사하강법

인공지능 알고리즘	AGI • ANI • ASI • RAG • XAI • 가중치 • 관계형 네트워크(RN) • 뉴런 • 다층퍼셉트론 • 단층퍼셉트론 • 데이터마이닝 • 방사신경망 • 볼츠만 머신 • 분산 샌드박스 • 생성대립신경망(GAN) • 생성형 AI • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 시그모이드 함수 • 신경망 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 역전파 • 은닉층 • 인공신경망(ANN) • 인공지능(AI) • 제한 볼츠만 머신(RBM) • 전방전달신경망 • 주의 메커니즘 • 코헨 자기조직 신경망 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 합성곱 신경망(CNN)

계산복잡도	NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 프로그램	BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 알렉스넷 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 파이토치 • 한돌

인공지능 특징	결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론

인공지능 법적 지위	권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[1] JiranSecurity, 〈우리집의 똑똑한 비서, 스마트 스피커〉, 《마켓인텔리전스》, 2017-09-18

[.EA.B0.95.EB.A7.B9.EC.88.98-2] 2.0 ^2.1 강맹수, 〈[스마트 스피커 시장 동향과 전망]〉, 《산업기술리서치센터》, 2018-12-13

[3] wacany, 〈스마트 스피커(Smart speaker)의 작동원리〉, 《네이버 블로그》, 2020-03-22

[.EC.84.A4.EA.B3.84-4] 4.0 ^4.1 ^4.2 ^4.3 ^4.4 〈스마트 스피커 기본 사항: 설계 장단점 따져 보기〉, 《TEXAS INSTRUMENTS》, 2019-02-08

[1]

[2]

[3]

[4]

위키원

이름공간

변수

보기

더 보기

검색