"디지털 휴먼"의 두 판 사이의 차이
(→볼류메트릭 캡처) |
|||
(사용자 3명의 중간 판 37개는 보이지 않습니다) | |||
1번째 줄: | 1번째 줄: | ||
− | '''디지털 휴먼'''(Digital Human)이란 사람의 신체 구조 및 움직임을 [[데이터]]화하여 분석하고, [[가상공간]]에서 마치 | + | '''디지털 휴먼'''(Digital Human)이란 사람의 신체 구조 및 움직임을 [[데이터]]화하여 분석하고, [[가상공간]]에서 마치 실제로 존재하는 사람처럼 움직임을 재현하는 [[디지털 기술]]로 만들어졌다. 사람과 동일한 외형을 갖추고 있는 가상 인간이며, 디지털 휴먼은 단순한 지식 전달뿐만 아니라 현실 감 있는 표정 변화와 함께 '사람 감정'으로 감성 대화가 가능하다는 점이 무엇보다 가장 큰 특징으로 꼽힌다.<ref name=정제영>임화섭, 황재인, 〈[https://crpc.kist.re.kr/user/nd49151.do?View&term_id=&uQ=&itemShCd1=&pageLS=10&page=1&pageSC=REGDATE&pageSO=DESC&dmlType=&boardNo=00007346 비대면 지능형 교육 기술의 동향/디지털 휴먼을 이용한 비대면 시대 실감형 콘텐츠 기술 소개]〉, 《융합연구정책센터》, 2021-04-02</ref> |
==개요== | ==개요== | ||
− | 본래 디지털 휴먼 기술은 제조업 분야에서 제품의 설계 및 제조 개발 영역에서 자주 | + | 본래 디지털 휴먼 기술은 제조업 분야에서 제품의 설계 및 제조 개발 영역에서 자주 사용되었다. 그러나 코로나19 바이러스의 대유행으로 비대면 및 비접촉 트렌드에 따라 비대면 휴먼이 비대면 서비스의 또 다른 대안으로 급부상하고 있으며 고객 서비스 상담, 브랜드 홍보, 컨설팅 등 디지털 휴먼의 역할이 점차 다양해졌다. 시장조사업체 가트너는 2021년 전 세계 기업의 50%가 모바일 [[애플리케이션]]을 개발하기보다 디지털 휴먼 같은 가상 비서에 더 많이 투자할 것이라고 전망했다. 디지털 휴먼은 [[인공지능]](AI), [[빅데이터]], [[클라우드]], [[고성능 컴퓨터]] 등 첨단 기술이 융합되어 사람과 거의 유사한 수준으로 발전하고 있다. 디지털 휴먼을 생성하는 기술, 디지털 휴먼이 실제 사람 및 환경과 상호작용하는 기술, 디지털 휴먼을 활용한 실감형 커뮤니케이션 서비스와 실감 콘텐츠에서의 [[3D]] 입체영상 재현 기술들이 있다.<ref name=정제영></ref> |
− | 디지털 휴먼은 [[인공지능]], [[빅데이터]] | ||
− | <ref> | ||
+ | ==발달단계== | ||
+ | 같은 공간에서 진짜 사람처럼 생활하고 소통하기 위해서는 디지털 휴먼 영화 '엑스마키나'에 나오는 수준의 고도화된 인공지능 [[알고리즘]] 기반의 기술이 필요하다. 하지만 아직 이 시대의 인공지능 기술 발전이 충분하지 않은 상태이기 때문에 디지털 휴먼을 만들기 위해서는 모든 분야의 인공지능 기술의 발전이 필요하다. 완벽한 인간이기보다 사람과 구분이 가지 않는 쌍방향 소통/대화를 어느 정도 할 수 있느냐를 기준을 잡았을 때 디지털 휴먼의 발전 단계는 아래와 같이 4단계로 구분할 수 있다. | ||
+ | {{이미지|정렬=가운데|가로=250 | ||
+ | |Sua.jpg|디지털 셀럽 수아 | ||
+ | |An.jpg|인공지능 아나운서 아나노바 | ||
+ | |Mon.jpg|인공지능 튜터 스픽나우 | ||
+ | |Luda.jpg|인공지능 챗봇 이루다 | ||
+ | |}} | ||
+ | ===버츄얼 인플루언서=== | ||
+ | 첫 번째 단계인 버츄얼 인플루언서(virtual influencer)는 실제 사람이 아닌, 만들어진 캐릭터에 성격, 출신 배경, 직업 등을 부여하고 소통하는 가상의 인플루언서를 말한다. 쌍방향 소통이 거의 없는 한 방향 [[IP]] 기반 콘텐츠를 제공해주는 연예인, 패션모델 같은 존재를 말한다. 대표적으로 디지털 셀럽 수아, 릴 미켈라 등이 있으며 국내에서도 버츄얼 인플루언서가 한둘씩 생겨나고 있다. 연예기획사 ㈜에스엠엔터테인먼트는 앞으로 만들어갈 [[메타버스]]에서 활동할 연예인들의 부캐로 버츄얼 인플루언서들을 속속 내보내고 있고, 싸이더스 스튜디스엑스에서도 로지 등 소속 인플루언서를 공개했다. | ||
+ | ===버츄얼 어시스턴트=== | ||
+ | 두 번째 단계인 버츄얼 어시스턴트(Virtual Assistant)는 시리나 빅스비의 디지털 휴먼 버전이라고 보면 된다. 호텔, 공항, 은행에서 단순한 고객 서비스에 대해서 인간을 대체할 수 있는 디지털 휴먼이다. 예를 들면 인공지능 아나운서 아나노바라는 디지털 휴먼이 있다. 아나노바라는 컴퓨터 시뮬레이션 뉴스 캐스터가 하루 24시간 사용자에게 뉴스 캐스트를 읽을 수 있도록 프로그램된 웹 지향 뉴스 서비스였다. 아나노바는 2000년 언론협회(PA)로부터 95m 규모의 거래를 통해 [[모바일통신]] 사업자인 오렌지(Orange S.A)의 회사가 되었으며, 그 후 오렌지 메인 뉴스 사이트로 합병되었다. 디지털 휴먼 아나노바는 2004년에 은퇴했지만, 웹사이트는 2009년까지 계속해서 아나운서 일을 했다. | ||
+ | |||
+ | ===인텔리전트 어시스턴트=== | ||
+ | 세 번째 단계인 인텔리전트 어시스턴트(Intelligent Assistant)는 좀 더 발전해서 맞춤형으로 사람과 대화하고 요가, 언어교육 등에 대해서 코치를 해줄 수도 있는 디지털 휴먼이다. 대표적으로 스픽나우라는 것이 있다. 대화형 인공지능 원천기술을 가진 [[스타트업]] ㈜머니브레인이 세계 최초로 디지털 휴먼 기술이 적용된 인공지능 영어 회화 학습 서비스이며, 스픽나우는 학습자와 인공지능 튜터가 실시간 대화를 주고받으며, 영어 회화 실력을 향상시키는 학습 서비스이다. 현지 원어민 튜터들을 영상 합성하여 실제 사람과 대화하는 듯이 영어를 학습할 수 있도록 구현되었다. 이 디지털 휴먼 기술은 머니브레인이 자랑하는 세계 최고 수준의 [[딥러닝]] 영상합성 기술을 바탕으로 서울대학교, 연세대학교, 칭화대학교, 홍콩과학기술대학교, 컬럼비아 대학교 등 국내외 유수 석박사 연구진들이 모여 독자적으로 연구 개발했다. 특히 기존의 [[3D 캐릭터]]와 달리 현지 원어민 튜터들을 영상에 합성하여 가상 인간이 실제 사람과 대화하듯이 영어를 학습할 수 있도록 구현되었다. 학습자의 취향에 따라서 다양한 출신, 성별의 튜터와 영어 회화를 할 수 있으며 여러 예능과 유튜브에서 큰 화제를 모으고 있는 방송인 샘 해밍턴과 샘 오취리도 인공지능 튜터로 업데이트되어 사람들이 영어를 배우는데 거부감이 없이 다가갈 수 있도록 하였다. | ||
− | == | + | ===컴패니언=== |
− | 같은 | + | 마지막 단계인 컴패니언(Companion)은 진짜 친구와 대화하는 것 같은 느낌을 받을 수 있는 수준의 자연스러운 수준의 디지털 휴먼이다. 대한민국의 인공지능 개발 스타트업 ㈜스캐터랩(ScatterLab)의 이루다가 그 역할을 시도했다고 볼 수 있다. 이루다는 스캐터랩 소속 핑퐁(Pingpong) 팀에서 개발한 [[페이스북]] 메신저 채팅 기반 열린 주제 대화형 인공지능 챗봇이다. 다른 챗봇들과 달리 딥러닝 알고리즘을 이용하여 2020년 12월 말 공개되고 나서 2021년 1월 초 순식간에 사용자 수 약 40만 명, 페이스북 페이지 팔로워 10만 명을 찍는 등 큰 인기를 끌었다. 하지만 딥러닝 알고리즘이 가질 수밖에 없는 여러 가지 문제점과 개인정보 유출 논란이 생기면서 결국 서비스 개선을 위해 잠정 중단하기로 했다.<ref>Bosung Park, 〈[https://medium.com/curg/%EB%A9%94%ED%83%80%EB%B2%84%EC%8A%A4%EC%99%80-%EB%94%94%EC%A7%80%ED%84%B8%ED%9C%B4%EB%A8%BC-%E2%91%A0-z%EC%84%B8%EB%8C%80-gen-z-%EC%9D%98-%EC%85%80%EB%9F%BD-%EB%A6%B4%EB%AF%B8%EC%BC%88%EB%9D%BC-lil-miquela-f424700bd5bf [[메타버스]]와 디지털휴먼 — ① Z세대(Gen-Z)의 셀럽, 릴미켈라]〉, 《미디엄》, 2021-05-03</ref> |
− | + | == 생성 기술 == | |
+ | 디지털 휴먼을 만드는 기술은 크게 3가지로 나누어진다. 사람의 형상을 실제 공간에 차지하는 [[3차원]] [[픽셀]]의 집합으로 만들어내는 [[볼류메트릭]](Volumetric) [[캡처]] 기술, 게임 속의 [[3D]] 캐릭터처럼 애니메이션이 가능하도록 메시와 텍스처로 만드는 [[3D 모델링]] 기술, 마지막으로 [[딥러닝]] 기술을 이용하여 임의시점 또는 새로운 표정과 자세의 사람 영상을 만들어내는 뉴럴 휴먼 [[렌더링]] 기술 등이 있다. | ||
− | + | ===볼류메트릭 캡처=== | |
+ | 볼류메트릭 캡처는 많은 수의 [[카메라]]를 이용하여 최대한 보이는 형태 그대로의 형상을 공간상의 3차원 픽셀 단위로 물체가 공간을 차지하는 것처럼 공간에 있는 형태와 색상을 촬영하는 방식이다. 대표적인 프로그램은 롤리트테이블(Relightables)이라는 서던캘리포니아 대학교(University of Southern California)와 [[구글]]이 공동 개발한 프로그램이며 기존 서던캘리포니아 대학교에서 보유하고 있는 라이트 스테이지(Light Stage) 시스템의 4번째 버전이다. 시분할 광원 시스템과 능동형 깊이 카메라(depth camera)를 사용하여 기존 포토그래메트리(photogrammetry) 시스템에서 취득하는 고화질의 세부 표면 노멀(normal) 복원 방식과 유사한 수준의 픽셀 단위 노멀(표면의 3차원 방향)과 변위(표면의 높낮이 차)를 측정할 수 있으며 롤리트테이블(Relightables)는 구글에서 보유한 볼류메트릭 캡처 기술을 융합하여 전통적인 포토그래메트리 방식에서는 해결하지 못한 시간의 흐름에 따른 형상의 변화까지 추적하여 촬영할 수 있다는 것이 특징이다. 이를 위해서 331개의 직접 제작한 발광다이오드([[LED]])와 4112×3008의 고해상도를 가지는 58개의 컬러 카메라, 32개의 적외선([[IR]]) 카메라를 이용하여 60fps의 속도로 고화질 형상의 노멀 맵과 텍스처, 그리고 깊이 맵을 생성한다. 이렇게 만들어진 디지털 휴먼 모델은 주변 광원에 맞추어 새롭게 [[렌더링]]을 할 수 있다. 또한 실사, [[CG]]영상과 자연스럽게 합성하여 [[증강현실]](AR) 또는 [[가상현실]](VR) 환경에서 사용이 가능하다. 이러한 방식은 사람의 형상과 색상을 최대한 정확하게 복원하는 것이 목표이기 때문에 새로운 표정이나 동작을 생성하기 위해서는 3D 모델링으로 변환하거나 영상을 합성하는 기술을 활용해야 한다. | ||
+ | ===3D 모델링=== | ||
+ | 3D 휴먼 모델링은 이미 오래전부터 한 장의 얼굴 사진을 이용하여 3차원 얼굴 모델을 만들고 애니메이션 [[3D 모델링]] 데이터를 움직이거나 변형시키는 것으로, 움직임을 시간대별로 기록해서 데이터를 만들어 편집하는 기술이 많이 개발되었다. 서비스되고 있지만 얼굴만으로는 실재감을 느끼기에 부족하기 때문에 최근에는 전신사진을 이용하여 애니메이션이 가능한 3차원 전신 모델을 생성하는 기술들이 소개되고 있다. 후면의 형상과 텍스처까지 딥러닝 기법을 사용하여 만들어 내며 영상을 이용하여 3D 휴먼 모델을 생성하는 방식들은 대부분 입력 영상으로부터 사람의 자세를 유추한 후 표준화된 3차원 휴먼 모델로 해당 자세를 만들고 변형하여 [[2차원]] 영상으로 투영한 다음 [[텍스처]]를 만들어 내고, 만들어진 3차원 모델을 렌더링하여 다시 입력 영상과 비교하는 재귀적인 방식을 사용한다. 단 한 장의 영상으로 만들어내는 3D 모델은 일반적인 3D 콘텐츠에서 이용하기 좋지만 세부적인 형상이나 텍스처는 정확하게 복원하기 어려워 화질이 다소 떨어지는 단점이 있다. 하지만 실제 원격 통신 환경에서 접속 초기에 전송되는 메시와 텍스처맵, 그리고 관절 정보들을 제외하면 소량의 실시간 동작 데이터만 필요하기 때문에 최근 유행하는 [[아바타]]를 이용한 여러 명이 접속하는 가상 회의에 적합한 방식이다. | ||
− | + | ===휴먼 렌더링=== | |
− | + | 휴먼 렌더링은 2020년 소비자 가전 전시회(CES)에서 [[삼성전자㈜]]가 세계 최초로 선보인 인공인간 네온(Neon)의 페이스북의 [[코덱 아바타]](Codec Avatar)와 유사하게 실시간으로 사람의 형상을 합성하는 기술이다. 네온에서 쓰인 기술은 생성적 적대 신경망(GAN) 기술을 이용하여 사람이 표현할 수 있는 다양한 표정 영상을 학습하고 입력되는 사람의 얼굴형에 맞게 새로운 표정을 생성해내는 기술이며 이러한 기술은 실제 존재하지 않는 사람을 만들어 낼 수 있을 뿐만 만 아니라 원하는 표정과 동작을 만들어 낼 수 있어 향후 많은 가능성을 가지고 있는 기술이다.<ref name=정제영></ref> | |
− | |||
− | |||
− | + | == 상호작용 == | |
− | + | 디지털 휴먼을 만드는 이유는 사람이 인간 형태의 상대에게는 대화에 어려움을 적게 느끼면서 편안함을 느낀다는 기존 연구들에 근거하고 있다. 이러한 이유로 삼성 네온은 실제 사람과 흡사한 디지털 휴먼을 구현하고 대화를 하는 기술을 소비자 가전 전시회(CES) 2020에서 선보였고 금융사 및 미디어사에 응용을 진행하고 있다. 이와 관련하여 세계적으로 연구를 선도하는 그룹인 서던캘리포니아 대학교의 창의기술연구소(ICT, Institute for Creative Technology)에서는 이미 10년 전부터 버추얼 휴먼 툴킷(Virtual Human Toolkit)을 개발해오고 있고 디지털 휴먼을 간단하게 제어하고 대화를 할 수 있는 기술을 개발하였다. 이러한 디지털 휴먼의 상호작용 형태는 사용자와 대화하기, 사용자의 지시/명령대로 행동하기, 주위 환경과 상호작용 하기 등으로 분류를 할 수 있다. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | + | === 대화 === | |
+ | 사람의 대화를 흉내 내고 특정한 영역에 입력된 [[스크립트]](scripts) 기반으로 대화를 하는 일반적인 [[챗봇]](chatbot)의 형태를 뛰어넘어 상황에 관련된, 인간 유사 대화를 하는 지능형 가상 에이전트(intelligent virtual agent) 기술이 등장하고 있다. 기존의 챗봇과 달리 미리 입력받지 못한 질문이나 대화에 대해서도 [[자연어처리]]를 통해서 입력받고 적절한 대화 및 반응을 이어나가는 기술들이 적용된다. [[마이크로소프트]](MS)에서는 파워 버추얼 에이전트(Power Virtual Agents)라는 이름으로 지능형 가상 에이전트 서비스를 제공하고 있고 구글의 경우에도 다이얼로그플로우(DialogFlow)라는 이름으로 유사한 서비스를 제공하고 있다. 이러한 기술의 발달로 챗봇이 인간과 유사하게 대화하는 기술은 많이 발전한 상황이다. 챗봇이 대화의 문장 자체를 의미 있게 생성하는 것에 주안점이 있다면 디지털 휴먼의 경우에는 동작이나 얼굴 표정 등으로 사용자에게 여러 가지 정보와 감정을 전달할 수가 있다는 것이 다른 점이다. 디지털 휴먼 행동은 언어적인 행동(verbal behavior)과 비언어적인 행동(nonverbal behavior)이 있을 수 있다. 언어적인 행동은 대화를 위한 동작이므로 대화를 위해서 생성되는 입의 움직임 같은 직접적인 동작으로 설명이 된다. 대화 시에는 비언어적인 행동도 중요하게 여겨지는데 이를 구체적으로 나열하면 시선 응시, 눈 깜빡임, 얼굴 표정, 입 모양, 고개 움직임, 몸 움직임, 손동작 등이 있다. 대화 시에는 상체의 움직임이 중요한데 특정한 문장에 대해서 어떤 동작을 취할지를 정하는 규칙을 알아내어 맵핑하는 방법을 일반적으로 사용한다. 그런데 문장이라는 것이 무한한 조합의 경우의 수가 가능하기 때문에 모든 규칙을 알아내기 힘든 문제가 있다. 이를 해결하기 위하여 유튜브의 대화 영상 1,766개, 106시간 분량에서 대화와 56가지 다양한 동작의 매핑을 추출하여 필요한 규칙들을 생성하였다. 이를 통해 일일이 대화-동작의 규칙을 사람이 지정하지 않고 자동으로 생성을 하여 입력 문장을 주면 캐릭터가 | ||
+ | 자동으로 사람과 유사한 동작을 취하며 말할 수 있었다. 또한 반대로 디지털 휴먼을 사용할 시에 카메라를 이용하여 상대 대화자의 몸동작 및 얼굴을 인식하는 경우보다 면밀하게 상대의 반응을 알아낼 수가 있다. 연구에 따르면 웃음, 표정, 시선, 그리고 목소리 떨림을 인식하는 인공지능을 활용할 때 인간이 놓친 미세한 표정 및 동작의 변화를 검출 가능하고 심리적 판단을 정량화하기 때문에 의료진에게 더 정확한 수치를 제공할 수가 있다. 또한 비언어적 정서적 마커(웃음, 표정, 시선)에 대한 정량적 수치를 제공할 수 있기 때문에 의료진의 결정에 도움이 된다. | ||
− | == | + | === 행동 === |
− | 디지털 휴먼을 | + | 디지털 휴먼과 상호작용을 하는 방법 중 위에서 논한 대화 방식 이외에 특정한 행동을 유도하는 상호작용이 있다. 이런 상호작용을 위해서 사용되는 방식으로는 행동 저작이 있다. 이를 위한 언어 중에 유명한 것으로는 [[BML]](Behavior Markup Language)라는 것이 있다. BML은 디지털 휴먼의 행동을 정의하는 언어로 어떤 동작들을 하는지에 대해서 연속적으로 정의를 할 수가 있다. 최근에는 대화 모델을 이용하여 사용자가 음성으로 명령을 말하면 이를 행동으로 옮기는 디지털 휴먼도 제시되고 있다. 이는 음성 대화를 분석하여 어떤 대상으로(Subject), 어떤 행동을(Action), 어디에서(Position), 어디로(Target) 하는지를 분석하여 수행에 옮기는 것이 가능하다. 사용자의 발화를 BERT(Bidirectional Encoder Representations from Transformers) 모델 등을 사용해서 분석하고 이를 문장 분류기(Sentences Classifier)를 사용하여 행동(Action)에 대한 문장인지를 알아낸 후 행동에 관련된 문장인 경우, 요소 분석기(Entity Classifier)에서 어떤 행동들을 해야 하는지에 대해서 분석하여 실제로 동작하도록 지시하며 만약 행동에 관련되지 않은 문장인 경우 단순히 대화를 하도록 한다. 이러한 방식들은 디지털 휴먼이 일정한 규칙이나 지능을 가지고 행동을 하는 것들에 관한 것이지만 현재 많은 경우에는 디지털 휴먼을 사람이 직접 [[모션캡쳐]]를 통해서 동작을 읽어 들이고 이를 사용하여 제어하는 방법을 사용한다. 이런 방식은 실시간으로 사용자의 동작을 반영하기 때문에 실시간 콘텐츠에 많이 사용되며 [[버츄얼유튜버]] 같은 경우에 적합한 방식이다. 주로 사용하는 장비로는 모션캡쳐 장비로 HTC 바이브(HTC Vive)의 트랙커(tracker)가 일반 대중이 사용 가능한 장비이고 퍼셉션뉴런(Perception Neuron)사의 제품 등과 같은 어느 정도 전문용 장비들도 사용된다. 사용자의 얼굴 같은 경우에는 페이스리그(FaceRig)사의 제품을 주로 사용하여 얼굴 표정을 실시간으로 읽어서 디지털 휴먼의 얼굴에 반영을 한다. 페이스리그(FaceRig)사의 제품은 [[피씨]](PC)용뿐만 아니라 [[안드로이드]]와 [[아이오에스]]로도 제공이 되기 때문에 얼굴 앞에 부착한 채로 사용하는 경우도 많다. |
+ | === 환경=== | ||
+ | 주로 [[혼합현실]](MR)이나 [[증강현실]](AR)에서 디지털 휴먼은 주위 환경에 반응하여 상호작용을 하여야 한다. 이를 위해서는 주위 환경의 물체들에 대한 인식(recognition), 분할(segmentation)이 이루어져야 한다. 이를 위해 3차원 깊이 카메라를 이용하는 경우도 있지만 일반적인 경우에는 [[2차원]] 카메라를 사용하기 때문에 디지털 휴먼과 주위 환경과 상호작용을 제공하는 것은 쉬운 문제가 아니다. 이를 위해서 관심 있는 물체를 영상에서 분할한 다음 분할된 물체의 실루엣을 이용하여 그 물체의 영역을 따내어서 그 영역과 상호작용 하는 방법을 사용한다. 이 방식은 깊이 카메라가 필요 없고 일반적인 분할 방법과 상용의 증강현실 추적 엔진을 결합하여 효과적인 결과를 낼 수가 있다. 결과적으로 실제 물체와의 가림 현상(occlusion), 충돌 처리(collision detection) 등이 가능하게 된다. [[가상공간]]에서는 실제 물체가 아니어서 물체 인식이나 분할 등은 필요가 없다는 장점이 있다. 2019년에 시그래프아시아(SIGGRAPH Asia)에서 스타트케이이(Startke)가 발표한 연구에서는 신경 상태 기계(Neural State Machine)를 이용하여 가상현실에서 디지털 휴먼이 물체들을 피해서 앉고, 물체들을 드는 등의 다양한 행동을 하는 방법을 제시하였다. 이 방법은 두 가지 [[네트워크]]인 동작 예상 네트워크(Motion Prediction Network)와 게이팅 네트워크(Gating Network)를 통해서 구성이 된다. 동작 예상 네트워크는 이전 상태의 동작에서 다음 상태의 동작을 예측하는 것을 수행하고 게이팅 네트워크에 서는 현재 목표나 상태에 따라서 동작 예상 네트워크를 생성할 계수나 중요도를 설정하는 역할을 한다. 디지털 휴먼은 근 미래에 사람을 대신해서 대화, 행동들을 수행할 수 있을 것으로 예상된다. 디지털 휴먼이 사람과 하는 것처럼 자연스럽게 상호작용을 할 수 있는 방법은 대화, 행동, 환경과의 반응 등 다양한 영역에 대해서 탐구가 되고 있고 앞으로 더 많은 연구가 이루어질 것으로 예상된다. 현재는 지능화가 많이 이루어지지 않고 규칙 기반으로 이루어지는 경우도 많으며 응용 영역도 버츄얼 유튜버나 게임 등으로 제한적이지만 향후에는 인공지능 기술과 결합되어 사람과 구별이 가지 않는 정도 혹은 그 이상으로 사람에 민감하게 반응할 수 있는 상호작용 기술이 가능할 것으로 기대된다.<ref name=정제영></ref> | ||
− | + | ==개발 기업== | |
+ | ===소울머신즈=== | ||
+ | [[다임러 파이낸셜 서비스]](Daimler Financial Services)는 고객 서비스에 인공지능과 감정지능을 도입하는 파일럿 프로그램을 전개하고 있다. 다임러의 글로벌혁신 팀은 디지털 휴먼 기술 연구에서 개념 증명을 만들고 소울머신즈(Soul Machines)의 기술에 추가 투자를 실시했다. 다임러는 독특한 고객 경험을 창출하기 위해 감성 지능 디지털 휴먼을 도입하는 프리미엄 메이커가되고 있다. 인공지능이 산업의 주류로 이동함에 따라 많은 기술기업들은 머신러닝, 딥러닝과 같은 기술이 경쟁 우위를 제공할 수 있는 비즈니스 영역을 찾고 있다. 그리고 가장 유망한 적용 사례 중에는 고객 서비스의 자동화가 포함되고 있다. 몇 년 사이에 수백 개의 기업이 고객 서비스 팀에 대한 압박감을 줄이고 대규모 고객과의 소통을 돕는 디지털 어시스턴트, 디지털 휴먼 개발에 나섰다. 그러나 실제로 대다수 고객은 은행, 보험, 가전 등 다양한 기업의 콜센터에 전화를 걸때 실제 상담원과 직접적인 대화를 원하기 때문에 제시되는 다양한 애플리케이션 인터페이스와의 소통 요구에 짜증을 낸다. 익숙하지 않고 원하는 답을 제대로 얻을 수 없기 때문이다. 2018년 2월, 다임러 파이낸셜 서비스는 바르셀로나 모바일 월드 콩그레스(Mobile World Congress)에서 고객의 감정을 읽고 공감하면서 자연스럽게 상담을 할 수 있는 디지털 휴먼 사라(Sarah)를 공개했다. 그리고 7개월이 지난 10월 다임러는 올랜도에서 있은 가트너 심포지엄에서 사라의 개발사인 소울머신즈에 대한 추가적인 전략적 투자를 결정했다고 전격 발표했다. 양사는 [[자동차금융]], [[리스]], 보험과 관련된 고객의 질문에 응답하도록 프로그래밍할 수 있는 [[IBM]] 왓슨(Watson)의 인공지능 소프트웨어와 감정 등 비언어적 신호를 인식하고 만들어내는 기술을 통해 사라의 완성도를 더욱 높이는 작업을 진행하고 있다. 사실 사라가 처음 등장한 것은 2017년 초 뉴욕에서 열린 렌딧 컨퍼런스(Lendit USA 2017)의 IBM 왓슨 강연을 통해서였다. 당시 이름은 사라가 아닌 레이첼(Rachel)이었다. 레이첼이란 이름은 페이스 모델이자 개발사인 소울머신즈의 컨버세이션 엔지니어인 레이첼 러브(Rachel Love)에서 온 것이다. 다임러가 투자한 소울머신즈는 2016년 창립한 뉴질랜드의 스타트업으로 디지털 아바타와 감성지능 분야의 스페셜리스트다. 이 회사는생동적이고 정서적인 반응을 하는 인격과 인성을 지닌 디지털 휴먼을 창조해내고 이를 현실로 만들어가고 있다. 인공지능 연구원, 신경과학자, 심리학자, 예술가, 혁신적인 사상가들로 구성된 회사의 비전은 당연하게도 더 나은 인류를 위한 인공지능을 인간화하는 것이다. 소울머신즈의 첫 디지털 휴먼은 2014년에 발표된 베이비X(Baby X)다. 디지털 아기는 상황에 따라 감정 변화가 있고 이에 따른 행동, 소통의 발전이 있는 디지털상의 실제 아기 같았다. 교육을 통해 피아노를 치기도 했다. 소울머신즈는 레이첼을 공개한 후 그녀의 복제인간들을 다양한 기업들에 취업시키고 있다. 예를 들어 소피(Sophie)를 에어 뉴질랜드(Air New Zealand)에, 제이미(Jamie)를 호주은행 ANZ에, 그리고 사라를 다임러 파이낸셜 서비스에 차례로 취업시켰다. 소울머신즈는 현재까지 다양한 성별, 그룹 및 민족성의 15가지 디지털 휴먼을 만들어 놓고 금융, 파이낸싱, 소프트웨어, 자동차, 헬스케어, 에너지, 교육산업의 기업 브랜드에 이들을 배포하고 있다. 이들은 고객 담당 부서에서 파일럿 테스트, 교육 단계를 거쳐 실제 고객 응대 단계로 가고 있다.<ref>한상민 기자, 〈[https://www.autoelectronics.co.kr/article/articleView.asp?idx=3034 디지털 휴먼에 투자하는 다임러]〉, 《AEM》, 2019-01</ref> | ||
− | + | ==디지털 휴먼증강== | |
+ | 디지털 휴먼 증강은 인공지능, [[IT]] , [[생명공학]](BT) 등의 다양한 이종 기술 간 융합을 바탕으로 인간의 신체・두뇌・감성 능력의 저하를 예방하고, 회복 및 향상을 통해 지속적인 건강한 삶을 가능하게 하는 기술이다. 예를 들면 노화 등으로 인해 예상 가능한 신체적・인지적・정서적 능력 저하를 예방하고 노화, 장애, 질병 등으로 저하된 신체적・인지적・정서적 능력을 개선 가능하며 인간의 생산성 및 삶의 질 개선을 위한 신체적・인지적・정서적 능력을 향상시킨다. | ||
+ | :{|class=wikitable width=700 | ||
+ | |+디지털 휴먼증강 범위<ref>한국과학기술기획평가원 안지현·임현, 한국전자통신연구원 김문구 외 3명, 〈[http://www.nifds.go.kr/brd/m_482/view.do?seq=359&srchFr=&srchTo=&srchWord=&srchTp=&itm_seq_1=0&itm_seq_2=0&multi_itm_seq=0&company_cd=&company_nm=&page=1 미래예측 브리프 4호 「디지털 휴먼증강」 미래 유망 기술·서비스]〉, 《한국과학기술기획평가원》, 2021-02-04</ref> | ||
+ | !align=center colspan=2|'''구분''' | ||
+ | !align=center|'''내 용''' | ||
+ | |- | ||
+ | |align=center rowspan=4 width=30|신체 | ||
+ | |align=center|근력 | ||
+ | |align=center align="light"| | ||
+ | * 신체의 움직임을 가능하게 하는 운동능력의 강화를 통해 노인, 장애인 등의 신체적 삶의 질을 개선하고 산업 현장에서 생산성을 제고 | ||
+ | |- | ||
+ | |align=center|감각 | ||
+ | |align=center align="light"| | ||
+ | * 노화, 질환 등으로 저하된 신체 감각(시각, 청각 등) 능력 개선, 감각치환을 통해 장애인의 상실된 감각 기능을 보완 | ||
+ | |- | ||
+ | |align=center|면역 | ||
+ | |align=center align="light"| | ||
+ | * 유전체 분석 등을 통해 질환・질병 및 외부 감염 등의 면역 취약 요소 진단 및 개인 맞춤형 면역강화 솔루션 제공 | ||
+ | |- | ||
+ | |align=center|장기 | ||
+ | |align=center align="light"| | ||
+ | * 사고, 질병, 기능 쇠퇴 등으로 인해 손상된 인체의 장기를 디지털화된 인공장기로 대체 및 관리함으로써 건강한 삶 영위 | ||
+ | |- | ||
+ | |align=center rowspan=3|두뇌 | ||
+ | |align=center|기억 | ||
+ | |align=center align="light"| | ||
+ | * 노화, 질병으로 저하된 기억력을 복원・저장・영상화 | ||
+ | |- | ||
+ | |align=center|인지 | ||
+ | |align=center align="light"| | ||
+ | * 상황판단, 이해력 등에 대한 인지 능력의 저하 방지 및 향상완 | ||
+ | |- | ||
+ | |align=center|창의 | ||
+ | |align=center align="light"| | ||
+ | * 창의 지능 활성화와 인공지능 협업을 통해 상상 및 생각의 표현력 향상 | ||
+ | |- | ||
+ | |align=center rowspan=2|감성 | ||
+ | |align=center|소통 | ||
+ | |align=center align="light"| | ||
+ | * 감성 교류형 에이전트를 통한 독거인 및 치매 환자의 소통 능력 향상 | ||
+ | |- | ||
+ | |align=center width=65|이상 잠정 제어 | ||
+ | |align=center align="light"| | ||
+ | * 인공지능과 개인 감성정보를 활용한 우울증, 공황장애 등 이상 감정의 예방 및 치료 | ||
+ | |- | ||
+ | |align=center colspan=2 width=95|디지털 휴먼 트윈 | ||
+ | |align=center align="light"| | ||
+ | * 멀티모달형 개인 신체 및 의료, 생활습관 정보 수집 기술 발달 | ||
+ | * 정밀의료 및 유전체 분석에 따른 개인의 생체 및 유전정보 분석 기술 발달 | ||
+ | * 인공지능 기술을 활용한 디지털 트윈 시뮬레이션 기술 고도화 | ||
+ | |} | ||
+ | |||
+ | ===국내외 동향=== | ||
+ | 대한민국을 비롯한 해외 주요국에서는 휴먼증강 기술을 유망 성장 산업 분야로 선정, 연구개발 투자 확대 및 적극적인 정책지원을 추진하고 있다. 미국과 중국은 뇌 연구 중심의 휴먼증강에, 한국, 유럽, 일본은 [[ICT]] 및 [[로봇]] 중심의 사회문제해결 연구개발 및 정책지원에 집중하고 있다. | ||
+ | * '''한국''' : 융합기술 발전전략(2014년), 대한민국 과학기술 미래비전 2045(2020년) 등에 휴먼증강을 국가 유망성장 기술 및 산업으로 선정하여 국가 차원의 정책지원을 강화하고 있다. ICT를 통한 사회문제 해결 연구개발 투자 확대로 고령자, 장애인을 포함한 국민의 신체적, 정서적, 심리적 안정 도모를 강조하고 있다. | ||
+ | * '''미국''' : 브레인이니셔티브(2013년)를 통한 국가 주도의 뇌 연구 프로젝트를 추진하고 있다. 로보틱스 로드맵(2020년)에서 BCI 기반 인간-로봇 상호작용의 고령자 대상 근력증강, 생활지원 등의 로봇 연구를 추진하고 있다. 국립보건원, 방위고등연구계획국, 대학, 기업이 협력하여 휴먼증강 관련 정책지원, 기술개발과 상용화 연구개발을 진행하고 있다. | ||
+ | * '''유럽''' : 휴먼브레인프로젝트(2012년)을 통해 유럽연합 차원에서 뇌과학 공동연구를 추진하고 있다. 유럽의 로보틱스 전략 연구 아젠다(2016년)에서 뇌 및 생체신호 기반 재활로봇 연구를 추진하고 있다. 고령화 사회에 대응하여 고령자의 신체와 정신건강을 증진하는 휴먼증강 연구에 집중하고 있다. | ||
+ | * '''일본''' : 인간 중심의 ICT 융합을 지향하는 관점에서 감성 연구개발을 추진하고 있다. 소사이어티 5.0(2016년)에서 인간능력 확장을 핵심과제로 설정하고 정부산하 산업기술총합연구소에서 인간확장연구센터(2018년)를 개설했다. ICT와 로봇 기술 등을 융합하여 노인과 장애인 대상 생활지원 로봇 프로젝트를 추진하고 있다. | ||
+ | * '''중국''' : 국가 지도로 인간의 뇌와 감성 및 인지를 연구하는 차이나 브레인 프로젝트(2016년)을 추진하고 있다. 뉴로모픽 컴퓨팅고ㅘ 뇌 연구 기술 플랫폼을 개발하여 뇌 질환 조기진단 및 국가주도의 지능형 BCI 기술개발 관련 정책지원을 강화하고 있다. | ||
+ | |||
+ | ==동영상== | ||
+ | * '''영화 엑스마키나 예고편''' | ||
+ | :<youtube>JiPYm9bF2zA</youtube> | ||
{{각주}} | {{각주}} | ||
==참고자료== | ==참고자료== | ||
+ | * Bosung Park, 〈[https://medium.com/curg/%EB%A9%94%ED%83%80%EB%B2%84%EC%8A%A4%EC%99%80-%EB%94%94%EC%A7%80%ED%84%B8%ED%9C%B4%EB%A8%BC-%E2%91%A0-z%EC%84%B8%EB%8C%80-gen-z-%EC%9D%98-%EC%85%80%EB%9F%BD-%EB%A6%B4%EB%AF%B8%EC%BC%88%EB%9D%BC-lil-miquela-f424700bd5bf [[메타버스]]와 디지털휴먼 — ① Z세대(Gen-Z)의 셀럽, 릴미켈라]〉, 《미디엄》, 2021-05-03 | ||
+ | * 한국과학기술기획평가원·한국전자통신연구원 연구원, 〈[http://www.nifds.go.kr/brd/m_482/view.do?seq=359&srchFr=&srchTo=&srchWord=&srchTp=&itm_seq_1=0&itm_seq_2=0&multi_itm_seq=0&company_cd=&company_nm=&page=1 미래예측 브리프 4호 「디지털 휴먼증강」 미래 유망 기술·서비스]〉, 《한국과학기술기획평가원》, 2021-02-04 | ||
+ | * 임화섭, 황재인, 〈[https://crpc.kist.re.kr/user/nd49151.do?View&term_id=&uQ=&itemShCd1=&pageLS=10&page=1&pageSC=REGDATE&pageSO=DESC&dmlType=&boardNo=00007346 비대면 지능형 교육 기술의 동향/디지털 휴먼을 이용한 비대면 시대 실감형 콘텐츠 기술 소개]〉, 《융합연구정책센터》, 2021-04-02 | ||
+ | * 한상민 기자, 〈[https://www.autoelectronics.co.kr/article/articleView.asp?idx=3034 디지털 휴먼에 투자하는 다임러]〉, 《AEM》, 2019-01 | ||
==같이 보기== | ==같이 보기== | ||
+ | * [[메타버스]] | ||
+ | * [[가상현실]] | ||
+ | * [[증강현실]] | ||
+ | * [[인공지능]] | ||
+ | * [[딥러닝]] | ||
− | {{메타버스| | + | {{메타버스|검토 필요}} |
2022년 1월 17일 (월) 09:20 기준 최신판
디지털 휴먼(Digital Human)이란 사람의 신체 구조 및 움직임을 데이터화하여 분석하고, 가상공간에서 마치 실제로 존재하는 사람처럼 움직임을 재현하는 디지털 기술로 만들어졌다. 사람과 동일한 외형을 갖추고 있는 가상 인간이며, 디지털 휴먼은 단순한 지식 전달뿐만 아니라 현실 감 있는 표정 변화와 함께 '사람 감정'으로 감성 대화가 가능하다는 점이 무엇보다 가장 큰 특징으로 꼽힌다.[1]
목차
개요[편집]
본래 디지털 휴먼 기술은 제조업 분야에서 제품의 설계 및 제조 개발 영역에서 자주 사용되었다. 그러나 코로나19 바이러스의 대유행으로 비대면 및 비접촉 트렌드에 따라 비대면 휴먼이 비대면 서비스의 또 다른 대안으로 급부상하고 있으며 고객 서비스 상담, 브랜드 홍보, 컨설팅 등 디지털 휴먼의 역할이 점차 다양해졌다. 시장조사업체 가트너는 2021년 전 세계 기업의 50%가 모바일 애플리케이션을 개발하기보다 디지털 휴먼 같은 가상 비서에 더 많이 투자할 것이라고 전망했다. 디지털 휴먼은 인공지능(AI), 빅데이터, 클라우드, 고성능 컴퓨터 등 첨단 기술이 융합되어 사람과 거의 유사한 수준으로 발전하고 있다. 디지털 휴먼을 생성하는 기술, 디지털 휴먼이 실제 사람 및 환경과 상호작용하는 기술, 디지털 휴먼을 활용한 실감형 커뮤니케이션 서비스와 실감 콘텐츠에서의 3D 입체영상 재현 기술들이 있다.[1]
발달단계[편집]
같은 공간에서 진짜 사람처럼 생활하고 소통하기 위해서는 디지털 휴먼 영화 '엑스마키나'에 나오는 수준의 고도화된 인공지능 알고리즘 기반의 기술이 필요하다. 하지만 아직 이 시대의 인공지능 기술 발전이 충분하지 않은 상태이기 때문에 디지털 휴먼을 만들기 위해서는 모든 분야의 인공지능 기술의 발전이 필요하다. 완벽한 인간이기보다 사람과 구분이 가지 않는 쌍방향 소통/대화를 어느 정도 할 수 있느냐를 기준을 잡았을 때 디지털 휴먼의 발전 단계는 아래와 같이 4단계로 구분할 수 있다.
버츄얼 인플루언서[편집]
첫 번째 단계인 버츄얼 인플루언서(virtual influencer)는 실제 사람이 아닌, 만들어진 캐릭터에 성격, 출신 배경, 직업 등을 부여하고 소통하는 가상의 인플루언서를 말한다. 쌍방향 소통이 거의 없는 한 방향 IP 기반 콘텐츠를 제공해주는 연예인, 패션모델 같은 존재를 말한다. 대표적으로 디지털 셀럽 수아, 릴 미켈라 등이 있으며 국내에서도 버츄얼 인플루언서가 한둘씩 생겨나고 있다. 연예기획사 ㈜에스엠엔터테인먼트는 앞으로 만들어갈 메타버스에서 활동할 연예인들의 부캐로 버츄얼 인플루언서들을 속속 내보내고 있고, 싸이더스 스튜디스엑스에서도 로지 등 소속 인플루언서를 공개했다.
버츄얼 어시스턴트[편집]
두 번째 단계인 버츄얼 어시스턴트(Virtual Assistant)는 시리나 빅스비의 디지털 휴먼 버전이라고 보면 된다. 호텔, 공항, 은행에서 단순한 고객 서비스에 대해서 인간을 대체할 수 있는 디지털 휴먼이다. 예를 들면 인공지능 아나운서 아나노바라는 디지털 휴먼이 있다. 아나노바라는 컴퓨터 시뮬레이션 뉴스 캐스터가 하루 24시간 사용자에게 뉴스 캐스트를 읽을 수 있도록 프로그램된 웹 지향 뉴스 서비스였다. 아나노바는 2000년 언론협회(PA)로부터 95m 규모의 거래를 통해 모바일통신 사업자인 오렌지(Orange S.A)의 회사가 되었으며, 그 후 오렌지 메인 뉴스 사이트로 합병되었다. 디지털 휴먼 아나노바는 2004년에 은퇴했지만, 웹사이트는 2009년까지 계속해서 아나운서 일을 했다.
인텔리전트 어시스턴트[편집]
세 번째 단계인 인텔리전트 어시스턴트(Intelligent Assistant)는 좀 더 발전해서 맞춤형으로 사람과 대화하고 요가, 언어교육 등에 대해서 코치를 해줄 수도 있는 디지털 휴먼이다. 대표적으로 스픽나우라는 것이 있다. 대화형 인공지능 원천기술을 가진 스타트업 ㈜머니브레인이 세계 최초로 디지털 휴먼 기술이 적용된 인공지능 영어 회화 학습 서비스이며, 스픽나우는 학습자와 인공지능 튜터가 실시간 대화를 주고받으며, 영어 회화 실력을 향상시키는 학습 서비스이다. 현지 원어민 튜터들을 영상 합성하여 실제 사람과 대화하는 듯이 영어를 학습할 수 있도록 구현되었다. 이 디지털 휴먼 기술은 머니브레인이 자랑하는 세계 최고 수준의 딥러닝 영상합성 기술을 바탕으로 서울대학교, 연세대학교, 칭화대학교, 홍콩과학기술대학교, 컬럼비아 대학교 등 국내외 유수 석박사 연구진들이 모여 독자적으로 연구 개발했다. 특히 기존의 3D 캐릭터와 달리 현지 원어민 튜터들을 영상에 합성하여 가상 인간이 실제 사람과 대화하듯이 영어를 학습할 수 있도록 구현되었다. 학습자의 취향에 따라서 다양한 출신, 성별의 튜터와 영어 회화를 할 수 있으며 여러 예능과 유튜브에서 큰 화제를 모으고 있는 방송인 샘 해밍턴과 샘 오취리도 인공지능 튜터로 업데이트되어 사람들이 영어를 배우는데 거부감이 없이 다가갈 수 있도록 하였다.
컴패니언[편집]
마지막 단계인 컴패니언(Companion)은 진짜 친구와 대화하는 것 같은 느낌을 받을 수 있는 수준의 자연스러운 수준의 디지털 휴먼이다. 대한민국의 인공지능 개발 스타트업 ㈜스캐터랩(ScatterLab)의 이루다가 그 역할을 시도했다고 볼 수 있다. 이루다는 스캐터랩 소속 핑퐁(Pingpong) 팀에서 개발한 페이스북 메신저 채팅 기반 열린 주제 대화형 인공지능 챗봇이다. 다른 챗봇들과 달리 딥러닝 알고리즘을 이용하여 2020년 12월 말 공개되고 나서 2021년 1월 초 순식간에 사용자 수 약 40만 명, 페이스북 페이지 팔로워 10만 명을 찍는 등 큰 인기를 끌었다. 하지만 딥러닝 알고리즘이 가질 수밖에 없는 여러 가지 문제점과 개인정보 유출 논란이 생기면서 결국 서비스 개선을 위해 잠정 중단하기로 했다.[2]
생성 기술[편집]
디지털 휴먼을 만드는 기술은 크게 3가지로 나누어진다. 사람의 형상을 실제 공간에 차지하는 3차원 픽셀의 집합으로 만들어내는 볼류메트릭(Volumetric) 캡처 기술, 게임 속의 3D 캐릭터처럼 애니메이션이 가능하도록 메시와 텍스처로 만드는 3D 모델링 기술, 마지막으로 딥러닝 기술을 이용하여 임의시점 또는 새로운 표정과 자세의 사람 영상을 만들어내는 뉴럴 휴먼 렌더링 기술 등이 있다.
볼류메트릭 캡처[편집]
볼류메트릭 캡처는 많은 수의 카메라를 이용하여 최대한 보이는 형태 그대로의 형상을 공간상의 3차원 픽셀 단위로 물체가 공간을 차지하는 것처럼 공간에 있는 형태와 색상을 촬영하는 방식이다. 대표적인 프로그램은 롤리트테이블(Relightables)이라는 서던캘리포니아 대학교(University of Southern California)와 구글이 공동 개발한 프로그램이며 기존 서던캘리포니아 대학교에서 보유하고 있는 라이트 스테이지(Light Stage) 시스템의 4번째 버전이다. 시분할 광원 시스템과 능동형 깊이 카메라(depth camera)를 사용하여 기존 포토그래메트리(photogrammetry) 시스템에서 취득하는 고화질의 세부 표면 노멀(normal) 복원 방식과 유사한 수준의 픽셀 단위 노멀(표면의 3차원 방향)과 변위(표면의 높낮이 차)를 측정할 수 있으며 롤리트테이블(Relightables)는 구글에서 보유한 볼류메트릭 캡처 기술을 융합하여 전통적인 포토그래메트리 방식에서는 해결하지 못한 시간의 흐름에 따른 형상의 변화까지 추적하여 촬영할 수 있다는 것이 특징이다. 이를 위해서 331개의 직접 제작한 발광다이오드(LED)와 4112×3008의 고해상도를 가지는 58개의 컬러 카메라, 32개의 적외선(IR) 카메라를 이용하여 60fps의 속도로 고화질 형상의 노멀 맵과 텍스처, 그리고 깊이 맵을 생성한다. 이렇게 만들어진 디지털 휴먼 모델은 주변 광원에 맞추어 새롭게 렌더링을 할 수 있다. 또한 실사, CG영상과 자연스럽게 합성하여 증강현실(AR) 또는 가상현실(VR) 환경에서 사용이 가능하다. 이러한 방식은 사람의 형상과 색상을 최대한 정확하게 복원하는 것이 목표이기 때문에 새로운 표정이나 동작을 생성하기 위해서는 3D 모델링으로 변환하거나 영상을 합성하는 기술을 활용해야 한다.
3D 모델링[편집]
3D 휴먼 모델링은 이미 오래전부터 한 장의 얼굴 사진을 이용하여 3차원 얼굴 모델을 만들고 애니메이션 3D 모델링 데이터를 움직이거나 변형시키는 것으로, 움직임을 시간대별로 기록해서 데이터를 만들어 편집하는 기술이 많이 개발되었다. 서비스되고 있지만 얼굴만으로는 실재감을 느끼기에 부족하기 때문에 최근에는 전신사진을 이용하여 애니메이션이 가능한 3차원 전신 모델을 생성하는 기술들이 소개되고 있다. 후면의 형상과 텍스처까지 딥러닝 기법을 사용하여 만들어 내며 영상을 이용하여 3D 휴먼 모델을 생성하는 방식들은 대부분 입력 영상으로부터 사람의 자세를 유추한 후 표준화된 3차원 휴먼 모델로 해당 자세를 만들고 변형하여 2차원 영상으로 투영한 다음 텍스처를 만들어 내고, 만들어진 3차원 모델을 렌더링하여 다시 입력 영상과 비교하는 재귀적인 방식을 사용한다. 단 한 장의 영상으로 만들어내는 3D 모델은 일반적인 3D 콘텐츠에서 이용하기 좋지만 세부적인 형상이나 텍스처는 정확하게 복원하기 어려워 화질이 다소 떨어지는 단점이 있다. 하지만 실제 원격 통신 환경에서 접속 초기에 전송되는 메시와 텍스처맵, 그리고 관절 정보들을 제외하면 소량의 실시간 동작 데이터만 필요하기 때문에 최근 유행하는 아바타를 이용한 여러 명이 접속하는 가상 회의에 적합한 방식이다.
휴먼 렌더링[편집]
휴먼 렌더링은 2020년 소비자 가전 전시회(CES)에서 삼성전자㈜가 세계 최초로 선보인 인공인간 네온(Neon)의 페이스북의 코덱 아바타(Codec Avatar)와 유사하게 실시간으로 사람의 형상을 합성하는 기술이다. 네온에서 쓰인 기술은 생성적 적대 신경망(GAN) 기술을 이용하여 사람이 표현할 수 있는 다양한 표정 영상을 학습하고 입력되는 사람의 얼굴형에 맞게 새로운 표정을 생성해내는 기술이며 이러한 기술은 실제 존재하지 않는 사람을 만들어 낼 수 있을 뿐만 만 아니라 원하는 표정과 동작을 만들어 낼 수 있어 향후 많은 가능성을 가지고 있는 기술이다.[1]
상호작용[편집]
디지털 휴먼을 만드는 이유는 사람이 인간 형태의 상대에게는 대화에 어려움을 적게 느끼면서 편안함을 느낀다는 기존 연구들에 근거하고 있다. 이러한 이유로 삼성 네온은 실제 사람과 흡사한 디지털 휴먼을 구현하고 대화를 하는 기술을 소비자 가전 전시회(CES) 2020에서 선보였고 금융사 및 미디어사에 응용을 진행하고 있다. 이와 관련하여 세계적으로 연구를 선도하는 그룹인 서던캘리포니아 대학교의 창의기술연구소(ICT, Institute for Creative Technology)에서는 이미 10년 전부터 버추얼 휴먼 툴킷(Virtual Human Toolkit)을 개발해오고 있고 디지털 휴먼을 간단하게 제어하고 대화를 할 수 있는 기술을 개발하였다. 이러한 디지털 휴먼의 상호작용 형태는 사용자와 대화하기, 사용자의 지시/명령대로 행동하기, 주위 환경과 상호작용 하기 등으로 분류를 할 수 있다.
대화[편집]
사람의 대화를 흉내 내고 특정한 영역에 입력된 스크립트(scripts) 기반으로 대화를 하는 일반적인 챗봇(chatbot)의 형태를 뛰어넘어 상황에 관련된, 인간 유사 대화를 하는 지능형 가상 에이전트(intelligent virtual agent) 기술이 등장하고 있다. 기존의 챗봇과 달리 미리 입력받지 못한 질문이나 대화에 대해서도 자연어처리를 통해서 입력받고 적절한 대화 및 반응을 이어나가는 기술들이 적용된다. 마이크로소프트(MS)에서는 파워 버추얼 에이전트(Power Virtual Agents)라는 이름으로 지능형 가상 에이전트 서비스를 제공하고 있고 구글의 경우에도 다이얼로그플로우(DialogFlow)라는 이름으로 유사한 서비스를 제공하고 있다. 이러한 기술의 발달로 챗봇이 인간과 유사하게 대화하는 기술은 많이 발전한 상황이다. 챗봇이 대화의 문장 자체를 의미 있게 생성하는 것에 주안점이 있다면 디지털 휴먼의 경우에는 동작이나 얼굴 표정 등으로 사용자에게 여러 가지 정보와 감정을 전달할 수가 있다는 것이 다른 점이다. 디지털 휴먼 행동은 언어적인 행동(verbal behavior)과 비언어적인 행동(nonverbal behavior)이 있을 수 있다. 언어적인 행동은 대화를 위한 동작이므로 대화를 위해서 생성되는 입의 움직임 같은 직접적인 동작으로 설명이 된다. 대화 시에는 비언어적인 행동도 중요하게 여겨지는데 이를 구체적으로 나열하면 시선 응시, 눈 깜빡임, 얼굴 표정, 입 모양, 고개 움직임, 몸 움직임, 손동작 등이 있다. 대화 시에는 상체의 움직임이 중요한데 특정한 문장에 대해서 어떤 동작을 취할지를 정하는 규칙을 알아내어 맵핑하는 방법을 일반적으로 사용한다. 그런데 문장이라는 것이 무한한 조합의 경우의 수가 가능하기 때문에 모든 규칙을 알아내기 힘든 문제가 있다. 이를 해결하기 위하여 유튜브의 대화 영상 1,766개, 106시간 분량에서 대화와 56가지 다양한 동작의 매핑을 추출하여 필요한 규칙들을 생성하였다. 이를 통해 일일이 대화-동작의 규칙을 사람이 지정하지 않고 자동으로 생성을 하여 입력 문장을 주면 캐릭터가 자동으로 사람과 유사한 동작을 취하며 말할 수 있었다. 또한 반대로 디지털 휴먼을 사용할 시에 카메라를 이용하여 상대 대화자의 몸동작 및 얼굴을 인식하는 경우보다 면밀하게 상대의 반응을 알아낼 수가 있다. 연구에 따르면 웃음, 표정, 시선, 그리고 목소리 떨림을 인식하는 인공지능을 활용할 때 인간이 놓친 미세한 표정 및 동작의 변화를 검출 가능하고 심리적 판단을 정량화하기 때문에 의료진에게 더 정확한 수치를 제공할 수가 있다. 또한 비언어적 정서적 마커(웃음, 표정, 시선)에 대한 정량적 수치를 제공할 수 있기 때문에 의료진의 결정에 도움이 된다.
행동[편집]
디지털 휴먼과 상호작용을 하는 방법 중 위에서 논한 대화 방식 이외에 특정한 행동을 유도하는 상호작용이 있다. 이런 상호작용을 위해서 사용되는 방식으로는 행동 저작이 있다. 이를 위한 언어 중에 유명한 것으로는 BML(Behavior Markup Language)라는 것이 있다. BML은 디지털 휴먼의 행동을 정의하는 언어로 어떤 동작들을 하는지에 대해서 연속적으로 정의를 할 수가 있다. 최근에는 대화 모델을 이용하여 사용자가 음성으로 명령을 말하면 이를 행동으로 옮기는 디지털 휴먼도 제시되고 있다. 이는 음성 대화를 분석하여 어떤 대상으로(Subject), 어떤 행동을(Action), 어디에서(Position), 어디로(Target) 하는지를 분석하여 수행에 옮기는 것이 가능하다. 사용자의 발화를 BERT(Bidirectional Encoder Representations from Transformers) 모델 등을 사용해서 분석하고 이를 문장 분류기(Sentences Classifier)를 사용하여 행동(Action)에 대한 문장인지를 알아낸 후 행동에 관련된 문장인 경우, 요소 분석기(Entity Classifier)에서 어떤 행동들을 해야 하는지에 대해서 분석하여 실제로 동작하도록 지시하며 만약 행동에 관련되지 않은 문장인 경우 단순히 대화를 하도록 한다. 이러한 방식들은 디지털 휴먼이 일정한 규칙이나 지능을 가지고 행동을 하는 것들에 관한 것이지만 현재 많은 경우에는 디지털 휴먼을 사람이 직접 모션캡쳐를 통해서 동작을 읽어 들이고 이를 사용하여 제어하는 방법을 사용한다. 이런 방식은 실시간으로 사용자의 동작을 반영하기 때문에 실시간 콘텐츠에 많이 사용되며 버츄얼유튜버 같은 경우에 적합한 방식이다. 주로 사용하는 장비로는 모션캡쳐 장비로 HTC 바이브(HTC Vive)의 트랙커(tracker)가 일반 대중이 사용 가능한 장비이고 퍼셉션뉴런(Perception Neuron)사의 제품 등과 같은 어느 정도 전문용 장비들도 사용된다. 사용자의 얼굴 같은 경우에는 페이스리그(FaceRig)사의 제품을 주로 사용하여 얼굴 표정을 실시간으로 읽어서 디지털 휴먼의 얼굴에 반영을 한다. 페이스리그(FaceRig)사의 제품은 피씨(PC)용뿐만 아니라 안드로이드와 아이오에스로도 제공이 되기 때문에 얼굴 앞에 부착한 채로 사용하는 경우도 많다.
환경[편집]
주로 혼합현실(MR)이나 증강현실(AR)에서 디지털 휴먼은 주위 환경에 반응하여 상호작용을 하여야 한다. 이를 위해서는 주위 환경의 물체들에 대한 인식(recognition), 분할(segmentation)이 이루어져야 한다. 이를 위해 3차원 깊이 카메라를 이용하는 경우도 있지만 일반적인 경우에는 2차원 카메라를 사용하기 때문에 디지털 휴먼과 주위 환경과 상호작용을 제공하는 것은 쉬운 문제가 아니다. 이를 위해서 관심 있는 물체를 영상에서 분할한 다음 분할된 물체의 실루엣을 이용하여 그 물체의 영역을 따내어서 그 영역과 상호작용 하는 방법을 사용한다. 이 방식은 깊이 카메라가 필요 없고 일반적인 분할 방법과 상용의 증강현실 추적 엔진을 결합하여 효과적인 결과를 낼 수가 있다. 결과적으로 실제 물체와의 가림 현상(occlusion), 충돌 처리(collision detection) 등이 가능하게 된다. 가상공간에서는 실제 물체가 아니어서 물체 인식이나 분할 등은 필요가 없다는 장점이 있다. 2019년에 시그래프아시아(SIGGRAPH Asia)에서 스타트케이이(Startke)가 발표한 연구에서는 신경 상태 기계(Neural State Machine)를 이용하여 가상현실에서 디지털 휴먼이 물체들을 피해서 앉고, 물체들을 드는 등의 다양한 행동을 하는 방법을 제시하였다. 이 방법은 두 가지 네트워크인 동작 예상 네트워크(Motion Prediction Network)와 게이팅 네트워크(Gating Network)를 통해서 구성이 된다. 동작 예상 네트워크는 이전 상태의 동작에서 다음 상태의 동작을 예측하는 것을 수행하고 게이팅 네트워크에 서는 현재 목표나 상태에 따라서 동작 예상 네트워크를 생성할 계수나 중요도를 설정하는 역할을 한다. 디지털 휴먼은 근 미래에 사람을 대신해서 대화, 행동들을 수행할 수 있을 것으로 예상된다. 디지털 휴먼이 사람과 하는 것처럼 자연스럽게 상호작용을 할 수 있는 방법은 대화, 행동, 환경과의 반응 등 다양한 영역에 대해서 탐구가 되고 있고 앞으로 더 많은 연구가 이루어질 것으로 예상된다. 현재는 지능화가 많이 이루어지지 않고 규칙 기반으로 이루어지는 경우도 많으며 응용 영역도 버츄얼 유튜버나 게임 등으로 제한적이지만 향후에는 인공지능 기술과 결합되어 사람과 구별이 가지 않는 정도 혹은 그 이상으로 사람에 민감하게 반응할 수 있는 상호작용 기술이 가능할 것으로 기대된다.[1]
개발 기업[편집]
소울머신즈[편집]
다임러 파이낸셜 서비스(Daimler Financial Services)는 고객 서비스에 인공지능과 감정지능을 도입하는 파일럿 프로그램을 전개하고 있다. 다임러의 글로벌혁신 팀은 디지털 휴먼 기술 연구에서 개념 증명을 만들고 소울머신즈(Soul Machines)의 기술에 추가 투자를 실시했다. 다임러는 독특한 고객 경험을 창출하기 위해 감성 지능 디지털 휴먼을 도입하는 프리미엄 메이커가되고 있다. 인공지능이 산업의 주류로 이동함에 따라 많은 기술기업들은 머신러닝, 딥러닝과 같은 기술이 경쟁 우위를 제공할 수 있는 비즈니스 영역을 찾고 있다. 그리고 가장 유망한 적용 사례 중에는 고객 서비스의 자동화가 포함되고 있다. 몇 년 사이에 수백 개의 기업이 고객 서비스 팀에 대한 압박감을 줄이고 대규모 고객과의 소통을 돕는 디지털 어시스턴트, 디지털 휴먼 개발에 나섰다. 그러나 실제로 대다수 고객은 은행, 보험, 가전 등 다양한 기업의 콜센터에 전화를 걸때 실제 상담원과 직접적인 대화를 원하기 때문에 제시되는 다양한 애플리케이션 인터페이스와의 소통 요구에 짜증을 낸다. 익숙하지 않고 원하는 답을 제대로 얻을 수 없기 때문이다. 2018년 2월, 다임러 파이낸셜 서비스는 바르셀로나 모바일 월드 콩그레스(Mobile World Congress)에서 고객의 감정을 읽고 공감하면서 자연스럽게 상담을 할 수 있는 디지털 휴먼 사라(Sarah)를 공개했다. 그리고 7개월이 지난 10월 다임러는 올랜도에서 있은 가트너 심포지엄에서 사라의 개발사인 소울머신즈에 대한 추가적인 전략적 투자를 결정했다고 전격 발표했다. 양사는 자동차금융, 리스, 보험과 관련된 고객의 질문에 응답하도록 프로그래밍할 수 있는 IBM 왓슨(Watson)의 인공지능 소프트웨어와 감정 등 비언어적 신호를 인식하고 만들어내는 기술을 통해 사라의 완성도를 더욱 높이는 작업을 진행하고 있다. 사실 사라가 처음 등장한 것은 2017년 초 뉴욕에서 열린 렌딧 컨퍼런스(Lendit USA 2017)의 IBM 왓슨 강연을 통해서였다. 당시 이름은 사라가 아닌 레이첼(Rachel)이었다. 레이첼이란 이름은 페이스 모델이자 개발사인 소울머신즈의 컨버세이션 엔지니어인 레이첼 러브(Rachel Love)에서 온 것이다. 다임러가 투자한 소울머신즈는 2016년 창립한 뉴질랜드의 스타트업으로 디지털 아바타와 감성지능 분야의 스페셜리스트다. 이 회사는생동적이고 정서적인 반응을 하는 인격과 인성을 지닌 디지털 휴먼을 창조해내고 이를 현실로 만들어가고 있다. 인공지능 연구원, 신경과학자, 심리학자, 예술가, 혁신적인 사상가들로 구성된 회사의 비전은 당연하게도 더 나은 인류를 위한 인공지능을 인간화하는 것이다. 소울머신즈의 첫 디지털 휴먼은 2014년에 발표된 베이비X(Baby X)다. 디지털 아기는 상황에 따라 감정 변화가 있고 이에 따른 행동, 소통의 발전이 있는 디지털상의 실제 아기 같았다. 교육을 통해 피아노를 치기도 했다. 소울머신즈는 레이첼을 공개한 후 그녀의 복제인간들을 다양한 기업들에 취업시키고 있다. 예를 들어 소피(Sophie)를 에어 뉴질랜드(Air New Zealand)에, 제이미(Jamie)를 호주은행 ANZ에, 그리고 사라를 다임러 파이낸셜 서비스에 차례로 취업시켰다. 소울머신즈는 현재까지 다양한 성별, 그룹 및 민족성의 15가지 디지털 휴먼을 만들어 놓고 금융, 파이낸싱, 소프트웨어, 자동차, 헬스케어, 에너지, 교육산업의 기업 브랜드에 이들을 배포하고 있다. 이들은 고객 담당 부서에서 파일럿 테스트, 교육 단계를 거쳐 실제 고객 응대 단계로 가고 있다.[3]
디지털 휴먼증강[편집]
디지털 휴먼 증강은 인공지능, IT , 생명공학(BT) 등의 다양한 이종 기술 간 융합을 바탕으로 인간의 신체・두뇌・감성 능력의 저하를 예방하고, 회복 및 향상을 통해 지속적인 건강한 삶을 가능하게 하는 기술이다. 예를 들면 노화 등으로 인해 예상 가능한 신체적・인지적・정서적 능력 저하를 예방하고 노화, 장애, 질병 등으로 저하된 신체적・인지적・정서적 능력을 개선 가능하며 인간의 생산성 및 삶의 질 개선을 위한 신체적・인지적・정서적 능력을 향상시킨다.
디지털 휴먼증강 범위[4] 구분 내 용 신체 근력 - 신체의 움직임을 가능하게 하는 운동능력의 강화를 통해 노인, 장애인 등의 신체적 삶의 질을 개선하고 산업 현장에서 생산성을 제고
감각 - 노화, 질환 등으로 저하된 신체 감각(시각, 청각 등) 능력 개선, 감각치환을 통해 장애인의 상실된 감각 기능을 보완
면역 - 유전체 분석 등을 통해 질환・질병 및 외부 감염 등의 면역 취약 요소 진단 및 개인 맞춤형 면역강화 솔루션 제공
장기 - 사고, 질병, 기능 쇠퇴 등으로 인해 손상된 인체의 장기를 디지털화된 인공장기로 대체 및 관리함으로써 건강한 삶 영위
두뇌 기억 - 노화, 질병으로 저하된 기억력을 복원・저장・영상화
인지 - 상황판단, 이해력 등에 대한 인지 능력의 저하 방지 및 향상완
창의 - 창의 지능 활성화와 인공지능 협업을 통해 상상 및 생각의 표현력 향상
감성 소통 - 감성 교류형 에이전트를 통한 독거인 및 치매 환자의 소통 능력 향상
이상 잠정 제어 - 인공지능과 개인 감성정보를 활용한 우울증, 공황장애 등 이상 감정의 예방 및 치료
디지털 휴먼 트윈 - 멀티모달형 개인 신체 및 의료, 생활습관 정보 수집 기술 발달
- 정밀의료 및 유전체 분석에 따른 개인의 생체 및 유전정보 분석 기술 발달
- 인공지능 기술을 활용한 디지털 트윈 시뮬레이션 기술 고도화
국내외 동향[편집]
대한민국을 비롯한 해외 주요국에서는 휴먼증강 기술을 유망 성장 산업 분야로 선정, 연구개발 투자 확대 및 적극적인 정책지원을 추진하고 있다. 미국과 중국은 뇌 연구 중심의 휴먼증강에, 한국, 유럽, 일본은 ICT 및 로봇 중심의 사회문제해결 연구개발 및 정책지원에 집중하고 있다.
- 한국 : 융합기술 발전전략(2014년), 대한민국 과학기술 미래비전 2045(2020년) 등에 휴먼증강을 국가 유망성장 기술 및 산업으로 선정하여 국가 차원의 정책지원을 강화하고 있다. ICT를 통한 사회문제 해결 연구개발 투자 확대로 고령자, 장애인을 포함한 국민의 신체적, 정서적, 심리적 안정 도모를 강조하고 있다.
- 미국 : 브레인이니셔티브(2013년)를 통한 국가 주도의 뇌 연구 프로젝트를 추진하고 있다. 로보틱스 로드맵(2020년)에서 BCI 기반 인간-로봇 상호작용의 고령자 대상 근력증강, 생활지원 등의 로봇 연구를 추진하고 있다. 국립보건원, 방위고등연구계획국, 대학, 기업이 협력하여 휴먼증강 관련 정책지원, 기술개발과 상용화 연구개발을 진행하고 있다.
- 유럽 : 휴먼브레인프로젝트(2012년)을 통해 유럽연합 차원에서 뇌과학 공동연구를 추진하고 있다. 유럽의 로보틱스 전략 연구 아젠다(2016년)에서 뇌 및 생체신호 기반 재활로봇 연구를 추진하고 있다. 고령화 사회에 대응하여 고령자의 신체와 정신건강을 증진하는 휴먼증강 연구에 집중하고 있다.
- 일본 : 인간 중심의 ICT 융합을 지향하는 관점에서 감성 연구개발을 추진하고 있다. 소사이어티 5.0(2016년)에서 인간능력 확장을 핵심과제로 설정하고 정부산하 산업기술총합연구소에서 인간확장연구센터(2018년)를 개설했다. ICT와 로봇 기술 등을 융합하여 노인과 장애인 대상 생활지원 로봇 프로젝트를 추진하고 있다.
- 중국 : 국가 지도로 인간의 뇌와 감성 및 인지를 연구하는 차이나 브레인 프로젝트(2016년)을 추진하고 있다. 뉴로모픽 컴퓨팅고ㅘ 뇌 연구 기술 플랫폼을 개발하여 뇌 질환 조기진단 및 국가주도의 지능형 BCI 기술개발 관련 정책지원을 강화하고 있다.
동영상[편집]
- 영화 엑스마키나 예고편
각주[편집]
- ↑ 1.0 1.1 1.2 1.3 임화섭, 황재인, 〈비대면 지능형 교육 기술의 동향/디지털 휴먼을 이용한 비대면 시대 실감형 콘텐츠 기술 소개〉, 《융합연구정책센터》, 2021-04-02
- ↑ Bosung Park, 〈메타버스와 디지털휴먼 — ① Z세대(Gen-Z)의 셀럽, 릴미켈라〉, 《미디엄》, 2021-05-03
- ↑ 한상민 기자, 〈디지털 휴먼에 투자하는 다임러〉, 《AEM》, 2019-01
- ↑ 한국과학기술기획평가원 안지현·임현, 한국전자통신연구원 김문구 외 3명, 〈미래예측 브리프 4호 「디지털 휴먼증강」 미래 유망 기술·서비스〉, 《한국과학기술기획평가원》, 2021-02-04
참고자료[편집]
- Bosung Park, 〈메타버스와 디지털휴먼 — ① Z세대(Gen-Z)의 셀럽, 릴미켈라〉, 《미디엄》, 2021-05-03
- 한국과학기술기획평가원·한국전자통신연구원 연구원, 〈미래예측 브리프 4호 「디지털 휴먼증강」 미래 유망 기술·서비스〉, 《한국과학기술기획평가원》, 2021-02-04
- 임화섭, 황재인, 〈비대면 지능형 교육 기술의 동향/디지털 휴먼을 이용한 비대면 시대 실감형 콘텐츠 기술 소개〉, 《융합연구정책센터》, 2021-04-02
- 한상민 기자, 〈디지털 휴먼에 투자하는 다임러〉, 《AEM》, 2019-01
같이 보기[편집]