의견.png

"디지털 휴먼"의 두 판 사이의 차이

위키원
이동: 둘러보기, 검색
37번째 줄: 37번째 줄:
  
 
== 디지털 휴먼 생성 기술 ==
 
== 디지털 휴먼 생성 기술 ==
디지털 휴먼을 만드는 기술은 크게 3가지로 나누어진다. 사람의 형상을 실제 공간에 차지하는 [[3차원]] 픽셀의
+
디지털 휴먼을 만드는 기술은 크게 3가지로 나누어진다. 사람의 형상을 실제 공간에 차지하는 [[3차원]] 픽셀의 집합으로 만들어내는 볼류메트릭 캡처 기술, 게임 속의 [[3D]] 캐릭터처럼 애니메이션이 가능하도록 메시와 텍스처로 만드는 3D 휴먼 모델링 기술, 마지막으로 [[딥러닝]] 기술을 이용하여 임의시점 또는 새로운 표정과 자세의 사람 영상을 만들어내는 뉴럴 휴먼 렌더링 기술 등이 있다.
집합으로 만들어내는 볼류메트릭 캡처 기술, 게임 속의 [[3D]] 캐릭터처럼 애니메이션이 가능하도록 메시와 텍스처로
 
만드는 3D 휴먼 모델링 기술, 마지막으로 [[딥러닝]] 기술을 이용하여 임의시점 또는 새로운 표정과 자세의 사람
 
영상을 만들어내는 뉴럴 휴먼 렌더링 기술 등이 있다.
 
  
*'''볼류메트릭 캡처:'''많은 수의 카메라를 이용하여 최대한 보이는 형태 그대로의 형상을 공간상의 [[3차원]] 픽셀 단위로 물체가 공간을 차지하는 것처럼 공간에 있는 형태와 색상을 촬영하는 방식이다. 대표적으로는 Relightables이라는 프로그램은 서던캘리포니아 대학교(USC, University of Southern California)와 구글이 공동 개발한 프로그램이며 기존 서던캘리포니아 대학교에서 보유하고 있는 Light Stage 시스템의 4번째 버전이다. [[시분할]] 광원 시스템과능동형 깊이 카메라(depth camera)를 사용하여 기존 포토그래메트리(photogrammetry) 시스템에서 취득하는 고화질의 세부 표면 노멀(normal) 복원 방식과 유사한 수준의 픽셀 단위 노멀(표면의 3차원 방향)과 변위(표면의 높낮이 차)를 측정할 수 있으며 Relightables는 구글에서 보유한 볼류메트릭 캡처 기술을 융합하여 전통적인 포토그래메트리 방식에서는 해결하지 못한 시간의 흐름에 따른 형상의 변화까지 추적하여 촬영할 수 있다는 것이 특징이다. 이를 위해서 331개의 직접 제작한 발광다이오드([[LED]], Light Emitting Diode)와 4112×3008의 고해상도를 가지는 58개의 컬러 카메라, 32개의 적외선([[IR]], Infrared Radiation) 카메라를 이용하여 60fps의 속도로 고화질 형상의 노멀맵과 텍스처, 그리고 깊이맵을 생성한다. 이렇게 만들어진 디지털 휴먼 모델은 주변 광원에 맞추어 새롭게 [[렌더링]]을 할 수 있다. 또한 실사, [[CG]]영상과 자연스럽게 합성하여 증강현실([[AR]]) 또는 가상현실([[VR]]) 환경에서 사용이 가능하다. 이러한 방식은 앞서 말한 바와 같이 사람의 형상과 색상을 최대한 정확하게 복원하는 것이 목표이기 때문에새로운 표정이나 동작을 생성하기 위해서는 다음 섹션에서 소개될 3D 모델로 변환하거나 영상을 합성하는 기술을 활용해야 한다.
 
  
*'''3D 휴먼 모델링:'''  
+
*'''볼류메트릭 캡처:''' 많은 수의 카메라를 이용하여 최대한 보이는 형태 그대로의 형상을 공간상의 [[3차원]] 픽셀 단위로 물체가 공간을 차지하는 것처럼 공간에 있는 형태와 색상을 촬영하는 방식이다. 대표적으로는 Relightables이라는 프로그램은 서던캘리포니아 대학교(USC, University of Southern California)와 구글이 공동 개발한 프로그램이며 기존 서던캘리포니아 대학교에서 보유하고 있는 Light Stage 시스템의 4번째 버전이다. [[시분할]] 광원 시스템과능동형 깊이 카메라(depth camera)를 사용하여 기존 포토그래메트리(photogrammetry) 시스템에서 취득하는 고화질의 세부 표면 노멀(normal) 복원 방식과 유사한 수준의 픽셀 단위 노멀(표면의 3차원 방향)과 변위(표면의 높낮이 차)를 측정할 수 있으며 Relightables는 구글에서 보유한 볼류메트릭 캡처 기술을 융합하여 전통적인 포토그래메트리 방식에서는 해결하지 못한 시간의 흐름에 따른 형상의 변화까지 추적하여 촬영할 수 있다는 것이 특징이다. 이를 위해서 331개의 직접 제작한 발광다이오드([[LED]], Light Emitting Diode)와 4112×3008의 고해상도를 가지는 58개의 컬러 카메라, 32개의 적외선([[IR]], Infrared Radiation) 카메라를 이용하여 60fps의 속도로 고화질 형상의 노멀맵과 텍스처, 그리고 깊이맵을 생성한다. 이렇게 만들어진 디지털 휴먼 모델은 주변 광원에 맞추어 새롭게 [[렌더링]]을 할 수 있다. 또한 실사, [[CG]]영상과 자연스럽게 합성하여 증강현실([[AR]]) 또는 가상현실([[VR]]) 환경에서 사용이 가능하다. 이러한 방식은 앞서 말한 바와 같이 사람의 형상과 색상을 최대한 정확하게 복원하는 것이 목표이기 때문에새로운 표정이나 동작을 생성하기 위해서는 다음 섹션에서 소개될 3D 모델로 변환하거나 영상을 합성하는 기술을 활용해야 한다.
 +
 
 +
*'''3D 휴먼 모델링:''' 이미 오래전부터 한 장의 얼굴 사진을 이용하여 [[3차원]] 얼굴 모델을 만들고 애니메이션([[3D 모델링]] 데이터를 움직이거나 변형시키는 것으로, 움직임을 시간대별로 기록해서 데이터를 만들어 편집하는 것)하는 기술이 많이 개발되었고 현재 서비스 중에 있지만 얼굴만으로는 실재감을 느끼기에 부족하기 때문에 최근에는 전신사진을 이용하여 애니메이션이 가능한 [[3차원]] 전신 모델을 생성하는 기술들이 소개되고 있다. 후면의 형상과 텍스처까지 [[딥러닝]] 기법을 사용하여 만들어 내며 이렇게 영상을 이용하여 3D 휴먼 모델을 생성하는 방식들은 대부분 입력 영상으로부터 사람의 자세를 유추한 후 표준화된 [[3차원]] 휴먼 모델로 해당 자세를 만들고 변형하여 [[2차원]] 영상으로 투영한 다음 텍스처를 만들어 내고, 만들어진 [[3차원]] 모델을 [[렌더링]]하여 다시 입력 영상과 비교하는 재귀적인 방식을 사용한다. 단 한 장의 영상으로 만들어내는 3D 모델은 일반적인 3D 콘텐츠에서 이용하기 좋지만 세부적인 형상이나 텍스처는 정확하게 복원하기 어려워 화질이 다소 떨어지는 단점이 있다. 하지만 실제 원격 통신 환경에서 접속 초기에 전송되는 메시와 텍스처맵, 그리고 관절 정보들을 제외하면 소량의 실시간 동작 데이터만 필요하기 때문에 최근 유행하는, [[아바타]]를 이용한 여러 명이 접속하는 가상 회의에 적합한 방식이다.
 +
 
 
{{각주}}
 
{{각주}}
  

2021년 7월 7일 (수) 11:11 판

디지털 휴먼(Digital Human)이란 사람의 신체 구조 및 움직임을 데이터화하여 분석하고, 가상공간에서 마치 실재로 존재하는 사람처럼 움직임을 재현하는 디지털 기술로 만들어졌다. 사람과 동일한 외형을 갖추고 있는 가상 인간이며, 디지털 휴먼은 단순한 지식 전달 뿐만 아니라 현실 감 있는 표정 변화와 함께'사람 감정'으로 감성 대화가 가능하다는 점이 무엇보다 가장 큰 특징으로 꼽힌다.[1]

개요

본래 디지털 휴먼 기술은 제조업 분야에서 제품의 설계 및 제조 개발 영역에서 자주 사용되었었다. 그러나 최근에는 코로나-19 바이러스의 대유행으로 비대면 및 비접촉 트렌드에 따라 비대면 휴먼이 비대면 서비스의 또 다른 대안으로 급부상하고 있으며 고객 서비스 상담, 브랜드 홍보, 컨설팅 등 디지털 휴먼의 역할이 점차적으로 다양해졌다. 2021년 2월 23일자 매일경제 기사에 따르면, 시장조사업체 가트너는 올해 전 세계 기업의 50%가 모바일 애플리케이션을 개발하기보다 디지털 휴먼 같은 가상 비서에 더 많이 투자할 것이라고 전망했다. 디지털 휴먼은 인공지능, 빅데이터 분석 기술, 클라우드, 고성능 컴퓨터 등 첨단 기술이 융합되어 사람과 거의 유사한 수준으로 발전하고 있다. 디지털 휴먼을 생성하는 기술, 디지털 휴먼이 실제 사람 및 환경과 상호작용하는 기술, 디지털 휴먼을 활용한 실감형 커뮤니케이션 서비스와 실감 콘텐츠에서의 3D 입체영상 재현 기술들이 있다. [2]


디지털휴먼(Digital Human)의 발달단계

같은 공간에서 진짜 사람처럼 생활하고 소통하기 위해서는 디지털 휴먼 영화 '엑스마키나'에 나오는 수준의 고도화된 AI 알고리즘 기반의 기술이 필요하다. 하지만 아직 이 시대의 AI기술 발전이 충분하지 않은 상태이기 때문에 디지털 휴먼을 만들기 위해서는 모든분야의 AI기술의 발전이 필요하다. 완벽한 인간이기보다 사람과 구분이 가지 않는 쌍방향 소통/대화를 어느정도 할 수 있느냐를기준을 잡았을때, 디지털휴먼의 발전 단계는 아래와 같이 4단계로 구분할 수 있다.

영화 엑스마키나 예고편


  • 1.인플루언서(Influencer): 1단계의 인플루언서 디지털 휴먼은 쌍방향 소통이 거의 없는 일방향IP기반 컨텐츠를 제공해주는 연예인, 패션 모델 같은 존재를 말한다.
디지털 셀럽 수아  
  • 2.버추얼 어시스턴트(Virtual Assistant): 2단계는 시리나 빅스비의 디지털휴먼 버전이라고 보면 된다. 호텔, 공항, 은행에서 단순한 고객 서비스(Customer Service)에 대해서 인간을 대체할 수 있는 디지털휴먼이다.
AI 김주하 아나운서  
  • 3.인텔리전트 어시스턴트(Intelligent Assistant): 3단계는 좀 더 발전해서 맞춤형으로 사람과 대화하고 요가, 언어교육 등에 대해서 코치를 해줄 수도 있는 디지털휴먼이다.
영어회화 서비스 스픽나우  
  • 4.컴패니언(Companion): 진짜 친구와 대화하는 것 같은 느낌을 받을 수 있는 수준의 자연스러운 AI가 마지막 단계의 디지털휴먼이다. 스캐터랩의 ‘이루다'가 그 역할을 시도했다고 볼 수 있다.
인공지능 기반 챗봇 이루다  

[3]

디지털 휴먼 생성 기술

디지털 휴먼을 만드는 기술은 크게 3가지로 나누어진다. 사람의 형상을 실제 공간에 차지하는 3차원 픽셀의 집합으로 만들어내는 볼류메트릭 캡처 기술, 게임 속의 3D 캐릭터처럼 애니메이션이 가능하도록 메시와 텍스처로 만드는 3D 휴먼 모델링 기술, 마지막으로 딥러닝 기술을 이용하여 임의시점 또는 새로운 표정과 자세의 사람 영상을 만들어내는 뉴럴 휴먼 렌더링 기술 등이 있다.


  • 볼류메트릭 캡처: 많은 수의 카메라를 이용하여 최대한 보이는 형태 그대로의 형상을 공간상의 3차원 픽셀 단위로 물체가 공간을 차지하는 것처럼 공간에 있는 형태와 색상을 촬영하는 방식이다. 대표적으로는 Relightables이라는 프로그램은 서던캘리포니아 대학교(USC, University of Southern California)와 구글이 공동 개발한 프로그램이며 기존 서던캘리포니아 대학교에서 보유하고 있는 Light Stage 시스템의 4번째 버전이다. 시분할 광원 시스템과능동형 깊이 카메라(depth camera)를 사용하여 기존 포토그래메트리(photogrammetry) 시스템에서 취득하는 고화질의 세부 표면 노멀(normal) 복원 방식과 유사한 수준의 픽셀 단위 노멀(표면의 3차원 방향)과 변위(표면의 높낮이 차)를 측정할 수 있으며 Relightables는 구글에서 보유한 볼류메트릭 캡처 기술을 융합하여 전통적인 포토그래메트리 방식에서는 해결하지 못한 시간의 흐름에 따른 형상의 변화까지 추적하여 촬영할 수 있다는 것이 특징이다. 이를 위해서 331개의 직접 제작한 발광다이오드(LED, Light Emitting Diode)와 4112×3008의 고해상도를 가지는 58개의 컬러 카메라, 32개의 적외선(IR, Infrared Radiation) 카메라를 이용하여 60fps의 속도로 고화질 형상의 노멀맵과 텍스처, 그리고 깊이맵을 생성한다. 이렇게 만들어진 디지털 휴먼 모델은 주변 광원에 맞추어 새롭게 렌더링을 할 수 있다. 또한 실사, CG영상과 자연스럽게 합성하여 증강현실(AR) 또는 가상현실(VR) 환경에서 사용이 가능하다. 이러한 방식은 앞서 말한 바와 같이 사람의 형상과 색상을 최대한 정확하게 복원하는 것이 목표이기 때문에새로운 표정이나 동작을 생성하기 위해서는 다음 섹션에서 소개될 3D 모델로 변환하거나 영상을 합성하는 기술을 활용해야 한다.
  • 3D 휴먼 모델링: 이미 오래전부터 한 장의 얼굴 사진을 이용하여 3차원 얼굴 모델을 만들고 애니메이션(3D 모델링 데이터를 움직이거나 변형시키는 것으로, 움직임을 시간대별로 기록해서 데이터를 만들어 편집하는 것)하는 기술이 많이 개발되었고 현재 서비스 중에 있지만 얼굴만으로는 실재감을 느끼기에 부족하기 때문에 최근에는 전신사진을 이용하여 애니메이션이 가능한 3차원 전신 모델을 생성하는 기술들이 소개되고 있다. 후면의 형상과 텍스처까지 딥러닝 기법을 사용하여 만들어 내며 이렇게 영상을 이용하여 3D 휴먼 모델을 생성하는 방식들은 대부분 입력 영상으로부터 사람의 자세를 유추한 후 표준화된 3차원 휴먼 모델로 해당 자세를 만들고 변형하여 2차원 영상으로 투영한 다음 텍스처를 만들어 내고, 만들어진 3차원 모델을 렌더링하여 다시 입력 영상과 비교하는 재귀적인 방식을 사용한다. 단 한 장의 영상으로 만들어내는 3D 모델은 일반적인 3D 콘텐츠에서 이용하기 좋지만 세부적인 형상이나 텍스처는 정확하게 복원하기 어려워 화질이 다소 떨어지는 단점이 있다. 하지만 실제 원격 통신 환경에서 접속 초기에 전송되는 메시와 텍스처맵, 그리고 관절 정보들을 제외하면 소량의 실시간 동작 데이터만 필요하기 때문에 최근 유행하는, 아바타를 이용한 여러 명이 접속하는 가상 회의에 적합한 방식이다.

각주

참고자료

같이 보기

  의견.png 이 디지털 휴먼 문서는 메타버스에 관한 토막글입니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 이 문서의 내용을 채워주세요.