인공지능 동영상
인공지능 동영상(AI Video)은 인공지능을 활용하여 동영상을 생성, 편집 및 분석하는 다양한 방법을 말한다.
[아사달] 스마트 호스팅 |
목차
발전
AI 동영상 기술의 기원은 컴퓨터 그래픽스와 애니메이션 연구에서 비롯되었다. 1980년대와 1990년대에 걸쳐 컴퓨터 그래픽스 기술이 발달하면서 CG 영화를 만드는 데 활용되었고, AI 연구는 컴퓨터 비전과 인식 기술을 발전시키기 위한 목적으로 진행되었다. 2010년대에 들어서면서 딥러닝 기술이 도입되고 GPU 성능이 급격히 향상되면서 비디오 생성과 편집 분야에도 AI가 본격적으로 활용되기 시작했다. 2010년대부터 인공지능을 활용한 영상 제작의 초기 사례는 일부 기능에 AI 기술을 접목하는 방식으로 이루어졌다. 대표적인 예로, 유튜브에서는 음성 인식을 통해 자동 자막 기능을 제공하여 사용자가 더 쉽게 콘텐츠를 소비할 수 있도록 했다. AI 기반 음성 인식은 영상의 자막을 자동으로 생성하여 청각 장애인이나 비슷한 언어 문제를 겪는 사람들에게 유용했다. 이와 같은 기술적 시도는 영상 콘텐츠 접근성을 높이며 이후 AI 기술이 영상 편집과 생성 분야에 폭넓게 활용될 가능성을 보여주었다.
특히 2014년 생성적 적대 신경망(GAN; Generative Adversarial Network)이 개발되면서 AI가 이미지와 동영상을 생성하는 기술이 크게 발전했다. GAN은 두 개의 신경망(생성자와 판별자)이 서로 경쟁하며 학습하는 방식으로, 현실감 있는 이미지와 동영상을 생성할 수 있게 되었다. 이후 딥페이크(Deepfake) 기술을 비롯하여 다양한 AI 기반 동영상 생성 기술이 등장하며 이 분야는 급속히 발전하게 된다. 2018년에는 국내 스타트업 ㈜보이저엑스(Voyagerx)에서 AI 음성 인식을 통해 자동 자막을 생성하고 이를 편집할 수 있는 소프트웨어인 브루(Vrew)를 출시했다. 브루는 사용자가 대화나 나레이션을 텍스트로 전환하여 자막을 손쉽게 수정할 수 있는 기능을 제공했다. 다만, 이 시기에는 현재와 같은 다양한 영상 편집 기능은 제공되지 않았으며, 영상의 전체적인 생성이나 편집보다는 자막 생성과 같은 제한적인 용도로 사용되었다.
AI 기반의 영상 생성은 이미지 생성 인공지능의 발전과 함께 본격화되었다. 2021년에 오픈AI(OpenAI)가 이미지 생성 모델인 달리(DALL-E)를 출시하면서 이미지 생성 AI의 성능이 크게 향상되었다. 이어서 2022년에는 달리의 후속 모델인 달리 2와 텍스트 기반 이미지 생성 오픈소스 모델인 스테이블 디퓨전(Stable Diffusion)이 공개되며, 이미지 생성 AI가 대중에게 큰 주목을 받게 되었다. 영상 제작에서 이미지는 중요한 요소이기 때문에, 이미지 생성 AI의 성장은 곧 AI 기반 영상 생성 기술의 진보로 이어졌다. 2022년에는 오픈AI의 챗GPT가 출시되면서 AI가 대중적 미디어 메타미디엄으로 자리 잡기 시작했고, 텍스트 기반으로 영상을 생성하는 다양한 저작도구들이 속속 등장했다. 이러한 AI 저작도구들은 기존의 영상 제작 방식과는 다른 접근 방식을 취하며, 영상 편집과 제작 과정의 상당 부분을 자동화하기 시작했다.[1]
원리
생성형 AI로 동영상을 제작하는 원리는 텍스트, 이미지, 비디오 등의 다양한 입력 데이터를 바탕으로 AI가 새로운 영상을 생성하는 방식이다. 이러한 동영상 생성은 주로 심층 학습(Deep Learning)과 생성적 적대 신경망 모델을 중심으로 발전해왔다. 특히 최근에는 트랜스포머와 비전-언어 모델이 결합된 다양한 알고리즘이 결합되어 사실적인 영상을 생성할 수 있게 되었다.
- 생성적 적대 신경망
GAN은 생성 모델과 판별 모델이라는 두 가지 네트워크가 서로 경쟁하는 구조이다. 생성 모델은 새로운 데이터를 만들어 내고, 판별 모델은 생성된 데이터가 진짜 데이터인지 가짜 데이터인지 구별하려 한다. 이 두 모델이 경쟁하면서 점차적으로 더 사실적인 데이터를 생성할 수 있다. 예를 들어, 이미지와 텍스트를 결합해 특정 상황을 묘사하면, GAN 기반의 생성 모델이 이를 바탕으로 장면을 생성한다. GAN 모델은 특히 디에이징, 페이스 리타겟팅(face retargeting)과 같은 복잡한 얼굴 변형 작업에 많이 사용된다.
- 트랜스포머와 TTV 모델
트랜스포머 기반 모델은 텍스트-비디오 변환(TTV, Text-to-Video)과 텍스트-이미지 변환(TTI, Text-to-Image) 생성에서 큰 성과를 내고 있다. TTV 모델은 입력된 텍스트 설명에 맞추어 짧은 비디오 클립을 생성할 수 있는데, 이 때 변환기 네트워크가 이미지와 동영상 프레임을 생성하고, 이를 연속된 형태로 이어붙이는 방식을 사용한다. 대표적인 모델로는 오픈AI의 달리, Imagen, 그리고 런웨이 젠 등이 있다. TTV 모델은 크게 두 가지 작업을 수행한다.
- 장면 생성: 주어진 텍스트 설명을 바탕으로 첫 프레임(장면)을 생성한다. 예를 들어 "초원 위를 달리는 갈색 말"이라는 텍스트 입력을 받으면 초원의 색상, 형태, 말을 생성한다.
- 프레임 간 연속성: 첫 프레임을 바탕으로 다음 프레임을 예측해 연속적인 영상으로 이어지도록 만든다. 이 과정에서 발생하는 비정상적 움직임을 줄이기 위해, AI는 프레임 간 차이를 분석하고 자연스럽게 보이도록 프레임들을 보정한다.
- ITV(Image-to-Video)와 CLIP
TTV 모델 외에도, 텍스트가 아닌 이미지에서 출발하는 ITV(Image-to-Video) 방식이 있다. 이 경우, AI는 이미지 입력을 받아 이와 일관성 있는 동영상을 생성한다. OpenAI의 CLIP 모델은 이미지의 시각적 정보를 인식하여 텍스트와 시각적 데이터를 연결하는 역할을 한다. 이 모델은 이미지의 주요 요소를 분석하고, 이에 기반해 비디오 프레임을 연속 생성한다.
- 스테이블 디퓨전 기반 모델
스테이블 디퓨전 모델은 주로 고정 이미지 생성에 사용되었으나, 이미지 간의 연속성을 고려하여 비디오 생성에 활용될 수 있다. 이 모델은 이미지의 디테일과 텍스처를 세밀하게 표현할 수 있어 고해상도의 프레임을 만들고, 이를 영상으로 변환하는 과정에서 중요한 역할을 한다. 스테이블 디퓨전은 생성된 이미지 프레임의 일관성을 높이기 위해 사전 학습된 데이터를 바탕으로 노이즈를 제거하고, 최종적으로 부드러운 영상을 만들 수 있다.
- 음성 및 자막 생성
생성형 AI 기반 영상에서 자연스러운 음성을 덧붙이기 위해 TTS(Text-to-Speech) 기술을 사용하기도 한다. 텍스트 입력에 따라 AI가 음성을 생성하여 캐릭터가 대화하는 것처럼 만들 수 있다. 이를 위해 웨이브넷(WaveNet) 같은 딥러닝 기반 음성 생성 모델이 사용되며, 자연스러운 목소리 톤과 억양을 구현할 수 있다.
- 비디오 편집 및 후처리
생성된 영상을 더욱 사실적으로 보이게 하기 위해 후처리 과정이 중요하다. AI 편집 툴은 조명, 색상 조정, 필터 등을 적용하여 영상의 질감을 더욱 현실적으로 만들 수 있다. AI 모델은 또한 캐릭터의 동작이나 카메라 앵글을 조정해 영상의 스토리텔링을 돕는다. 예를 들어, AI가 생성한 영상의 동작이 다소 부자연스러울 때, 이를 보완하는 후처리 기법들이 사용된다.
- 한계와 도전 과제
생성형 AI 영상의 가장 큰 과제는 긴 영상에서의 일관성을 유지하는 것이다. AI는 짧은 클립에서는 비교적 안정적인 결과를 내지만, 긴 영상에서는 객체나 배경의 변화가 부자연스럽게 나타날 수 있다. 또한, 복잡한 장면을 구현하는 데에 있어서 프레임 간 전환이 매끄럽지 않은 경우가 있으며, 이를 해결하기 위해 고성능의 하드웨어와 보다 정교한 알고리즘이 필요하다.
제작 툴 유형
제작 단계
텍스트 투 비디오
AI 기반의 텍스트-투-비디오 생성 도구는 크게 세 가지 유형으로 구분할 수 있다.
- 지문 생성형: 텍스트로 장면이나 연출을 설명하면 AI가 이를 영상으로 표현한다. 대표적인 도구로 런웨이 젠, 소라(Sora), 문밸리(Moonvalley), 피카(Pika), 젠모(Genmo) 등이 있다. 이 도구들은 보통 짧은 초 단위 영상을 생성하며, 소라의 경우는 1분 분량의 고화질 영상을 생성할 수 있다고 알려져 있다. 이 같은 발전은 디퓨전 모델에 트랜스포머 아키텍처를 결합하여 시공간 패치를 분해하는 기술 덕분이다. 다만, 대부분 자막이나 텍스트, 사운드 등의 부가적 요소는 생성하지 않으며, 순수하게 장면을 표현하는 영상 자체만 출력한다.
- 대사 생성형: 사용자가 입력한 텍스트를 자막이나 나레이션으로 변환해 씬을 구성하며, 해당 씬에 알맞은 이미지를 생성하거나 영상 클립을 조합하여 순차적으로 영상을 제작하는 방식이다. 이 유형은 자막과 사운드, 나레이션, 배경음악 등이 포함된 영상을 생성할 수 있다. 주요 도구로는 브루, 인비디오 AI(InVideo), 원더쉐어 필모라(Wondershare Filmora), 픽토리(Pictory) 등이 있으며, 특히 브루는 인공지능 성우의 목소리를 사용하여 정보 전달형 영상을 만드는 데 유리하다. 인비디오는 실제 촬영된 영상 클립을 활용해 감각적이고 다이내믹한 영상을 만들 수 있다. 이러한 도구들은 기존의 타임라인 방식이 아닌 텍스트 중심의 편집 인터페이스를 제공하여 영상 제작 과정을 더욱 단순화한다.
- 캐릭터 생성형: 입력한 텍스트를 가상 캐릭터가 발음하고 연기하는 영상을 생성하는 방식이다. 이 유형은 사람 형태의 3D 모델이 텍스트를 기반으로 대사를 전달하며, 대사에 맞춰 입 모양과 발음이 자연스럽게 조화된다. 대표적인 도구로 디아이디(D-ID), 딥브레인 AI(DeepBrain AI), 신디시아(Synthesia), 엘라이(Elai) 등이 있다. 이는 가상 아나운서가 정보를 전달하거나 교육용 콘텐츠를 제작하는 데 유용하며, 버추얼 휴먼 콘텐츠 창작을 가능하게 한다.[1]
이미지 투 비디오
AI 기술을 활용한 이미지 기반 동영상 생성은 크게 두 가지 유형으로 나눌 수 있다. 애니메이션 생성형과 모션그래픽 생성형이다. 이 두 가지 유형은 서로 유사한 개념을 가지고 있어 혼동될 수 있지만, 입력된 이미지와 출력 영상 간의 그래픽 요소 유무를 기준으로 구분된다.
- 애니메이션 생성형: 입력된 이미지의 내부 요소를 움직이게 하여 마치 이미지 자체에 생명을 불어넣은 것처럼 보이도록 만드는 방식이다. 이 유형은 2D 이미지를 활용하여 특정 요소에 제한적인 움직임을 부여하거나 3D 깊이감을 추가하는 방식으로 애니메이션을 생성한다. 예를 들어, 런웨이 젠2(Runway Gen-2)와 레이아픽스(LeiaPix)는 2차원 이미지를 통해 입체적 움직임을 구현할 수 있는 소프트웨어이다. 이들 소프트웨어는 비교적 간단한 인터페이스와 조작법을 제공해, 애니메이션에 대한 전문 지식이 부족한 사용자도 쉽게 이미지를 움직임이 있는 영상으로 변환할 수 있다. 애니메이션 생성형 AI의 장점은 정지된 이미지에 다이내믹한 표현을 부여해 영상 제작의 효율성을 높인다는 점이다. 그러나 영상 편집 기능이 부족해 단순한 움직임만을 제공할 뿐, 영상 길이를 자르고 편집하는 기능은 제공하지 않는다. 향후 이와 같은 기능이 추가된다면 정지된 이미지만으로도 고유의 영상 콘텐츠를 제작할 수 있게 될 것이다.
- 모션그래픽 생성형: 이미지 외부에 텍스트, 아이콘, 템플릿과 같은 추가적인 그래픽 요소를 더해 역동적인 영상을 만들어낸다. 이는 이미지 자체에 움직임을 주지 않고 이미지 전체가 동일한 좌표로 이동하거나 이미지 외부에 저장된 템플릿과 그래픽 요소를 결합하는 방식을 사용한다. 인비디오 AI, 비타(Vita), 캡컷(CapCut) 같은 소프트웨어가 이 유형의 대표적인 예로, 종합적인 영상 편집 도구 내에서 활용된다. 이러한 도구를 통해 복잡한 디자인을 손쉽게 표현할 수 있어 비전문가도 모션그래픽을 쉽게 제작할 수 있는 길을 열었다. 모션그래픽 생성형 도구는 모션그래픽의 대중화를 촉진하며, 전문가뿐만 아니라 일반 사용자도 영상 제작에 활용할 수 있게 되었다.[1]
사운드 투 비디오
사운드 기반 영상 생성 AI는 음성과 소리를 영상으로 변환하는 음성 인식형과 소리 인식형으로 나눌 수 있다.
- 음성 인식형: 음성을 분석해 텍스트로 변환하고, 이를 기반으로 자막과 영상을 생성하는 방식이다. 대표적인 예로 브루가 있으며, 어도비 프리미어 프로(Adobe Premiere Pro), 캡컷, 비타(Vita) 등 다양한 소프트웨어도 음성을 자동으로 분석하여 자막을 생성하는 기능을 제공한다. 전통적인 영상 편집 도구에서도 자막 생성 기능이 추가됨으로써, 음성 인식형 AI는 영상 제작에 필수적인 요소로 자리 잡고 있다.
- 소리 인식형: 음악이나 배경 소리 등을 시각적으로 표현하는 방식으로, 아직 초기 개발 단계에 머물러 있다. 포스텍 연구진이 개발한 사운드 투 씬 모델(Sound2Scene Model)은 이와 같은 소리 인식형 AI의 예로, 입력된 오디오를 시각적으로 변환한 뒤, 생성기를 활용해 영상을 만든다. 이러한 AI 기술은 기존의 편집 과정과 반대 순서로 영상 제작을 수행하는 특징을 가지며, 앞으로 음악이나 소리의 시각화를 통한 혼합형 미디어의 출현 가능성을 시사하고 있다.[1]
편집 단계
변형 AI
변형 AI는 영상 소스를 분석하여 특정 스타일로 변환하거나 특정 효과를 추가하는 AI로, 입력된 영상의 길이는 그대로 유지되는 반면 스타일이나 효과가 바뀐다. 변형 AI는 크게 스타일 전이, 얼굴 합성, 조절 및 보정으로 구분된다.
- 스타일 전이: 특정 스타일로 영상을 변형하는 것으로, 실사 영상을 애니메이션이나 수채화 같은 형태로 바꿀 수 있다. 이는 에브신스(EbSynth)와 케이버(Kaiber) 같은 소프트웨어에서 제공하는 기능으로, 다양한 스타일의 영상을 빠르게 만들 수 있어 특히 짧고 시각적인 쇼츠 콘텐츠에 많이 활용된다.
- 얼굴 합성: 얼굴을 교체하거나 표정을 변화시키는 기술로, 딥페이크라고도 불리며 딥페이스랩(DeepFaceLab), 페이스스왑(Faceswap), 딥스왑(Deepswap), 페이스매직(Facemagic) 등이 이 기능을 제공한다. 얼굴 합성 AI는 영화나 광고에서 특수효과를 재현하는 데 유용하지만, 사회적 논란이 있을 수 있어 적절한 법적 규제가 요구된다.
- 조절 및 보정: 리프레임, 색상 조정, 음성 보정 등을 통해 영상의 품질을 높이는 기능을 포함한다. 어도비 프리미어 프로와 캡컷 같은 소프트웨어는 이 기능을 제공하여 영상의 최종 마무리 작업에 많이 사용된다.[1]
편집 AI
편집 AI는 영상 제작에서 자동화를 통해 작업의 효율성을 높이는 역할을 하며, 크게 ➀제거, ➁추가, ➂조절 기능으로 분류될 수 있다. 이는 영상 스타일보다는 작업의 반복적인 요소를 줄여 생산성을 높이는 목적이 강하다. 각 기능을 자세히 살펴보면 다음과 같다.
- 제거 기능: 불필요한 부분을 자동으로 인식해 삭제하는 기능이다. 예를 들어, 어도비 프리미어 프로는 대화가 끊긴 부분의 공백을 자동으로 제거하고, “어”와 “음” 같은 추임새의 단어를 감지하여 삭제하는 기능을 제공한다. 이 기능은 불필요한 장면을 제거해 영상의 흐름을 개선하고, 시간 소모를 줄여주는 데 효과적이다. 캡컷에서도 유사한 방식으로 불필요한 영상 배경을 자동으로 제거해 준다. 이처럼 제거 기능은 영상 속에서 필요 없는 요소를 제거하여 후반 작업의 효율을 높인다.
- 추가 기능: 그래픽 요소나 템플릿을 자동으로 적용하는 방식이다. 이를 통해 사용자는 미리 제작된 템플릿에 입력한 소스를 넣어 빠르게 영상을 완성할 수 있다. 이 기능은 모션그래픽 생성형과 비슷하나, 차이점은 모션그래픽 생성형의 입력이 jpg, png 같은 정지 이미지라면, 편집 AI의 추가 기능은 avi, mp4 같은 동영상 파일을 대상으로 한다는 것이다. 대표적인 소프트웨어로 캡컷과 비타가 있으며, 영상 소스를 모션그래픽 템플릿에 적용하여 역동적인 영상을 쉽게 생성할 수 있어, 초보자도 모바일 애플리케이션에서 손쉽게 이용 가능하다. 이러한 편집 기능은 영상 제작의 진입장벽을 낮추는 역할을 한다.
- 조합 기능: 자동으로 영상 소스에서 필요한 컷과 불필요한 컷을 구분하여 편집하는 기능으로, 어도비 프리미어 프로의 플러그인 오토팟 및 장면 편집 감지 기능이 이에 해당한다. 이는 장면의 흐름을 자동으로 분석하여 적절한 컷을 추출하고 연결해 주는 방식으로, 영상 편집 시간과 수고를 대폭 줄여준다. 이와 같은 기능을 통해 반복 작업을 줄이고 작업의 질을 일정 수준 이상 유지할 수 있다.
편집 AI의 이러한 제거, 추가, 조합 기능은 영상 제작 과정에서 반복적으로 수행되는 작업을 자동화하여 후가공에 소요되는 시간을 줄여준다. 이를 통해 영상 제작에 필요한 인력 구성을 단순화할 수 있으며, 궁극적으로는 영상 산업 구조 자체를 간소화하는 데 기여할 수 있다.[1]
장점
동영상 생성 AI는 사용자가 제시한 텍스트 프롬프트를 기반으로 고품질의 동영상을 자동으로 생성할 수 있는 기능을 제공한다. 예를 들어, "사이버펑크 환경에서 로봇의 삶을 그린 단편 영화"라는 프롬프트를 통해 SF 영화의 한 장면 같은 영상을 생성할 수 있다. 이러한 기술은 전통적인 영상 제작 방식에 비해 비용과 시간을 대폭 절감할 수 있는 장점을 가지며, 광고 산업에서 크게 활용될 가능성이 있다. 광고 산업에서 예상되는 주요 변화를 세 가지로 정리할 수 있다.
- 비용 절감과 생산성 향상: AI를 통한 동영상 제작은 실제 배우, 촬영 장소, 장비 등을 준비할 필요 없이 고품질의 영상을 제작할 수 있어, 광고 제작 비용을 크게 줄여준다. 다양한 영상 스타일과 효과를 빠르게 적용할 수 있어 전통적인 방식보다 생산성이 크게 향상된다.
- 고도의 맞춤형 광고 제작: AI는 고객의 나이, 성별, 관심사 등 다양한 데이터를 바탕으로 맞춤형 광고 영상을 제작할 수 있다. 이를 통해 고객의 참여도를 높이고 광고 효과를 극대화할 수 있다. 예를 들어, 같은 제품이라도 시청자의 취향에 맞춰 광고 모델이나 배경이 바뀌는 식으로 개인화된 광고가 가능해질 것이다.
- 창의적 실험의 확대: AI는 비용과 시간의 부담을 줄여 창의적인 실험을 더 쉽게 가능하게 해준다. 예를 들어, 화장품 광고를 SF 영화처럼 제작하거나, 다양한 모델을 등장시키는 실험적인 광고를 시도해 볼 수 있다. 이는 새로운 형태의 광고 콘텐츠를 탄생시키며, 광고 디자인과 내러티브에도 혁신적인 변화를 가져올 것이다.[2]
활용
영화
AI 기술은 영화 제작에 활발하게 도입되어 많은 가능성을 열어가고 있다. 대표적인 예로, 영화 인디아나 존스: 운명의 다이얼에서는 80세의 해리슨 포드가 AI 기반 디에이징(De-aging) 기술을 통해 35세로 회춘하여 젊은 시절의 모습을 재현했다. 곧 개봉 예정인 히어에서도 AI 기술을 활용하여 67세의 톰 행크스를 19세로 보이도록 연출했다. 과거에 분장이나 대역을 활용해 처리했던 장면을 AI 기술로 실감 나게 구현함으로써 영화 제작 방식에 큰 변화를 가져왔다.
AI를 활용한 영화 제작 기술은 영화계에서 주목받는 흐름으로 자리 잡았다. 2023년 베니스 국제영화제에서는 AI 영화 아그로 드리프트(AGGRO DR1FT)를 초청하여 화제를 모았고, 2024년 5월 칸 국제영화제 필름마켓의 주요 주제 역시 AI 기술이었다. 현재 LA, 뉴욕, 두바이, 암스테르담 등지에서도 AI 영화제가 개최되면서 전 세계 영화계에 AI 영화가 중요한 화두로 떠오르고 있다. 대한민국 영화계에서도 이러한 변화에 발 빠르게 대응하고 있다. 한국 최초로 AI 영화 경쟁 부문을 도입한 제28회 부천국제판타스틱영화제(BIFAN)와 오는 12월 개최 예정인 부산국제인공지능영화제는 AI 영화의 가능성을 국내에서도 확대하는 계기가 될 것으로 기대된다. 문화예술계는 초기에는 생성형 AI를 잠재적 위협으로 인식했으나, 최근에는 이를 새로운 창작 도구로 받아들이며 혁신적인 변화를 모색하고 있다.
AI 영화의 가능성은 오픈AI의 TTV(Text to Video) 모델, 소라의 등장과 함께 더욱 주목받고 있다. 소라는 고화질 1분 비디오를 생성할 수 있는 기능을 제공하며, 복잡한 장면 구성과 사실적인 감정 표현도 가능하게 만들어준다. 이처럼 AI는 영상 제작의 복잡한 과정을 간소화하면서도 높은 완성도를 보장해주고 있다. 한편, 2024년 두바이 국제 AI 영화제에서 대상을 차지한 원 모어 펌킨은 생성형 AI만으로 제작된 작품으로, 순수 AI 기반의 영상 제작 가능성을 보여주었다. 이 단편 공포 영화는 단 5일 만에 무료 오픈 소스를 활용해 제작되었으며, AIFF에서 기술적 실험에 머물지 않고 주제 의식을 갖춘 예술성으로 호평을 받았다.
AI 영화 제작 과정은 감독의 프롬프트 입력과 AI의 시안 제공을 기반으로 하며, 이를 통해 무한히 다양한 가능성을 시도할 수 있다. 마이크로소프트의 코파일럿(Copilot) 플랫폼은 시나리오 분석부터 촬영 장소, 배우 추천까지 제공하여 기존의 영화 제작 인력을 대체할 수 있는 잠재력을 보이고 있다. 전통적인 반복 촬영과 달리 AI 영화에서는 감독이 머릿속 장면을 프롬프트에 담아 AI가 구현하도록 함으로써, 영화 제작 과정에서 필요한 촬영 감독이나 CG 작업자 등도 AI 기술을 활용하는 방식으로 변화하고 있다. 이로 인해 AI 영화는 실사 영화와 경쟁하기보다는 하나의 새로운 예술 장르로 자리 잡고 있으며, 향후 1~2년 내에 장편 영화 제작도 가능해질 전망이다. 물론 실사 영화와 비교해 품질 면에서는 부족할 수 있으나, AI만이 제공할 수 있는 독특한 비주얼로 관객에게 신선한 경험을 선사할 것이다. 다만, 상업적 활용을 위해서는 AI 영화의 일관성 유지, 세밀한 조작 등 여러 과제를 해결할 필요가 있다.[3]
광고
AI를 활용한 영상은 광고 산업에서도 큰 변화를 일으키고 있다. 국내에서 KB라이프생명이 배우 윤여정의 20대 모습을 AI로 구현하거나 서울우유 광고에서 배우 박은빈을 닮은 아역 모델을 AI로 생성한 것처럼, 광고 산업은 AI의 빠른 결과물 생성과 개인화된 타겟팅 능력을 적극 활용하고 있다. AI 광고는 특히 PPM 단계에서 AI로 콘티 이미지를 보여주거나 결과물 자체를 예시할 수 있어 비용 절감 효과를 누릴 수 있다. 현대자동차와 이노션이 공동 제작한 AI 기반 광고가 대표적이며, B급 감성의 유머러스한 스토리로 시청자에게 새로운 광고 경험을 제공하였다. AI 기술의 발전은 영화와 광고 산업 모두에 혁신을 불러일으키며, 비용 절감과 창의성의 확대라는 두 가지 장점을 중심으로 시장을 더욱 풍성하게 만들 가능성이 크다.[3]
주요 플랫폼
소라
소라는 오픈AI가 개발한 텍스트-비디오 모델이다. 일본어 소라(そら)에서 이름을 따왔으며, 그 이름은 무한하고 창의적인 잠재력에 대한 아이디어를 불러일으키는 모습을 묘사한다고 한다. 움직이는 물리적 세계를 이해하고 시뮬레이션하는 인공지능을 지향하며, 실세계의 상호작용이 필요한 문제 해결을 하는 모델을 목적으로 한다. 소라는 텍스트 요약 및 정보 검색을 지원하는 AI 모델로, 대량의 텍스트 데이터를 효율적으로 처리할 수 있다. 특히 뉴스 요약, 문서 분석, 학술 연구 등에서 유용하게 사용된다. 이 모델은 사용자가 입력한 질문에 대해 관련성 높은 정보를 제공하며, 긴 텍스트를 간결하고 이해하기 쉽게 요약해준다. 소라는 연구 논문 요약, 법률 문서 분석, 교육 자료 요약 등 다양한 분야에서 활용될 수 있다.
소라는 기존 동영상 생성 모델에 비해 매우 사실적인 영상을 생성하고, 자연스러운 카메라 움직임을 묘사할 수 있다. 상상 속의 장면이라도 이를 묘사하는 프롬프트를 입력하면 그 모습의 표현이 가능하다. 대상 영속성이 구현된 동영상이 생성되는데, 어떤 사물이 배경을 지나가도 사물이 배경에 특별한 영향을 끼치지 않으면 그 배경이 변하지 않는다. 입력한 이미지와 프롬프트를 토대로 한 애니메이션 생성이 가능한 것은 기본이고, 주어진 동영상의 앞뒤에 자연스럽게 이어지는 새로운 동영상을 생성할 수 있다. 사람이 그림을 그리는 동영상에는 그 그림이 더 그려지는 모습도 생성할 수 있다. 여러 개의 다른 동영상이 똑같은 장면으로 끝나게 하는 등의 연출도 가능하다. 끊기지 않는 무한 루프가 이어지는 동영상 생성도 가능하며, 주어진 동영상의 배경만을 바꿀 수 있는 등 다양한 기능을 제공한다. 두 개의 아예 다른 동영상 사이에 완벽히 이어지는 동영상을 생성할 수도 있으며, 동영상뿐만 아니라 이미지 생성도 가능하다.[4]
런웨이 젠
런웨이 젠은 미국의 생성형 AI 개발사인 런웨이 AI(Runway AI)에서 개발한 영상 제작 도구이다. 젠-1(Gen-1)은 텍스트와 이미지를 기반으로 새로운 비디오를 생성할 수 있는 AI 시스템이다. 예를 들어, 텍스트 프롬프트나 이미지의 구성을 소스 비디오에 적용하여 새로운 비디오를 생성한다. 이 모델은 초기 단계에서 주로 이미지-이미지 변환 및 비디오-비디오 변환을 통해 사용자에게 혁신적인 비디오 생성 경험을 제공하였다.[5] 젠-2(Gen-2)는 젠-1에서 발전된 형태로, 텍스트, 이미지, 비디오 클립을 사용하여 새로운 비디오를 생성하는 멀티모달 AI 시스템이다. 이 시스템은 사용자가 원하는 스타일과 구성을 반영하여 비디오를 생성할 수 있으며, 다양한 모드(텍스트-비디오, 이미지-비디오 등)를 통해 더 높은 수준의 커스터마이징을 제공한다.[6]
젠의 주요 모드는 4가지이다. 첫 번째로 텍스트-비디오 모드는 사용자가 입력한 텍스트 프롬프트만으로 비디오를 생성한다. 예를 들어, "뉴욕 시 로프트에 늦은 오후 햇살이 비치는 장면"이라는 텍스트를 입력하면 해당 장면의 비디오가 생성된다. 두 번째로 텍스트+이미지-비디오 모드는 텍스트 프롬프트와 이미지를 조합하여 비디오를 생성한다. 예를 들어, "네온사인이 있는 거리에서 걷고 있는 남자"라는 텍스트와 이미지를 사용하여 해당 장면을 비디오로 변환할 수 있다. 세 번째로 이미지-비디오 모드는 단순히 이미지를 기반으로 비디오를 생성하는 방식으로, 다양한 스타일과 변형을 통해 독창적인 비디오를 만들 수 있다. 마지막으로 스타일 변환 모드는 특정 이미지나 프롬프트의 스타일을 비디오의 모든 프레임에 적용하여 일관된 스타일의 비디오를 생성한다. 런웨이의 젠 시리즈는 사용자 친화적인 인터페이스를 제공하여 비전문가도 쉽게 사용할 수 있다. 웹 기반으로 동작하기 때문에 별도의 프로그램 설치 없이 언제 어디서나 사용할 수 있다. 런웨이는 자체 GPU를 사용하여 높은 성능을 제공하며, 이는 사용자 컴퓨터의 성능에 상관없이 고품질 비디오를 빠르게 생성할 수 있게 한다.
브루
브루는 ㈜보이저엑스가 2017년 3월에 개발한 인공지능 기술을 활용해 음성을 텍스트로 자동 변환하는 AI 영상 편집 프로그램이다. 브루는 전통적인 타임라인 기반 영상 편집에서 벗어나, 문서 편집처럼 워드 방식으로 손쉽게 영상 편집이 가능한 AI 기반 영상 편집기이다. 사용자는 텍스트를 수정하듯 간단하게 영상을 편집할 수 있다. 특히, AI 음성 인식 기능을 통해 영상을 분석하고, 자동으로 자막을 생성할 수 있다는 점에서 많은 사용자의 주목을 받았다. 사용자는 AI가 영상의 음성을 분석하여 생성한 자동 자막을 활용해 쉽게 자막 작업을 할 수 있으며, 다국어 번역 기능도 간편하게 사용할 수 있다. 자동 자막 외에도 컷편집, 무음 구간 삭제 등의 기능을 지원한다. 문서 편집처럼 글자 수정만으로 영상을 편집할 수 있으며, AI 음성 인식 기능을 통해 영상에서 자동으로 자막을 생성하는 것이 특징이다. 특히 생성형 AI 기능을 활용해 이용자는 주제를 입력하기만 하면 완성된 영상을 받아볼 수 있다. [7]
논란
- 초상권 및 저작권 침해 문제
생성형 AI는 유명인이나 특정 인물을 본떠 영상을 제작할 수 있는데, 이는 초상권 침해 논란을 불러일으킨다. 예를 들어, AI가 배우의 얼굴을 기반으로 동영상을 만들 때, 배우의 동의 없이 그들의 외모를 복제해 영상을 제작하는 것은 초상권을 침해하는 것으로 간주될 수 있다. 일부 배우들은 자신의 AI 이미지가 제작사에 의해 상업적 목적으로 사용되는 것에 불편함을 느끼고 있으며, 이러한 논란은 법적 규제가 정립되지 않은 상태에서 더욱 복잡해지고 있다. 실제로 미국 할리우드 배우와 작가들은 생성형 AI가 자신의 외모나 목소리를 무단으로 도용할 가능성에 대해 대책을 마련해 달라는 이른바 'AI 파업'을 진행하기도 했다.[8]
- 저작권 모호성
AI가 기존의 저작물을 학습해 새로운 콘텐츠를 생성할 경우, 이로 인해 원본 저작물의 저작권 침해 문제가 발생할 수 있다. 예를 들어, AI가 특정 영화나 애니메이션의 장면이나 스타일을 기반으로 영상을 생성했다면, 이 생성물의 저작권이 원작자에게 있는지, 아니면 AI 모델 개발자에게 있는지에 대한 명확한 기준이 없다. 현재 대부분의 국가에서 AI 생성물의 저작권은 모델 개발자에게 있지만, 이에 대한 반발과 논의가 계속되고 있다. 미국 저작권청에서는 AI가 생성한 콘텐츠의 저작권 등록을 제한적으로만 허용하고 있으며, EU와 일부 아시아 국가들도 이에 대한 법적 프레임워크를 고민하고 있다.
- 윤리적 문제
- 허위 정보와 딥페이크
AI로 제작된 동영상은 허위 정보 및 딥페이크 영상 문제를 야기한다. 특히 정치적 인물이나 유명인의 발언을 조작해 사실이 아닌 정보를 퍼뜨릴 때, 이로 인한 사회적 혼란이 심각할 수 있다. 생성형 AI가 만든 가짜 뉴스나 딥페이크 영상이 SNS나 인터넷에 퍼지면, 대중은 이를 진짜로 믿을 가능성이 높아진다. 예를 들어, 특정 정치인의 얼굴을 본떠 그들이 특정 발언을 하는 것처럼 보이는 영상을 제작할 경우, 이는 대중을 오도할 위험이 있다. 딥페이크 영상은 언론의 신뢰성을 위협할 뿐만 아니라, 개인의 명예와 안전에도 영향을 미칠 수 있다.
- 콘텐츠 제작자의 일자리 위협
AI 기술의 발달로 인해 전통적인 영상 제작 방식에 종사하던 사람들의 일자리가 줄어들 수 있다. 영상 편집자, CG 아티스트, 음향 전문가 등은 AI의 발달로 인해 일부 역할이 대체될 가능성이 높아지고 있다. AI를 통해 영상 제작이 점차 자동화되면서, 제작에 필요한 인력이 줄어들고 있다. 이러한 변화는 창작 생태계의 다양성을 위협할 수 있으며, 전통적인 예술가들의 생계에도 영향을 미칠 수 있다.
- 기술적 한계와 신뢰성 문제
생성형 AI가 만들어낸 영상의 품질이 아직 완벽하지 않다는 점도 문제로 지적된다. 특히 긴 영상에서는 일관성 유지가 어려워지며, 인물의 표정이나 움직임이 어색하게 표현될 수 있다. 또한 AI가 이해하지 못하는 문화적 맥락이나 상징적 요소를 제대로 반영하지 못해, 의도와 다르게 해석되는 경우도 많다. 기술적 오류로 인해 실제 영상이 의도하지 않은 방식으로 왜곡될 가능성도 존재한다. 이는 상업적 용도로 사용할 때 문제가 되며, 대중의 신뢰를 떨어뜨릴 수 있다.
- 법적, 규제적 제도 부족
생성형 AI 영상에 대한 법적 규제가 미흡한 점도 큰 문제이다. AI가 영상 제작에 사용될 때 발생할 수 있는 초상권, 저작권, 윤리적 문제에 대한 법적 기준이 마련되어 있지 않아, 이러한 영상이 범람할 경우 통제하기 어려울 수 있다. 법률 전문가들은 AI가 제작한 콘텐츠에 대한 법적 책임을 명확히 할 필요성을 주장하고 있으며, 일부 국가에서는 AI 콘텐츠에 대한 법적 규제안을 준비하고 있다. 그러나, 규제안이 실제로 시행되기까지는 시간이 걸릴 것으로 보이며, 그 동안 발생할 수 있는 피해를 방지하기 위한 대책이 필요하다.
해결과제
AI의 발전이 광고 산업과 영상 제작에 혁신을 가져올 가능성이 크지만, 인간의 창의성과 감성을 완전히 대체하기에는 한계가 존재한다. 현재 생성형 AI는 잘못된 결과물이 나오거나, 여러 번 시도해야 원하는 결과를 얻을 수 있는 경우도 많다. AI가 생성하는 콘텐츠는 때로는 기계적이고 반복적이며, 인간 특유의 감성과 뉘앙스를 완벽하게 구현하지 못하는 경향이 있다. 따라서 광고와 영상 제작 산업에서 AI와 인간의 협업 모델을 구축하는 것이 중요한 과제가 될 것이다. 이를 통해 AI를 창의적 파트너로 활용하면서, 인간의 감성과 창의성을 더한 고품질 콘텐츠를 제작할 수 있는 길이 열릴 것이다. 또한, AI 콘텐츠 제작에는 저작권과 개인정보 보호 문제 등 법적 고려도 필요하다. 그러나 AI 기술이 빠르게 발전하며 단점들을 극복해 나가는 점을 고려하면, AI와 인간의 창의적 협업을 통해 더욱 다채롭고 풍부한 영상 콘텐츠를 만들어 나갈 수 있을 것이다.[2]
전망
2024년 3월 기준 가장 주목받는 분야는 형상화 AI로, 특히 텍스트 기반으로 영상을 생성하는 소프트웨어의 출시가 화제가 되었다. 이러한 기술은 인공지능과 영상 제작이 결합된 독특한 특징을 지니며, AI 기반 영상 저작도구가 보편화되면 새로운 발상의 영상이 늘어날 것으로 기대된다. 이는 일반인도 중간 이상의 품질을 가진 영상을 제작할 수 있도록 해주며, 창작의 기회를 확대한다. 이러한 창작 기회의 확장은 비단 비전문가뿐만 아니라 실제 영상 산업에서도 실질적인 활용 가치를 제공할 수 있다. 예를 들어, 이미 AI 기능이 영화 제작에 활용되는 사례가 있으며, 사전 시각화(Previsualization) 단계에서 AI를 이용해 프로토타입 영상을 제작함으로써 제작진 간의 소통을 원활하게 하고, 촬영 효율을 높일 수 있다.
현재 전통적인 영상 편집 도구에도 AI 기반 편집 기능이 추가되어 편집 효율을 높이고 있다. 변형 AI의 조절 및 보정 기능과 편집 AI의 제거, 추가, 조합 기능이 대표적이다. 이는 영상 제작 인력의 구성 간소화를 가능하게 하며, 특히 팀 단위로 이루어지던 영상 제작 작업을 개인화할 수 있음을 시사한다. 이러한 변화는 영상 제작 인력의 부담을 덜어주는 동시에 효율성을 높인다.
향후 AI 영상 저작도구가 더욱 발전하고 보편화된다면, 영상과 증강현실, 인터랙티브 스토리텔링 등 다양한 기술을 결합해 색다른 영상 경험을 제공할 수 있을 것이다. 적은 비용으로 고품질 콘텐츠를 제작할 수 있게 되면서, 새로운 형태의 영상 콘텐츠가 활성화될 가능성이 크다.[1]
각주
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 이세희, 이진, 〈AI 기반 영상 콘텐츠 저작도구의 유형 및 동향〉, 《디지털콘텐츠학회논문지》, 2024-06
- ↑ 2.0 2.1 윤종영 교수, 〈동영상 생성형 AI는 광고 산업을 어떻게 바꿀까?〉, 《제일매거진》, 2024-05-10
- ↑ 3.0 3.1 스튜디오 프리윌루전 권한슬 감독, 〈생성형 AI기술의 확장 ‘영화와 광고 시장의 미래’〉, 《SK하이닉스뉴스룸》, 2024-08-07
- ↑ 〈소라〉, 《나무위키》
- ↑ Runway Research, 〈Gen-2: Generate novel videos with text, images or video clips〉, 《Runway》, 2023-02
- ↑ 〈ools for human imagination.〉, 《Runway》
- ↑ 김문선 기자, 〈AI 서비스 기업 ‘보이저엑스’, 300억원 규모 시리즈A 투자 유치〉, 《플래텀》, 2021-06-23
- ↑ 안재명 기자, 〈[이슈 인사이드] “AI가 저작권·초상권 침해”… 63년 만에 할리우드 작가·배우 동반 파업〉, 《법률신문》, 2023-07-22
참고자료
- 〈소라〉, 《나무위키》
- 김문선 기자, 〈AI 서비스 기업 ‘보이저엑스’, 300억원 규모 시리즈A 투자 유치〉, 《플래텀》, 2021-06-23
- Runway Research, 〈Gen-2: Generate novel videos with text, images or video clips〉, 《Runway》, 2023-02
- 〈ools for human imagination.〉, 《Runway》
- 안재명 기자, 〈[이슈 인사이드] “AI가 저작권·초상권 침해”… 63년 만에 할리우드 작가·배우 동반 파업〉, 《법률신문》, 2023-07-22
- 윤종영 교수, 〈동영상 생성형 AI는 광고 산업을 어떻게 바꿀까?〉, 《제일매거진》, 2024-05-10
- 이세희, 이진, 〈AI 기반 영상 콘텐츠 저작도구의 유형 및 동향〉, 《디지털콘텐츠학회논문지》, 2024-06
- 스튜디오 프리윌루전 권한슬 감독, 〈생성형 AI기술의 확장 ‘영화와 광고 시장의 미래’〉, 《SK하이닉스뉴스룸》, 2024-08-07
같이 보기