검수요청.png검수요청.png

"생성형 AI"의 두 판 사이의 차이

위키원
이동: 둘러보기, 검색
잔글
잔글 (디-아이디)
204번째 줄: 204번째 줄:
 
디-아이디는 다양하게 활용될 수 있다. 디-아이디의 기술은 마케팅과 광고 분야에서 혁신적인 도구로 사용되고 있다. 광고주는 정적인 이미지를 동적인 콘텐츠로 변환하여 더 큰 주목을 끌 수 있다. 예를 들어, 제품 사진이 살아 움직이며 제품의 특징을 설명하는 형태의 광고를 쉽게 제작할 수 있다. 또한 교육 분야에서도 디-아이디의 기술은 큰 잠재력을 가지고 있다. 역사적인 인물의 사진을 애니메이션으로 변환하여 학생들이 더 쉽게 이해하고 흥미를 느낄 수 있게 한다. 이는 교육 자료의 다양성을 높이고, 학습자의 참여를 유도하는 데 효과적이다.<ref>KOSEN-코센리포트, 〈[https://scienceon.kisti.re.kr/srch/selectPORSrchReport.do?cn=KOSEN000000000002341 생성형 AI 주요 이슈 및 동향 <5월 사전주제> 생성형 AI 주요 이슈 및 동향]〉, 《사이언스온》, 2023-05-17</ref> 더불어 엔터테인먼트 산업에서는 디-아이디의 기술을 이용해 영화나 게임 캐릭터의 표정을 더욱 생동감 있게 만들 수 있다. 이는 사용자 경험을 향상시키고, 더욱 몰입감 있는 콘텐츠를 제공하는 데 기여한다​.<ref name='애자일'/>
 
디-아이디는 다양하게 활용될 수 있다. 디-아이디의 기술은 마케팅과 광고 분야에서 혁신적인 도구로 사용되고 있다. 광고주는 정적인 이미지를 동적인 콘텐츠로 변환하여 더 큰 주목을 끌 수 있다. 예를 들어, 제품 사진이 살아 움직이며 제품의 특징을 설명하는 형태의 광고를 쉽게 제작할 수 있다. 또한 교육 분야에서도 디-아이디의 기술은 큰 잠재력을 가지고 있다. 역사적인 인물의 사진을 애니메이션으로 변환하여 학생들이 더 쉽게 이해하고 흥미를 느낄 수 있게 한다. 이는 교육 자료의 다양성을 높이고, 학습자의 참여를 유도하는 데 효과적이다.<ref>KOSEN-코센리포트, 〈[https://scienceon.kisti.re.kr/srch/selectPORSrchReport.do?cn=KOSEN000000000002341 생성형 AI 주요 이슈 및 동향 <5월 사전주제> 생성형 AI 주요 이슈 및 동향]〉, 《사이언스온》, 2023-05-17</ref> 더불어 엔터테인먼트 산업에서는 디-아이디의 기술을 이용해 영화나 게임 캐릭터의 표정을 더욱 생동감 있게 만들 수 있다. 이는 사용자 경험을 향상시키고, 더욱 몰입감 있는 콘텐츠를 제공하는 데 기여한다​.<ref name='애자일'/>
  
[[더 프로스트]](The Frost)는 [[디-아이디]]와 [[달리2]] 생성형 AI를 이용하여 [[웨이마크]](Waymart) 회사가 제작한 12분 짜리 [[영화]]이다. 이 영화는 AI로 인한 기후변화로 인해 인류가 극한의 추위 속에 파묻혀 고통받는 미래를 영화로 제작했다.<ref>[https://players.brightcove.net/6057955865001/XFAlB9SHg_default/index.html?videoId=6328626953112& 더 프로스트 AI 영화 감상하기]</ref>
+
[[더 프로스트]](The Frost)는 [[디-아이디]]와 [[달리2]] 생성형 AI를 이용하여 [[웨이마크]](Waymark) 회사가 제작한 12분 짜리 [[영화]]이다. 이 영화는 AI로 인한 기후변화로 인해 인류가 극한의 추위 속에 파묻혀 고통받는 미래를 영화로 제작했다.<ref>[https://players.brightcove.net/6057955865001/XFAlB9SHg_default/index.html?videoId=6328626953112& 더 프로스트 AI 영화 감상하기]</ref>
  
 
====브이캣====
 
====브이캣====

2024년 8월 4일 (일) 21:35 판

생성형 AI(generative AI) 또는 생성형 인공지능(generative artificial intelligence)은 대규모 데이터패턴을 학습하고 기존의 데이터를 활용하여 이용자의 요구에 따라 텍스트, 이미지, 비디오, 음악, 코딩 등 새로운 결과를 만들어 내는 인공지능(AI) 기술을 말한다. 누구나 쉽게 활용할 수 있도록 설계되며 다양한 영역에서 활용 가능하다.

연령, 직업에 관계 없이 생성형 AI를 활용하게 되면서 인공지능 활용이 일상화되었으며, 개인이 필요로 하는 학업 및 일하는 방식 등에 생산성과 효율성이 향상됐다. 개인뿐만 아니라 산업에서도 생성형 AI를 도입하려는 활발한 움직임이 있다.

상세

생성형 AI는 기계가 콘텐츠, 예술, 음악 등을 창작할 수 있도록 돕는 인공지능의 한 분야로, 다양한 산업에 혁신을 가져올 잠재력을 지닌 기술이다. 이 기술은 인간의 창의적 사고와 행동을 모방하는 알고리즘을 통해 독창적인 결과를 만들어내며, 기계가 입력된 정보와 학습한 패턴을 바탕으로 새로운 콘텐츠데이터를 생성할 수 있게 한다. 즉, 기존 데이터를 단순히 분석하거나 가공하는 것 이상으로, 새롭고 독창적인 콘텐츠를 창조하는 AI 방식이다. 이러한 생성형 AI 모델은 대규모 데이터 세트를 학습하여 유사한 새로운 출력을 생성한다.

생성형 AI는 1990년대 후반 등장한 '컴퓨팅 창의성'이라는 분야에서 시작되었다. 이는 컴퓨터가 시 쓰기, 음악 작곡, 예술 창작 등 인간의 지능이 필요한 창의적 작업을 수행하는 것을 말한다. 2000년대 초반 연구자들은 마르코프 체인(Markov chains)과 신경망(Neural Networks) 같은 생성 모델을 활용해 새로운 콘텐츠를 만드는 방법을 탐구하기 시작했다. 이후 머신러닝딥러닝 알고리즘의 발전으로 생성형 모델의 정확도와 품질이 크게 향상되었다.

생성형 AI를 대중에게 널리 알린 것은 오픈AI챗GPT다. 이 프로그램은 GPT-3.5 모델을 기반으로 2022년 11월에 출시되었다. GPT는 딥러닝을 통해 인간과 유사한 텍스트를 생성하는 대규모 자연어 처리 기술이다. 챗GPT는 출시 후 단 5일 만에 사용자 수 100만 명을 돌파했고, 40일 만에 1,000만 명, 두 달 만에 1억 명을 넘어섰다. 비교하자면, 애플(Apple)의 아이폰(iPhone)은 100만 명의 사용자를 확보하는 데 두 달이 넘게 걸렸고, 페이스북(Facebook)은 10개월, 넷플릭스(Netflix)는 3년이 걸렸다. 이러한 성공 덕분에 챗GPT는 괴물이라는 표현까지 듣게 되었다. 출시 후 4개월 만에 오픈AI는 새로운 대형언어모델(LLM)인 GPT-4를 출시했으며, 이 모델은 더 향상된 성능을 자랑한다. GPT-4는 사진 속 손글씨나 메모를 인식해 요청을 처리하고, PPT 자료를 생성하며, 냉장고 속 재료 사진을 통해 요리 레시피를 제공할 수 있다. 또한 변호사 자격시험에 합격하고, 미국 생물학 올림피아드에서 상위 1%에 해당하는 87점을 받을 정도로 뛰어난 성능을 보인다. 오픈AI는 GPT-4가 인간 수준의 성능을 갖추었다고 평가하며, 일반 대화에서도 인간과 거의 구분이 가지 않는 수준에 이르렀다고 밝혔다.

하지만, 챗GPT만이 생성형 AI의 대표주자는 아나다. 달리(DALL-E 2), 스테이블 디퓨전(Stable Diffusion), 미드저니(Midjourney) 같은 생성형 AI는 텍스트 설명을 기반으로 이미지를 생성할 수 있다. 스태빌리티 AI(Stability AI)의 스테이블 디퓨전은 출시 후 90일 만에 깃허브(GitHub)에서 30,000개 이상의 스타를 받았다. 또한, 2023년 5월 구글(Google)은 검색 제너레이티브 경험(Search Generative Experience)과 제미나이(구 바드) 챗봇 등을 운영할 새로운 LLM인 PaLM 2 모델을 포함한 다양한 생성형 AI 기능을 발표했다.[1]

가치사슬

생성형 AI는 하드웨어 공급업체부터 애플리케이션 개발자에 이르기까지 전체 생태계를 형성한다. 2022년부터 2023년 초까지 기술 혁신 기업들은 생성형 AI를 대규모로 출시하여 기업 리더, 투자자 및 사회 전반에 새로운 텍스트와 이미지를 생성하는 기술로 놀라움을 안겼다. 생성형 AI의 개발과 배포가 진행됨에 따라, 이 강력한 기술의 교육과 사용을 지원하는 새로운 가치사슬이 등장하고 있다. 겉보기에는 전통적인 AI의 가치사슬과 유사해 보일 수 있지만, 맥킨지&컴퍼니(McKinsey & Company)에 따르면 생성형 AI의 가치사슬은 컴퓨터 하드웨어, 클라우드 플랫폼, 파운데이션 모델(Foundation Models), 모델 허브 및 MLOps, 애플리케이션, 서비스라는 6가지 요소로 구성되며, 파운데이션 모델만이 새로 추가된 요소다. 그러나 생성형 AI 가치사슬은 매우 복잡하여 이를 제공하기 위해 많은 시간, 비용, 기술이 소요된다. 생성형 AI 가치사슬 중 애플리케이션 시장은 가장 빠르게 성장하며 큰 가치 창출 기회를 제공할 것으로 예상되며, 특정하거나 독점적인 데이터를 사용해 애플리케이션을 세밀하게 조정하는 기업은 상당한 경쟁우위를 확보할 수 있다.[1]

컴퓨터 하드웨어

생성형 AI는 콘텐츠를 생성하기 위해 방대한 지식이 필요하다. 예를 들어, 오픈AI의 GPT-3는 약 45테라바이트의 텍스트 데이터로 훈련되었다. 이러한 작업량은 수십억 개의 매개변수를 병렬로 처리할 수 있는 GPUTPU로 구성된 대규모 클러스터를 필요로 한다. 생성형 AI 모델의 훈련이 완료된 후, 기업은 대규모 클러스터를 사용해 모델을 맞춤화(조정)하고, 이러한 컴퓨팅 파워를 요구하는 모델을 애플리케이션 내에서 실행할 수 있다. 그러나 초기 훈련에 비해 이후에는 훨씬 적은 컴퓨팅 파워가 필요하다. 소규모 플레이어도 존재하지만, 이러한 특수화된 AI 프로세서의 설계와 생산은 집중화되어 있으며, 엔비디아(NVIDIA)와 구글(Google)이 칩 디자인 시장을 지배하고 있다.[1]

클라우드 플랫폼

GPU와 TPU는 비싸고 부족한 자원이기 때문에 대부분의 기업들은 대규모 AI 모델을 구축하고 조정 및 실행하는 작업을 클라우드에서 수행한다. 이를 통해 기업들은 필요에 따라 계산 능력에 쉽게 접근하고 비용을 효율적으로 관리할 수 있다. 주요 클라우드 업체들은 생성형 AI 워크로드를 실행하고 하드웨어 및 칩에 우선적으로 접근할 수 있는 가장 포괄적인 플랫폼을 제공하고 있다.[1]

파운데이션 모델

생성형 AI의 핵심은 파운데이션 모델에 있다. 파운데이션 모델은 인간의 뇌에 연결된 수십억 개의 뉴런에서 영감을 받은 확장된 인공신경망을 포함하고 있다. 이 모델은 딥러닝이라고 불리며, 신경망 내의 여러 깊은 층을 의미한다. 딥러닝은 AI의 최신 발전을 이끌어온 기술이지만, 생성형 AI 애플리케이션을 지원하는 파운데이션 모델은 딥러닝의 큰 진전을 나타낸다. 이전의 딥러닝 모델과는 달리, 매우 크고 다양한 형태의 비정형 데이터를 처리하고 여러 작업을 동시에 수행할 수 있다.

대규모 딥러닝 모델은 특정 콘텐츠 생성을 위해 사전 훈련되고, 다양한 작업을 지원하는 데 활용된다. 파운데이션 모델이 개발되면 이를 바탕으로 애플리케이션을 구축해 콘텐츠를 생성할 수 있다. 예를 들어, 오픈AI의 GPT-3와 GPT-4 같은 파운데이션 모델은 챗GPT재스퍼.ai(Jasper.ai), 카피.ai(Copy.ai) 등 여러 애플리케이션을 지원한다. 파운데이션 모델은 대량의 데이터 세트를 기반으로 훈련되며, 공개 데이터인 위키피디아(Wikipedia), 정부 사이트, 소셜 미디어, 책 등뿐만 아니라 대규모 데이터베이스의 비공개 데이터도 포함될 수 있다. 예를 들어, 오픈AI는 셔터스톡(Shutterstock)과 협력해 셔터스톡의 독점 이미지로 모델을 훈련했다. 파운데이션 모델 개발에는 데이터 준비, 목표 출력을 생성할 수 있는 모델 아키텍처 선택, 모델 훈련, 출력 개선을 위한 모델 튜닝이 포함된다. 모델 튜닝은 훈련된 모델의 출력 품질을 평가하고 이를 모델에 피드백으로 제공하여 학습을 돕는 과정이다.

오늘날 파운데이션 모델의 훈련은 반복적인 과정으로 상당한 컴퓨팅 자원을 필요로 하며, 많은 비용이 소요된다. 훈련 초반에는 일반적으로 무작위 결과가 출력되며, 원하는 정확도에 도달하기 위해 신경망의 가중치를 조정하는 훈련 알고리즘이 수백만 번 반복될 수 있다. 이 과정은 수백만 달러의 비용이 들고 수개월이 걸릴 수 있다. 예를 들어, 오픈AI의 GPT-3를 훈련하는 데는 400만~1,200만 달러가 소요된다고 추정된다. 결과적으로, 시장은 소수의 대기업과 투자받은 스타트업이 지배하고 있다. 그러나 더 작은 모델과 효율적인 훈련 방법을 개발하려는 노력이 진행 중이며, 코히어(Cohere), 앤트로픽(Anthropic), AI21 등의 스타트업이 자체 대형 언어 모델(LLM)을 구축하고 훈련하는 데 성공했다. 또한, 많은 대기업들은 더 높은 수준의 데이터 보안개인정보보호를 위해 자사 환경에서 LLM을 운영하길 원하며, 코히어와 같은 기업들은 이미 이러한 서비스를 제공하고 있다.[1]

모델 허브와 MLOps

파운데이션 모델을 활용하여 애플리케이션을 구축하려면 우선 해당 모델을 저장하고 액세스할 수 있는 공간이 필요하다. 또한, 파운데이션 모델을 애플리케이션에 적용하고 배포하기 위한 특화된 MLOps 도구와 기술이 필요하다. 여기에는 추가 훈련 데이터를 통합하고 레이블을 지정하거나, 애플리케이션이 모델과 상호작용할 수 있는 API를 구축하는 기능이 포함된다. 모델 허브는 이러한 서비스를 제공한다.

소스코드가 공개되지 않은 모델의 경우, 라이선싱 계약을 통해 모델에 액세스할 수 있는 API를 제공하며, 때로는 제공업체가 MLOps 기능을 통해 모델을 조정하고 다양한 애플리케이션에 배포할 수 있도록 지원한다. 오픈소스 모델의 경우, 다양한 서비스를 제공하는 독립적인 모델 허브가 등장하고 있다. 일부 모델 허브는 모델을 단순히 집계하는 역할을 하며, 다른 개발자들이 커스터마이징한 모델을 포함하여 다양한 파운데이션 모델에 접근할 수 있도록 한다. 이후, AI 팀은 모델을 서버다운로드하고 세부 조정을 거쳐 애플리케이션에 배포할 수 있다. 반면, 허깅페이스(Hugging Face)나 아마존웹서비스(AWS)와 같은 모델 허브는 모델에 접근할 수 있을 뿐만 아니라, 독점 데이터를 활용하여 파운데이션 모델을 조정하고 애플리케이션에 배포하는 전문 지식을 포함한 전체적인 MLOps 기능을 제공한다. 이러한 모델 허브는 생성형 AI를 활용하려는 기업에게 내부 인재와 인프라가 부족할 때 큰 도움을 준다. 예를 들어, 아마존은 AWS 사용자가 앤트로픽(Anthropic)의 클로드(Claude)와 스태빌리티(Stability)의 스테이블 디퓨전(Stable Diffusion) 등의 다양한 모델을 활용할 수 있는 새로운 서비스인 베드록(Bedrock)을 소개하였으며, 월스트리트저널은 아마존(Amazon)이 비즈니스를 AI와 통합하려는 회사가 가장 적합한 솔루션을 선택하고 활용할 수 있는 중립 플랫폼을 표방하고 있다고 언급했다.[1]

애플리케이션

하나의 파운데이션 모델은 다양한 작업을 수행할 수 있지만, 이를 활용해 구축된 애플리케이션은 특정 작업을 처리하도록 설계된다. 예를 들어, 서비스 문제를 해결하거나 마케팅 이메일 작성을 지원하는 작업이 있을 수 있다. 미국의 벤처캐피털 업체인 세콰이어 캐피탈(Sequoia Capital)이 정의한 생성형 AI 애플리케이션의 분류를 보면, 텍스트(마케팅, 세일즈, 지식, 작문, 기타), 동영상(영상 편집, 맞춤형 영상), 이미지(생성, 소셜 미디어, 광고, 디자인), 코딩 개발(코드 생성, 문서 작성, 웹 제작, 데이터 처리), 3D(모델링, 영상 제작), 기타(작곡, 오디오, 연구) 등으로 나뉘어 서비스가 활발히 진행되고 있다.

일반적으로 생성형 AI 애플리케이션은 두 가지 범주로 나눌 수 있다. 첫째는 파운데이션 모델을 거의 그대로 사용하며, 특정 사용자 인터페이스를 생성하거나 고객의 요청을 더 잘 이해할 수 있도록 문서에 가이드 및 검색 인덱스를 추가하는 등의 맞춤화 작업을 수행하는 경우이다. 둘째는 파인튜닝(Fine-tuning)된 파운데이션 모델을 활용하여 추가적인 특화 데이터가 제공되거나 매개변수가 조정된 모델로 특정 사용 사례에 맞춘 결과물을 생성하는 경우이다. 예를 들어, 법적 질문에 답변하기 위해 개발된 하베이(Harvey)는 GPT-3에 법적 데이터 세트를 입력하고 다양한 프롬프트를 테스트하여 조정된 모델이 원래 모델보다 훨씬 우수한 법적 문서를 생성할 수 있었다. 또한, 은행을 위해 조정된 생성형 AI 챗봇은 고객과 협력하여 콜 센터 채팅 데이터를 통합하고 고객 경험을 지속적으로 향상시킬 수 있었다. 이처럼 생성형 AI 시장의 초기 단계에서는 특정 산업 및 기능을 위해 미세 조정된 모델로 구축된 애플리케이션이 더 큰 가치를 제공할 것으로 예상된다.[1]

서비스

생성형 AI의 활용을 위한 서비스 및 전문 지식이 제공된다. 기존 AI 서비스 제공업체들은 생성형 AI 시장을 위한 서비스를 발전시킬 것이며, 특정 기능(예: 고객 서비스 워크플로우), 산업(예: 제약), 그리고 다양한 맥락에서 효과적인 루프 구축 방법 등에서 생성형 AI를 적용하기 위한 특화된 지식을 가진 업체들도 시장에 등장할 것으로 예상된다.[1]

비즈니스 활용

생성형 AI는 인공지능의 중요한 진화로, 인간이 프로그래밍 언어가 아닌 자연어를 사용하여 컴퓨터와 소통하는 방식을 향상시킨다. 기업들이 생성형 AI의 적용과 구현을 서두르는 가운데, 이 기술이 경제와 사회 전반에 미칠 영향력은 상당할 것으로 보인다. 생성형 AI는 자동화, 혁신, 개인화에 대한 새로운 기회를 열어주며, 비용 절감과 고객 경험 개선을 통해 비즈니스를 변화시킬 잠재력을 가진다.

맥킨지의 연구에 따르면, 16개 비즈니스 기능에서 63개 사용 사례를 분석한 결과, 생성형 AI는 생산성 향상(비용 절감 포함)으로 인해 세계 경제에 연간 2.6조 달러에서 4.4조 달러의 가치를 창출할 수 있다고 추정되었다. 이는 2021년 영국의 GDP가 약 3.1조 달러였던 것과 비교할 때 큰 규모이다. 생성형 AI는 인공지능의 전체 영향력을 15%에서 40%까지 증가시킬 수 있으며, 추가적인 기능에 생성형 AI를 적용하면 이 수치는 두 배로 증가할 것으로 예상된다.

특히, 판매/마케팅, 고객 운영, 소프트웨어 개발, 연구/개발의 네 가지 기능은 생성형 AI가 제공할 수 있는 총 가치의 75%를 차지하며, 이들 기능의 역할을 변화시키고 성능을 향상시킬 것으로 예측된다. 전통적인 인공지능인 고급 분석 및 머신러닝 알고리즘은 주로 예측 모델링과 숫자 최적화 작업에 효과적이며 다양한 산업에서 새로운 응용 분야를 발견하고 있다. 그러나 생성형 AI는 발전하면서 창의성과 혁신 측면에서 완전히 새로운 지평을 열 가능성이 있으며, 기존 전통적 AI의 가능성을 확장시키고 있다. 생성형 AI는 자연어를 이해하고 인지적인 작업을 수행하도록 설계되어 지식 업무에 큰 영향을 미치며, 자동화 잠재력이 낮았던 의사 결정과 협업 관련 업무의 생산성에도 큰 변화를 가져올 것이다.[2]

고객 운영

생성형 AI는 디지털 셀프서비스를 통해 고객 경험과 에이전트의 생산성을 향상시키며, 고객 업무 전반을 혁신할 잠재력을 지니고 있다. 이 기술은 자연어를 사용하여 고객과의 상호작용을 자동화할 수 있어 고객 서비스 분야에서 이미 큰 인기를 끌고 있다. 예를 들어, 5,000명 이상의 고객 서비스 상담원을 보유한 한 기업에서 생성형 AI를 도입한 결과, 시간당 문제 해결률이 14% 증가하고 문제 해결 시간이 9% 단축되었으며, 상담원 이탈률과 관리자와의 대화 요청이 각각 25% 감소했다. 특히, 경험이 부족한 상담원들의 생산성과 서비스 품질이 크게 향상된 이유는 AI가 높은 기술을 가진 동료들과 유사한 수준의 기술로 고객과 소통할 수 있도록 지원했기 때문이다. 세일즈포스(Salesforce), 다이얼패드(Dialpad), 에이다(Ada) 등은 이미 고객 서비스 분야에서 생성형 AI를 활용한 솔루션을 발표했다.

  • 고객 서비스 : 생성형 AI 챗봇은 언어나 고객의 위치에 관계없이 즉각적이고 개인화된 응답을 제공하며, 높은 비율의 고객 문의를 자동화하여 처리할 수 있다.
  • 최초 대응에서 해결 : 기업이 보유한 특정 고객 데이터를 신속하게 검색하여, 담당자가 초기 대응 중에 문제를 해결할 수 있도록 돕는다.
  • 매출 증대 : 고객 및 고객의 브라우저 데이터를 신속히 처리하여, 고객의 선호에 맞는 제품을 제안할 수 있으며, 고객 대화 기반의 통찰력을 통해 에이전트 코칭을 강화할 수 있다.[2]

마케팅 및 영업

생성형 AI는 텍스트 기반의 의사소통과 대규모 맞춤화가 필요한 마케팅 및 영업 분야에서 빠르게 확산되고 있다. 이 기술은 개별 고객의 관심사, 선호도, 행동에 맞춰 개인화된 메시지를 생성할 수 있으며, 브랜드 광고, 헤드라인, 슬로건, 소셜 미디어 게시물, 제품 설명 등의 초안을 작성하는 데에도 유용하다. 또한, 생성형 AI는 B2BB2C 기업의 영업 방식을 변화시킬 수 있다. 그러나 마케팅 기능에 생성형 AI를 도입할 때는 신중한 고려가 필요하다. 저작권 침해 및 브랜드 인식 위험에 대한 충분한 보호장치 없이 공개된 데이터로 훈련된 모델은 지적 재산권을 침해할 수 있으며, 기업의 필요에 맞는 전략적 접근이 요구된다.

마케팅
  • 효율적인 콘텐츠 생성 : 아이디어 발전과 콘텐츠 초안 작성 시간을 단축할 수 있으며, 다양한 고객 세그먼트, 지역, 인구 특성에 맞춤화된 마케팅 메시지를 생성할 수 있다. 이메일 캠페인의 경우, 대상 그룹에 따라 다른 이미지와 메시지를 적용하거나 다국어로 번역하여 고객의 가치, 유인, 전환 및 유지를 확대할 수 있다.
  • 데이터 활용 강화 : 영역별 성과, 고객 피드백/행동, 소셜 미디어 등 비정형 데이터를 효과적으로 활용하여 트렌드와 시장 기회를 식별하고 종합할 수 있으며, 데이터 기반의 전략과 캠페인 생성에 도움을 준다.
  • SEO 최적화 : 페이지 제목, 이미지 태그, URL검색엔진 최적화를 통해 낮은 비용으로 더 높은 전환율을 달성할 수 있다.
  • 제품 발견 및 검색 맞춤화 : 텍스트, 이미지, 음성 등의 멀티모달 입력과 고객 이해를 통해 검색 맞춤화가 가능하다. 개인의 선호도와 구매 이력을 활용하여 고객 맞춤형 제품 발견 및 설명 생성을 지원하며, 여행 및 소매업체 등은 웹사이트 전환율을 높여 전자상거래 매출을 향상시킬 수 있다.
영업
  • 판매 확률 향상 : 정형 및 비정형 데이터를 활용하여 종합적인 고객 프로필을 작성하고, 고객의 선호도에 대한 더 나은 정보를 제공함으로써 판매 기회를 확대할 수 있다.
  • 리드 개발 개선 : 제품 판매 정보와 고객 프로필을 통합하고, 고객과의 대화에 유리한 스크립트를 생성하여 관계를 개선하고 업셀링 및 크로스셀링을 촉진할 수 있다. 또한, 영업 후속 조치를 자동화하고 선제적인 리드 육성을 지원하여 효율성을 높일 수 있다.[2]

소프트웨어 엔지니어링

컴퓨터 언어를 다른 언어와 동일하게 다룬다면 소프트웨어 엔지니어링에 대한 새로운 가능성이 열릴 수 있다. 소프트웨어 엔지니어는 생성형 AI를 활용하여 페어 프로그래밍을 진행하고, 코딩을 보강하며, 대형 언어 모델(LLM)을 훈련시켜 코드 동작을 설명하는 프롬프트를 입력할 때 코드를 생성하는 애플리케이션을 개발할 수 있다. 소프트웨어 엔지니어링은 대부분의 기업에서 중요한 역할을 하며, 기술 기업뿐만 아니라 다양한 대규모 회사들이 자사의 제품 및 서비스에 소프트웨어를 통합하면서 성장을 도모하고 있다. 예를 들어, 최신 차량의 많은 혁신적인 기능은 적응형 크루즈 컨트롤, 주차 보조 및 사물인터넷(IoT) 연결 등 디지털 기능에서 비롯된다.

생성형 AI는 코드 초안 생성, 코드 수정 및 리팩토링, 근본 원인 분석, 새로운 시스템 설계 생성 등의 활동을 지원하여 코딩 프로세스를 가속화한다. 이로 인해 소프트웨어 엔지니어링에 필요한 기술과 능력은 코드 작성 및 아키텍처 설계에 더 효과적으로 적용될 수 있다. 마이크로소프트(Microsoft)의 깃허브 코파일럿 (GitHub Copilot)을 활용한 소프트웨어 개발자들은 사용하지 않은 개발자들에 비해 작업을 56% 더 빠르게 완료했다는 연구 결과도 있다.[2]

제품 연구/개발

생명 과학 및 화학 산업에서는 생성형 AI의 파운데이션 모델을 제너레이티브 디자인(설계)이라는 R&D 과정에 적용하기 시작했다. 이 기술은 후보 분자를 생성하여 새로운 약물과 재료 개발 프로세스를 가속화할 수 있다. 예를 들어, 엔토스(Entos)라는 생명공학 제약회사는 생성형 AI와 자동 합성 개발 도구를 결합하여 소분자 치료제를 설계하고 있다. 이러한 기술 원리는 대형 물리 제품이나 전기회로 등의 제품 설계에도 적용될 수 있다. 제너레이티브 디자인 기술은 R&D에서 AI의 잠재력을 열어주지만, 비용과 데이터 요구 사항 때문에 전통적인 머신러닝 사용에 비해 적용이 제한될 수 있다. 생성형 AI를 기반으로 한 사전 훈련된 파운데이션 모델이나 미세 조정된 모델은 단일 작업에 최적화된 기존 모델보다 훨씬 더 광범위한 응용 분야를 가지고 있다. 이를 통해 시장 출시 시간을 단축하고 제너레이티브 디자인을 적용할 수 있는 제품 대상을 확대할 수 있으며, 후보 디자인의 신속한 생성과 설계 자체의 개선이 가능하다. 그러나 현재 파운데이션 모델은 모든 산업 분야의 제품 설계를 지원하기에는 부족한 상황이다.

  • 향상된 디자인 : 생성형 AI는 재료를 더 효율적으로 선택하여 비용을 절감하고, 제조를 위한 디자인을 최적화하여 물류 및 생산 비용을 줄일 수 있다. 예를 들어, 강화 학습을 통해 반도체 칩 디자인의 부품 배치를 최적화하고, 제품 개발 주기를 몇 주에서 몇 시간으로 단축할 수 있다.
  • 제품 테스트 및 품질 개선 : 생성형 AI를 제너레이티브 디자인에 활용하면 더 높은 품질의 제품을 생산하고 시장 매력도를 높일 수 있다. 또한, 복잡한 시스템 테스트 시간을 줄이고, 시나리오 초안 작성 및 테스트 후보의 프로파일링 기능을 통해 고객 테스트와 관련된 트라이얼 단계를 효율화할 수 있다.[2]

적용 산업

생성형 AI는 의료, 금융, 교육, 로봇 공학 등 다양한 산업에서 혁신적인 변화를 일으키고 있으며, 각 분야에서 광범위한 잠재적 사용 사례를 만들어내고 있다. 의료 분야에서 생성형 AI는 의료 영상 분석과 진단을 보조하여 질병을 조기에 발견하고 정확한 진단을 지원한다. 신약 개발에서 화합물 구조를 예측하고 후보 물질을 생성하여 신약의 효능과 안전성을 빠르게 평가하는 데 도움을 준다. 또한, 개인 맞춤형 치료 계획을 통해 환자의 유전자 정보와 의료 기록을 분석하여 치료 효과를 높이고 부작용을 줄인다. 금융 산업에서 생성형 AI는 데이터 분석과 예측을 통해 시장 동향을 예측하고 투자 전략을 수립하는 데 활용된다. 금융 데이터를 분석하여 고객의 금융 행동을 이해하고 맞춤형 금융 상품을 개발하며, 거래 패턴을 분석하여 사기 행위를 예방하고 금융 보안을 강화한다. 개인 맞춤형 재정 계획과 투자 조언을 제공하여 고객의 재정 상태와 목표에 맞춘 서비스를 제공한다.

교육 분야에서는 생성형 AI가 대화형 학습 경험을 제공하고, 학습자의 수준에 맞춘 피드백과 도움을 통해 학습 효과를 높인다. 학습자의 성향과 목표에 기반하여 개인 맞춤형 학습 계획을 생성하고, 필요에 맞춘 자료를 자동으로 제공하여 학습의 효율성을 극대화한다. 로봇 공학에서 생성형 AI는 로봇의 환경 적응과 학습을 지원하여 복잡한 작업을 수행할 수 있게 한다. 또한, 인간과 자연스럽게 상호 작용할 수 있도록 하여 고객 서비스나 가정용 로봇에서 보다 자연스러운 대화를 가능하게 한다. 이와 같이 생성형 AI는 다양한 산업에서 효율성을 높이고 혁신을 주도하며, 맞춤형이고 적응력 있는 솔루션을 제공하는 데 중요한 역할을 하고 있다.[2]

미디어 및 엔터테인먼트

미디어 및 엔터테인먼트 업종은 2022년에 23억 달러의 매출로 전체 시장에서 22.7%의 점유율을 차지했으며, 2023년부터 2030년까지 연평균 34.7% 성장할 것으로 예상된다. 생성형 AI의 채택이 증가하면서 광고 캠페인과 마케팅 측면에서도 혁신이 일어나고 있다. 생성형 AI를 활용하면 특정 청중에 맞춘 개인화된 콘텐츠를 제작할 수 있다. 예를 들어, 미국의 인터넷 미디어 기업 버즈피드(BuzzFeed)는 2023년 1월에 오픈AI챗GPT를 이용하여 퀴즈 응시자에게 맞춤형 결과를 제공하는 AI 기반 퀴즈를 선보였다. 또한, 가상 창조와 고화질 그래픽에 대한 수요가 커짐에 따라, 생성형 AI를 통해 비디오 게임과 가상현실 체험 같은 새로운 형태의 양방향 미디어가 만들어질 수 있다.[2]

금융

금융 업종은 2023년부터 2030년까지 연평균 성장률 38.1%로 가장 빠른 성장이 예상된다. 이 성장은 부정행위 방지, 데이터 보호, 다양한 이해관계자의 요구를 충족하기 위해 AI와 기계학습의 도입이 증가하고, 핀테크 부문에 대한 투자와 고객 관계 관리가 확대되고 있기 때문이다. 생성형 AI는 은행의 운영 효율성을 향상시킬 수 있으며, 위험 관리에 필요한 보고서 작성, 규제 동향 모니터링, 데이터 수집 등을 자동화하는 데 도움을 준다. 대량의 데이터를 분석하고 패턴과 이상을 식별함으로써 사기 행위를 효과적으로 감지하고 예방할 수 있다. 또한, 생성형 AI는 프론트라인 가상 전문가 개발을 지원하며, 모건스탠리(Morgan Stanley)는 GPT-4를 활용해 자산 관리자들이 내부 지식에서 빠르게 답을 찾고 맞춤화할 수 있는 AI 어시스턴트를 개발하고 있다. 유럽의 한 은행은 생성형 AI를 사용하여 비정형 정보를 가진 문서에서 데이터를 합성 및 추출하는 ESG 가상 전문가를 개발했으며, 이 모델은 복잡한 질문에 답하고 답변의 출처를 식별하며 사진과 표에서 정보를 추출할 수 있다.[2]

기타

하이테크 분야에서는 생성형 AI를 통해 소프트웨어 개발의 속도와 효율성을 크게 높일 수 있다. 제약 및 의료 분야에서는 생성형 AI를 활용하여 약물 개발의 초기 단계에서 효과적인 화학 물질을 자동으로 선별하고, 시험 약물에 대한 새로운 표적을 식별하며, 연구 개발의 속도와 품질을 개선할 수 있다. 소매 및 소비재 분야에서는 생성형 AI를 통해 고객 맞춤형 경험을 혁신할 수 있으며, 예를 들어, 스티치 픽스는 DALL·E를 사용하여 고객의 색상, 원단, 스타일 선호에 맞는 의류를 시각화하고 재고에서 유사한 제품을 찾아 매핑하여 고객의 쇼핑 경험을 개선하고 있다.[2]

주요 회사

국외

전 세계 생성형 AI 시장은 마이크로소프트(Microsoft Corporation), 아마존 웹 서비스(Amazon Web Services), 구글(Google LLC), 어도비(Adobe), 메타(Meta), D-ID, 제니 AI(Genie AI), 신디시아(Synthesia), 모스틀리 AI(MOSTLY AI), 리프레이즈.ai(Rephrase.ai), 삼성전자(Samsung Electronics), IBM, 인텔(Intel Corporation), 지멘스(Siemens), 세일즈포스(Salesforce), 엔비디아(NVIDIA), SAP, SAS 인스티튜트(SAS Institute)와 같은 주요 플레이어들에 의해 주도된다. 주요 기업들은 시장 침투력을 높이고 산업 내에서의 위치를 강화하기 위해 다양한 전략을 채택하고 새로운 제품 개발과 협력에 주력하고 있다. 예를 들어, 2023년 4월 마이크로소프트는 미국의 의료 소프트웨어 기업인 에픽시스템즈(Epic Systems)와 협력하여 대형 언어 모델(LLM) 도구와 인공지능을 에픽의 전자 건강기록 소프트웨어에 통합하고, 의료 기업의 생산성 향상 및 행정적 부담을 지원하고 있다.

클라우드가 AI 지원 플랫폼으로 진화하면서 생성형 AI를 둘러싼 경쟁이 글로벌 빅테크 기업으로 확대되고 있다. 마이크로소프트는 2023년 초 오픈AI에 100억 달러를 투자하고, 자체 검색 플랫폼인 (Bing)에 챗GPT(GPT-3.5 적용)를 접목해 챗봇형 검색을 유도하면서 구글 독주 체제인 글로벌 검색 시장에 도전장을 내밀었다. 또한, GPT-4 출시에 맞춰 애저 오픈AI 서비스(Azure OpenAI Service)에 챗GPT 프리뷰를 추가하고, 마이크로소프트 코파일럿을 공개하며 대형 언어 모델(LLM)과 비즈니스 데이터, 마이크로소프트 365 을 결합하는 의미를 두고 있다. 마이크로소프트는 애저(Azure) 기반으로 기업용 프라이빗 챗GPT 구축을 위해 오픈AI와 협력하면서 점차 클라우드 시장의 점유율을 높일 것으로 예상된다.

구글은 2023년 2월 자체 초거대 언어 AI 모델인 람다(LaMDA)를 기반으로 대화형 AI인 바드(Bard, 현 제미나이)를 선보였다. 바드의 매개변수는 1,370억 개로 상당한 규모를 자랑했으나, 오답을 내놓으면서 당시 구글의 모회사인 알파벳(Alphabet)의 주가는 7% 넘게 하락하기도 했다. 이후 팜2(PaLM2) LLM 모델을 기반으로 고도화한 바드를 일반에 공개하며 GPT처럼 학습을 통해 AI 인프라를 키우는 전략을 내세우고 있다. 또한, 구글은 AI 챗봇 서비스인 클로드 2(Claude)를 출시한 엔스로픽(Anthropic)에 4억 달러를 투자하며, 오픈AI의 창립 멤버들이 설립한 스타트업이라는 점에서 기회 요소를 찾고 있다.

아마존 웹 서비스는 2023년 6월 고객의 생성형 AI 솔루션 구축을 지원하는 AWS 생성 AI 혁신 센터를 출시하고 1억 달러를 투자하여 AI 관련 서비스 및 프로그램을 확대한다고 발표했다.

메타는 자체 언어 모델인 라마(LLaMa)를 블로그를 통해 오픈소스로 공개했으며, 매개변수를 70억 개, 130억 개, 330억 개, 650억 개로 세분화하고, 상대적으로 작은 규모이지만 보다 전문적인 영역으로 서비스를 확대할 수 있다는 점을 강조하고 있다. 또한, 인스타그램모바일] 메신저 왓츠앱, 페이스북 메신저에도 사람처럼 답하는 AI 챗봇을 탑재할 계획이다.

메타버스 기술을 주도했던 엔비디아는 기술 인프라를 바탕으로 생성형 AI에 드라이브를 걸고 있다. 엔비디아는 엔비디아 AI 파운데이션을 통해 GPU를 비롯한 컴퓨팅 자원과 여러 LLM, 파운데이션 모델을 활용할 수 있는 플랫폼을 클라우드 서비스 형태로 제공할 계획이다. 엔비디아가 제공하는 파운데이션 모델을 미세 조정하여 독자적인 LLM을 개발하거나 이 기술을 활용한 다양한 애플리케이션을 만들 수 있으며, 자체 파운데이션 모델을 개발할 기술력과 시간이 부족한 기업들에게 인프라를 제공할 수 있다. 현재 사용 가능한 주요 파운데이션 모델은 엔비디아의 대화형 AI 모델 네모(NeMo), 이미지 생성 모델 피카소(Picasso), 바이오 분야에 특화된 바이오네모(BioNeMo) 세 가지이다.

어도비는 엔비디아와의 협력을 바탕으로 생성형 AI 애플리케이션 파이어플라이(Firefly)를 출시한다. 파이어플라이는 엔비디아의 피카소를 통해 출시되며, 사용자는 어도비의 이미지 편집 도구에서 텍스트로 이미지를 쉽게 만들어내거나 동영상 편집 도구 프리미어 프로에서 생성 이미지를 활용한 영상을 제작할 수 있다.[2]

국내

한국 ICT 기업들도 생성형 AI 시장의 경쟁에 본격적으로 뛰어들고 있다. 네이버는 자체 개발한 대형 언어 모델 하이퍼클로바(HyperCLOVA)를 통해 한국 시장에서의 자신감을 내비쳤으며, 오픈AI챗GPT보다 더 많은 한국어 데이터를 기반으로 특화된 서비스를 제공할 수 있다. 네이버는 GPT-4에 대응할 수 있는 모델인 하이퍼클로바X를 공개할 예정이며, 이 모델은 검색, 쇼핑, 로컬, 광고 등 네이버의 모든 서비스와 결합하여 시너지를 낼 전망이다.

카카오는 GPT-3 기술을 참고해 자체 개발한 언어 모델 'Ko-GPT'와 이미지 생성 모델 칼로(Karlo)를 보유하고 있다. 최근에는 학습량을 기존 대비 2배 이상 늘린 '칼로 2.0'을 공개했으며, 이 모델은 사용자 명령을 더 잘 이해하고 높은 해상도의 그림을 3초 만에 생성할 수 있다. 카카오는 자회사인 카카오브레인을 통해 언어 모델을 고도화하고 한국어에 특화된 Ko-GPT 2.0을 출시할 계획이다.

LG는 2023년 7월에 AI 연구원 중심으로 개발된 생성형 AI 모델 '엑사원(EXAONE) 2.0'을 공개했다. 엑사원 2.0은 멀티 모달 AI로, 범용 서비스보다는 연구원 및 개발자를 지원하는 기능을 갖추고 있다. 엑사원 2.0은 2021년 출시한 엑사원의 학습 데이터를 4배로 늘리고, 약 4,500만 건의 전문 문헌과 3억 5,000만 장의 이미지를 학습하여 성능을 끌어올렸다. 이 모델은 고객사의 요청에 맞게 최적화할 수 있으며, 전문가를 위한 대화형 AI 플랫폼 유니버스(Universe), 소재·신물질·신약 관련 탐색에 적합한 AI 플랫폼 디스커버리(Discovery), 이미지를 언어로 표현하고 언어를 이미지로 시각화할 수 있는 멀티 모달 AI 플랫폼 아틀리에(Atelier)를 소개했다.

KT는 2023년 3분기 내에 생성형 AI 모델 ‘믿음(MIDEUM)’을 출시할 계획이며, 인프라 구축부터 응용 서비스까지 모두 지원하는 AI 풀 스택을 강조하고 있다.

삼성SDS삼성전자의 자체 생성형 AI를 함께 개발하고 있으며, 기업에 특화된 고객 가치 기반의 생성형 AI 플랫폼 서비스를 연내에 출시할 예정이다. 삼성SDS는 빅데이터 분석 및 업무 자동화 도구 등을 통해 내부 자산의 외부 유출 없이 업무에 활용하는 기술을 보유하고 있으며, MSP 경험으로 축적된 업종 전문 지식과 삼성 클라우드 플랫폼(SCP)을 기반으로 높은 보안성을 보장할 수 있는 생성형 AI 서비스를 준비하고 있다.

LG CNS한국 마이크로소프트애저(Azure) 오픈AI 서비스 사업을 위한 협력 방안을 합의하고, 챗GPT 기반의 신규 서비스 개발에 나설 예정이다.

SK C&C는 2023년 3월 네이버 클라우드와 초거대 AI 기반 B2B 사업 확장 협력 MOU를 체결한 이후 금융 분야를 시작으로 공공 및 엔터프라이즈 전반에 걸쳐 초거대 AI 서비스 개발 및 확산에 나서고 있다.

이처럼 국내 IT 서비스 3사는 기업이 챗GPT와 같은 생성형 AI를 사용할 경우, 기업 데이터를 학습에 활용할 가능성이 높기 때문에 데이터 유출 걱정 없는 기업용 생성형 AI 서비스 개발에 집중하고 있다.[2]

사례

텍스트

챗GPT

챗GPT(Chat GPT)

챗GPT(Chat GPT)는 오픈AI(OpenAI)가 개발한 프로토타입 대화형 인공지챗봇이다. 챗GPT는 대형 언어 모델 GPT-3의 개선판인 GPT-3.5를 기반으로 만들어졌으며, 지도학습과 강화학습을 모두 사용해 파인 튜닝되었다. 챗GPT는 Generative Pre-trained Transformer(GPT)와 Chat의 합성어이다. 챗GPT는 2022년 11월 프로토타입으로 시작되었으며, 다양한 지식 분야에서 자세한 답과 자세한 답으로 자세하게 자세히 주목 받았다. 다만, 지식의 맞춤도는 중요한 정보으로 지적되고 있다. 챗GPT는 인간과 유사한 글자를 생성하는 뛰어난 기능을 입증했지만 훈련 데이터에 존재하는 편견을 쉽게 상속하고 증폭할 수 있다. 이는 인종, 성별, 언어 문화 집단에 따른 다양한 견해와 태도 등 다양한 인구통계에 대한 허위 진술이나 부당한 태도로 나타날 수 있다.[3]

생성형 AI는 대규모 데이터에서 학습하여 새로운 콘텐츠를 생성하는 능력을 가지며, 챗GPT는 특히 자연어 처리와 대화 생성에서 두각을 나타낸다. 챗GPT는 2022년 11월에 출시된 이후, 다양한 분야에서 빠르게 도입되었다. 초기에는 그 활용이 주로 텍스트 기반의 대화나 질문 응답 시스템에 집중되었으나, 현재는 교육, 의료, 공공 서비스 등 다양한 분야에서 사용되고 있다. 예를 들어, 행정안전부는 공공부문에서 챗GPT를 효과적으로 활용하기 위한 가이드라인을 배포하였다​.[4] 챗GPT의 기술적 기반은 GPT(Generative Pre-trained Transformer) 모델이다. 이 모델은 트랜스포머라는 신경망 구조를 기반으로 하며, 방대한 양의 텍스트 데이터를 통해 사전 학습된다. 이를 통해 자연어를 이해하고 생성하는 능력이 뛰어나게 되었다. 특히 GPT-3.5와 같은 최신 모델은 수십억 개의 매개변수를 사용하여 인간과 유사한 대화 능력을 보인다​.[5]

챗GPT의 도입과 확산은 긍정적인 측면과 부정적인 측면을 모두 가지고 있다. 긍정적으로는 다양한 업무의 효율성을 높이고, 새로운 서비스 창출을 가능하게 한다. 그러나 챗GPT의 사용이 증가함에 따라 사이버 보안 문제, 개인정보 침해, 저작권 문제 등 여러 가지 문제가 제기되고 있다. 이러한 문제를 해결하기 위해서는 기술적 개선과 함께 법적, 윤리적 고려가 필요하다. 또한 챗GPT는 현재 실시간 학습이 불가능하며, 입력 데이터의 편향성 문제도 가지고 있다. 이는 AI의 응답이 항상 정확하거나 중립적이지 않을 수 있음을 의미한다. 이러한 한계는 앞으로의 연구와 개발을 통해 개선될 필요가 있다​.[6] 종합적으로, 챗GPT와 같은 생성형 AI는 혁신적인 가능성을 제공하면서도, 다양한 문제와 한계를 가지고 있다. 따라서 이러한 기술을 도입하고 활용하는 과정에서 신중한 접근이 필요하다.

제미나이

제미나이(Gemini)

제미나이(Gemini, 구 명칭: 바드, Bard)는 구글(Google)이 개발한 대화형 생성형 인공지능 챗봇이다. 처음에는 람다(LaMDA) 계열의 대형 언어 모델(LLM), 나중에는 PaLM에 기반을 두었다. 오픈AI챗GPT의 상승에 직접 대응하기 위해 개발되었으며 다른 국가들에 확장시키기 전에 2023년 3월 기능에 제한을 두고 출시되었다. 이 모델은 텍스트, 이미지, 음성 등 다양한 데이터를 처리할 수 있는 멀티모달 기능을 갖추고 있다. 제미나이는 특히 긴 텍스트 블록 내에서 관련 정보를 효과적으로 찾아내는 능력을 자랑한다. 예를 들어, 제미나이 1.5 프로 모델은 최대 100만 토큰의 컨텍스트 창을 가지고 있어, 긴 프롬프트에서 새로운 기술을 학습하거나 복잡한 코드 블록에서 문제를 해결하는 데 유용하다.[7]

제미나이는 구글클라우드 기반 생성형 AI 플랫폼인 버텍스 AI(Vertex AI)를 통해 기업들에게 제공될 예정이며, 이를 통해 다양한 산업 분야에서 활용될 가능성이 크다. 제미나이의 멀티모달 기능은 GPT-4와 차별화되는 점으로, 텍스트를 기반으로 이미지를 생성할 수 있는 능력을 가지고 있다.[8] 제미나이는 한국에서도 큰 관심을 받고 있으며, 다양한 연구와 개발이 이루어지고 있다. 구글의 제미나이는 생성형 AI의 새로운 가능성을 제시하며, 텍스트, 이미지, 음성 등의 데이터를 동시에 처리하는 능력으로 다양한 산업 분야에서 활용될 전망이다.

마이크로소프트 코파일럿

코파일럿(Copilot)

코파일럿(Copilot)은 마이크로소프트(Microsoft)가 개발한 생성형 AI 시스템으로, 검색엔진과 통합되어 사용자가 질문을 입력하면 관련 정보를 제공하거나 답변을 생성할 수 있는 능력을 가지고 있다. 기존엔 뉴 빙(New Bing), 빙 챗(Bing Chat) 등으로 불렸으나 2023년 12월 1일부로 마이크로소프트 코파일럿(Microsoft Copilot)으로 리브랜딩되었다.[9] 코파일럿은 GPT-4를 기반으로 하며, 텍스트뿐만 아니라 이미지와 음성 등 다양한 데이터를 처리할 수 있는 멀티모달 기능을 갖추고 있다.[10][11]

코파일럿은 검색엔진과의 통합을 통해 사용자에게 더 정확하고 유용한 검색 결과를 제공하는 데 초점을 맞추고 있다. 또한 마이크로소프트는 코파일럿을 통해 사용자 경험을 향상시키고, 더 나은 정보 접근성을 제공하기 위해 지속적으로 기술을 개선하고 있다. 코파일럿은 한국에서도 다양한 방식으로 사용되고 있으며, 특히 검색 엔진과의 통합을 통해 많은 사용자들에게 유용한 도구로 자리잡고 있다. 코파일럿의 주요 특징 중 하나는 다양한 데이터를 처리하고 이해하는 능력이다. 이를 통해 사용자는 텍스트, 이미지, 음성 등 다양한 형태의 데이터를 입력하여 필요한 정보를 얻을 수 있다. 코파일럿은 지속적인 기술 발전을 통해 더 나은 성능과 기능을 제공하고 있으며, 이는 다양한 산업 분야에서의 활용 가능성을 높이고 있다.[12][13]

뤼튼

뤼튼(WRTN)

뤼튼(WRTN)은 대한민국AI 스타트업㈜뤼튼테크놀로지스(Wrtn Technologies)가 개발한 생성형 AI로, 주로 글쓰기 지원 도구로 사용된다. GPT-4와 같은 다양한 생성형 AI를 한자리에서 무료로 사용할 수 있는 서비스로, 챗GPT와 같이 대화를 통해 결과물을 생성해내는 형태이지만 뤼튼은 보다 광범위한 콘텐츠 생성을 위해 데이터 소스에 대한 추가적인 전처리와 모델 구조의 특화가 이뤄졌다. 대화뿐만 아니라 문서 요약, 소스 코드 작성, 이미지 생성, 기사 작성 등의 작업도 수행할 수 있는 텍스트 생성 도구에 초점을 맞추어 개발되었다. 이전까지는 무료 버전과 유료 버전으로 나뉘어졌지만 2023년 12월 20일부터 뤼튼의 모든 기능을 전면 모든 사용자에게 무료로 개방했다.[14]

뤼튼은 AI 기반의 글쓰기 트레이닝 도구인 '뤼튼 트레이닝(Wrtn Training)'과 전문적인 글쓰기를 위한 '뤼튼 도큐먼트(Wrtn Document)'를 제공한다. 뤼튼 트레이닝은 CES 2023에서 소프트웨어 및 모바일 앱 부문 혁신상을 수상한 바 있으며, 한글과 영어를 모두 지원하는 AI 글쓰기 도구다. 이 도구는 사용자에게 맞춤형 글쓰기 연습을 제공하여 글쓰기 능력을 향상시키는 데 중점을 두고 있다.[15] 뤼튼테크놀로지스는 창립 이후 빠른 성장세를 보이고 있다. 창립 10개월 만에 인공지능 데이터 활용 경진대회에서 우수상과 대상을 수상하며 기술력과 경쟁력을 인정받았다. 또한, 삼성전자 씨랩 아웃사이드(C-Lab Outside) 프로그램에 선정되어 사업전략 및 마케팅 지원을 받았다. 이 회사는 다양한 B2B 모델을 개발하며, 사업계획서, 보고서 작성 등 실무자의 업무를 돕는 전문적인 문장 생성 서비스도 출시했다. 이러한 서비스는 실제 업무 환경에서의 활용성을 높이기 위해 기획되었으며, 사용자들의 긍정적인 반응을 얻고 있다​.[16]

아숙업

아숙업(AskUp)

아숙업(AskUp)은 대한민국AI 스타트업㈜업스테이지(Upstage)가 개발한 생성형 AI 챗봇이다. 아숙업은 기본적으로 오픈AI의 GPT-3.5와 GPT-4 모델을 기반으로 하며, 사용자들에게 보다 자연스럽고 정확한 대화 경험을 제공하기 위해 파인튜닝 및 프롬프트 튜닝이 적용되어 있다​.[17]

아숙업의 검색, OCR 등의 기능과 크레딧 시스템이라는 특징을 가지고 있다. 먼저 아숙업은 최신 정보를 검색할 수 있는 기능을 갖추고 있다. 사용자는 '?명령어'를 통해 원하는 정보를 검색할 수 있으며, GPT-4 모델을 사용하고 싶을 때는 '!명령어'를 사용할 수 있다. 예를 들어, '?대한민국 축구'나 '!김하성 끝내기 홈런'과 같은 형태로 입력하면 된다​.[18] 또한 아숙업은 이미지 속 텍스트를 인식하는 OCR 기능을 포함하고 있다. 이를 통해 사용자는 이미지에서 원하는 정보를 추출하거나 요약할 수 있으며, 텍스트가 포함된 이미지를 쉽게 처리할 수 있다. 다만, 1000자 이상의 긴 텍스트는 인식에 제한이 있다. 더불어 아숙업은 하루에 100회의 크레딧을 제공하여 사용자가 제한된 횟수 내에서 AI와 상호작용할 수 있도록 하고 있다. 추가 크레딧이 필요한 경우 이벤트를 통해 얻을 수 있다.[19]

아숙업은 건강 식단 관리, 교육 및 학습 지원 등 다양한 분야에서 활용될 수 있다. 예를 들어, '푸드렌즈' 기능을 통해 음식의 칼로리와 영양 정보를 제공하며, '오늘의 영자 신문' 기능을 통해 매일 주요 뉴스들을 영어로 제공하여 영어 공부를 돕는다. 아숙업은 카카오톡을 통해 쉽게 접근할 수 있어 사용자들에게 높은 인기를 얻고 있다. 출시 초기 3일 만에 채널 친구 3만 명을 돌파할 정도로 빠르게 성장하였으며, 많은 사용자들이 AI의 편리함과 유용성을 경험하고 있다.[20]

이미지

달리

달리(DALL-E)

달리(DALL-E)는 오픈AI(OpenAI)에서 개발한 이미지 생성형 인공지능으로, 텍스트 설명을 기반으로 이미지를 생성할 수 있는 모델이다. 이 모델은 GPT-3 및 GPT-4와 같은 대규모 언어 모델을 기반으로 하며, 텍스트와 이미지를 함께 학습하여 다양한 시각적 콘텐츠를 생성하는 능력을 갖추고 있다. 2023년 9월 출시된 달리 3는 프롬프트를 이해하는 수준이 기존의 AI보다 월등히 뛰어나며, 텍스트를 이미지로 구현할 수 있는 전세계적으로 몇 안 되는 AI 모델이다. 2023년 10월 기준 달리 3는 챗GPT 플러스(유료 버전)에 탑재되어 챗GPT 대화창 안에서, 그리고 마이크로소프트 코파일럿(Microsoft Copilot) 또는 빙 이미지 크리에이터(무료)에서 사용할 수 있다. 달리 3는 영어 외 다수의 언어를 이해하며, 한글로 작성된 프롬프트(명령어)도 굉장히 잘 이해한다. 영어에 부담을 느껴 AI 그림에 관심은 있지만, 실제 생성을 시도하지는 못했던 잠재 유저의 AI 그림 생성 분야로의 진입 장벽을 크게 낮춰줄 것으로 보인다.

달리는 텍스트 기반 이미지 생성, 고해상도 이미지 생성, 이미지 변형 및 수정의 주요 특징과 기능을 가지고 있다. 먼저 달리는 사용자가 제공하는 텍스트 설명을 기반으로 이미지를 생성할 수 있다. 예를 들어, "빨간 모자를 쓴 고양이"와 같은 설명을 입력하면 이에 맞는 이미지를 만들어낼 수 있다. 이는 디자이너, 예술가, 마케터 등 다양한 분야에서 창의적인 작업을 지원하는 데 큰 도움이 된다. 또한 달리 2(DALL·E 2)는 고해상도의 이미지를 생성할 수 있는 능력을 가지고 있다. 첫 번째 버전보다 해상도가 4배 향상되었으며, 더욱 사실적이고 정확한 이미지를 생성할 수 있다. 이를 통해 사용자는 더 정교한 시각적 콘텐츠를 제작할 수 있다​.[21] 더불어 달리는 단순히 이미지를 생성하는 것뿐만 아니라, 기존 이미지를 변형하거나 수정하는 기능도 제공한다. 사용자는 특정 이미지를 입력하고 그 이미지에 대한 변형된 버전을 생성할 수 있어, 다양한 디자인 시안을 쉽게 만들 수 있다.[22]

달리는 다양하게 활용될 수 있다. 먼저 달리는 예술가와 디자이너에게 창의적인 영감을 제공하는 도구로 활용될 수 있다. 상상 속의 이미지를 시각화하여 새로운 아이디어를 구체화하는 데 도움을 줄 수 있다. 이는 예술 작품의 창작 과정에서 매우 유용하다. 또한 기업의 광고나 마케팅 캠페인에서도 달리가 유용하게 사용될 수 있다. 광고 이미지를 빠르게 생성하고 수정할 수 있어, 다양한 시안을 손쉽게 제작할 수 있다. 이는 마케팅 전략을 더욱 효과적으로 실행하는 데 기여한다. 더불어 달리는 교육 분야에서도 활용 가능하다. 예를 들어, 학생들이 특정 주제에 대한 시각적 자료를 필요로 할 때 달리를 사용하여 적절한 이미지를 생성할 수 있다. 또한, 연구자들은 달리를 활용하여 데이터 시각화 및 설명 자료를 제작할 수 있다​.[23]

미드저니

미드저니(Midjourney)

미드저니(Midjourney)는 고품질의 시각적 이미지를 생성하는 데 특화된 생성형 인공지능(AI) 모델이다. 텍스트를 입력하면 AI가 이미지를 생성해주는(Text-to-Image) 모델로, 달리와 비슷하다. 스테이블 디퓨전과 함께 가장 유명하면서 생성되는 이미지의 퀄리티가 높은 AI 이미지 제너레이터로 평가받는다. 특히 디자이너와 예술가들 사이에서 창의적 작업에 매우 유용한 도구로 평가받고 있다. 미드저니 무료 평가버전은 2023년 3월 30일 부로 임시 종료된 상태이다. 미드저니는 영국 잡지 이코노미스트에서 2022년 6월호의 표지를 만드는 데 사용되기도 했다.

미드저니는 디스코드 기반의 접근성, 프롬프트 엔지니어링 등이 특징이다. 먼저 미드저니는 디스코드(Discord) 플랫폼을 통해 접근할 수 있다. 사용자들은 디스코드 서버에 접속하여 텍스트 명령어를 입력하고 실시간으로 이미지를 생성할 수 있다. 이러한 접근 방식은 다른 사용자들과의 상호작용과 협업을 용이하게 한다. 또한, 생성된 이미지를 실시간으로 확인하고 피드백을 받을 수 있어 창의성을 자극하고 성장할 수 있는 기회를 제공한다.[24][25] 또한 미드저니는 사용자가 입력한 텍스트 명령어(프롬프트)에 따라 이미지를 생성하는데, 프롬프트 엔지니어링을 통해 더욱 정교하고 원하는 결과물을 얻을 수 있다. 예를 들어, 프롬프트에 이미지의 스타일, 주제, 구성, 배경 등을 구체적으로 포함하면 더 효과적인 결과를 얻을 수 있다. 프롬프트의 최적화는 이미지 생성의 품질과 효율성을 높이는 중요한 과정이다.[26]

미드저니는 다양한 분야에서 활용될 수 있다. 예술과 디자인 분야에서는 창작물의 초안을 그려내거나 다양한 변형을 통해 새로운 아이디어를 시각화할 수 있다. 또한, 광고나 마케팅에서도 고품질의 시각적 콘텐츠를 빠르게 제작하는 데 유용하다. 교육 분야에서도 강의 자료 제작이나 학생들의 학습 지원에 활용될 수 있다.[27]

스테이블 디퓨전

스테이블 디퓨전(Stable Diffusion)은 2022년에 영국의 인공지능 스타트업인 스태빌리티AI(Stability AI)에서 오픈소스 라이선스로 배포한 딥러닝, 텍스트 투 이미지(text-to-image) 인공지능 모델이다. 텍스트 설명에 따라 상세한 이미지를 생성하는 데 주로 사용되지만 인페인팅, 아웃페인팅, 이미지 생성과 같은 다른 작업에도 적용할 수 있다. 스태빌리티 AI가 여러 학술 연구원 및 비영리 단체와 공동으로 개발했다. 스테이블 디퓨전은 심층 생성 신경망의 일종인 잠재 확산 모델이다. 대다수의 이미지 인공지능들은 온라인에서만 서비스하는데, 스테이블 디퓨전은 개인의 PC로 실행 즉 로컬 환경으로 설치 및 실행 할수있는게 큰 차이점이다. 코드 및 모델 가중치가 공개되었으며 최소 8GB VRAM이 있는 일반 GPU가 장착된 대부분의 소비자 하드웨어에서 실행할 수 있다. 이는 클라우드 서비스를 통해서만 액세스할 수 있었던 달리미드저니와 같은 이전의 독점 텍스트-이미지 모델에서 출발했다.

스테이블 디퓨전은 고해상도 이미지 생성, 다양한 조건부 생성, 적용 범위의 확장 등이 주요 특징이다. 먼저 스테이블 디퓨전은 텍스트 설명을 기반으로 고해상도의 이미지를 생성할 수 있는 능력을 갖추고 있다. 이는 이미지 생성 과정에서 기존의 디퓨전 모델과 달리 오토인코더를 활용하여 이미지의 잠재 공간(latent space)에서 학습이 이루어지기 때문이다. 이 접근 방식은 이미지의 질감을 더욱 풍부하고 세밀하게 만들 수 있다​. 또한 스테이블 디퓨전은 텍스트뿐만 아니라 다양한 조건을 기반으로 이미지를 생성할 수 있다. 이는 크로스 어텐션 메커니즘을 통해 텍스트, 이미지, 기타 표현을 조건으로 활용할 수 있게 한 덕분이다. 예를 들어, 사용자가 입력한 텍스트 설명과 함께 참조 이미지를 조건으로 추가하면, 해당 조건을 반영한 이미지를 생성할 수 있다​.[28] 더불어 스테이블 디퓨전은 단순히 이미지 생성에 그치지 않고, 비디오 생성과 같은 다른 미디어 형식으로도 확장되고 있다. 런웨이(Runway)와의 협력을 통해 개발된 Gen-1 모델은 텍스트 입력이나 참조 이미지를 사용하여 기존 영상을 새로운 영상으로 변환하는 기능을 제공한다. 이는 스테이블 디퓨전 기술이 이미지 생성에서 비디오 생성으로 확장되고 있음을 보여준다.[29]

스테이블 디퓨전은 다양한 곳에 활용될 수 있다. 먼저 스테이블 디퓨전은 예술가와 디자이너에게 창의적인 도구로 활용될 수 있다. 예를 들어, 예술가는 텍스트 설명을 입력하여 다양한 예술 작품의 초안을 생성할 수 있으며, 디자이너는 광고나 마케팅용 이미지를 빠르게 제작할 수 있다. 이는 창작 과정에서 많은 시간을 절약하고, 다양한 아이디어를 시각적으로 구현하는 데 큰 도움이 된다.[30] 또한 교육 분야에서도 스테이블 디퓨전은 강의 자료 제작이나 연구 자료 시각화에 유용하게 사용될 수 있다. 예를 들어, 복잡한 개념을 시각적으로 설명해야 할 때 스테이블 디퓨전을 사용하여 관련 이미지를 생성하고 이를 강의 자료에 포함시킬 수 있다.[27] 더불어 기업들은 스테이블 디퓨전을 활용하여 광고, 마케팅, 제품 디자인 등의 상업적 목적으로 이미지를 생성할 수 있다. 이는 시장 출시 속도를 높이고, 다양한 마케팅 캠페인을 더욱 효과적으로 실행하는 데 기여한다.

영상

디-아이디

디-아이디(D-ID)는 동영상과 이미지를 생동감 있게 변환하는 기술로 유명한 생성형 AI 회사이자 생성형 AI이다. 디-아이디의 기술은 특히 사진이나 그림을 움직이는 동영상으로 변환하는 데 특화되어 있다. 이 기술은 주로 "Live Portrait"와 같은 애플리케이션에서 사용되며, 정지된 이미지를 현실감 있게 움직이는 동영상으로 만들어낸다.

디-아이디의 주요 특징은 Live Portrait, AI 기반 영상 합성, 보안개인정보보호 등이다. 먼저 디-아이디의 대표적인 기능 중 하나는 "Live Portrait"로, 사진을 애니메이션으로 변환하는 기술이다. 이 기술은 얼굴 인식과 딥러닝 알고리즘을 사용하여 사진 속 인물의 입술, 눈, 표정 등을 움직여 실제 사람처럼 보이게 만든다. 이는 특히 마케팅, 교육, 엔터테인먼트 분야에서 큰 인기를 끌고 있다. 또한 디-아이디는 텍스트 설명을 기반으로 동영상을 생성하는 기술도 제공한다. 이는 사용자가 원하는 설명을 입력하면, 해당 설명에 맞는 동영상을 자동으로 생성해주는 기능으로, 광고 제작이나 교육 콘텐츠 개발에 유용하다. 이 기술은 AI가 텍스트를 이해하고, 그에 맞는 시각적 콘텐츠를 생성할 수 있는 능력을 보여준다. 더불어 디-아이디는 이미지와 동영상 처리 과정에서 개인의 얼굴 데이터를 보호하기 위해 다양한 보안 기술을 적용한다. 얼굴 인식 기술을 사용하지만, 개인정보 보호 규정을 준수하며 데이터 유출을 방지하는 데 중점을 둔다. 이는 AI 기술이 발전함에 따라 중요성이 더욱 부각되는 부분이다.[11]

디-아이디는 다양하게 활용될 수 있다. 디-아이디의 기술은 마케팅과 광고 분야에서 혁신적인 도구로 사용되고 있다. 광고주는 정적인 이미지를 동적인 콘텐츠로 변환하여 더 큰 주목을 끌 수 있다. 예를 들어, 제품 사진이 살아 움직이며 제품의 특징을 설명하는 형태의 광고를 쉽게 제작할 수 있다. 또한 교육 분야에서도 디-아이디의 기술은 큰 잠재력을 가지고 있다. 역사적인 인물의 사진을 애니메이션으로 변환하여 학생들이 더 쉽게 이해하고 흥미를 느낄 수 있게 한다. 이는 교육 자료의 다양성을 높이고, 학습자의 참여를 유도하는 데 효과적이다.[31] 더불어 엔터테인먼트 산업에서는 디-아이디의 기술을 이용해 영화나 게임 캐릭터의 표정을 더욱 생동감 있게 만들 수 있다. 이는 사용자 경험을 향상시키고, 더욱 몰입감 있는 콘텐츠를 제공하는 데 기여한다​.[5]

더 프로스트(The Frost)는 디-아이디달리2 생성형 AI를 이용하여 웨이마크(Waymark) 회사가 제작한 12분 짜리 영화이다. 이 영화는 AI로 인한 기후변화로 인해 인류가 극한의 추위 속에 파묻혀 고통받는 미래를 영화로 제작했다.[32]

브이캣

브이캣(VCAT)

브이캣(VCAT)은 인공지능(AI)을 활용한 영상 자동 제작 솔루션이다. 브이캣은 주로 마케팅 및 광고 소재를 자동으로 생성하여, 기업들이 효율적이고 효과적으로 홍보할 수 있도록 돕는다.

브이캣은 자동화된 영상 제작, 높은 생산성과 효율성, 다양한 플랫폼과의 연동, 광고 성과 향상 등을 특징으로 한다. 먼저 브이캣은 사용자에게 광고 문구와 이미지, 영상을 자동으로 생성해주는 기능을 제공한다. 예를 들어, 상품 URL만 입력하면 AI가 광고문구부터 이미지, 영상까지 완성해준다. 이러한 기술 덕분에 마케터들은 몇 분 내에 필요한 마케팅 자료를 대량으로 제작할 수 있다. 또한 브이캣은 클릭 한 번으로 광고 소재를 자동으로 제작할 수 있어, 1년 만에 약 50만 건의 광고 소재를 제작한 사례가 있다. 이를 통해 네이버, G마켓, 롯데온, SSG, 쿠팡 등 여러 주요 전자상거래 플랫폼에서 브이캣을 활용하고 있다. 아울러 브이캣은 SNS 및 기타 광고 매체와도 연동이 가능하여, 제작한 광고 소재를 즉시 게시할 수 있는 기능을 제공한다. 이를 통해 광고 캠페인을 더욱 신속하고 효율적으로 진행할 수 있다.[33] 마지막으로 브이캣을 사용하면 마케팅 자료의 생산성을 높일 뿐만 아니라 광고 성과도 향상시킬 수 있다. 예를 들어, 글로벌 뷰티 기업인 로레알은 아시아 8개 언어권별 광고 소재의 브랜드 일관성을 유지하기 위해 브이캣을 활용하고 있다. 이를 통해 각 지역에 맞춘 효과적인 광고 캠페인을 운영할 수 있다.

브이캣은 다양하게 활용되고 있다. 먼저 많은 한국 대기업들이 브이캣을 도입하여 마케팅 효율성을 높이고 있다. 주요 전자상거래 플랫폼과 대형 마케팅 기업들이 브이캣을 사용하여 빠르고 효율적인 광고 캠페인을 진행 중이다​. 브이캣은 그 기술력을 인정받아 CES 2024에서 AI 부문 혁신상을 수상하였다. CES 혁신상은 기술 트렌드를 반영하는 세계적으로 공신력 있는 상으로, 브이캣의 기술력과 혁신성을 입증하는 중요한 성과다.[34]

젠 시리즈

(Gen)

(Gen)은 미국의 생성형 AI 개발사인 런웨이 AI(Runway AI)에서 개발한 영상 제작 도구이다. 젠-1(Gen-1)은 텍스트와 이미지를 기반으로 새로운 비디오를 생성할 수 있는 AI 시스템이다. 예를 들어, 텍스트 프롬프트나 이미지의 구성을 소스 비디오에 적용하여 새로운 비디오를 생성한다. 이 모델은 초기 단계에서 주로 이미지-이미지 변환 및 비디오-비디오 변환을 통해 사용자에게 혁신적인 비디오 생성 경험을 제공하였다.[35] 잰-2(Gen-2)는 젠-1에서 발전된 형태로, 텍스트, 이미지, 비디오 클립을 사용하여 새로운 비디오를 생성하는 멀티모달 AI 시스템이다. 이 시스템은 사용자가 원하는 스타일과 구성을 반영하여 비디오를 생성할 수 있으며, 다양한 모드(텍스트-비디오, 이미지-비디오 등)를 통해 더 높은 수준의 커스터마이징을 제공한다.[36]

젠의 주요 모드는 4가지이다. 첫 번째로 텍스트-비디오 모드는 사용자가 입력한 텍스트 프롬프트만으로 비디오를 생성한다. 예를 들어, "뉴욕 시 로프트에 늦은 오후 햇살이 비치는 장면"이라는 텍스트를 입력하면 해당 장면의 비디오가 생성된다. 두 번째로 텍스트+이미지-비디오 모드는 텍스트 프롬프트와 이미지를 조합하여 비디오를 생성한다. 예를 들어, "네온사인이 있는 거리에서 걷고 있는 남자"라는 텍스트와 이미지를 사용하여 해당 장면을 비디오로 변환할 수 있다. 세 번째로 이미지-비디오 모드는 단순히 이미지를 기반으로 비디오를 생성하는 방식으로, 다양한 스타일과 변형을 통해 독창적인 비디오를 만들 수 있다. 마지막으로 스타일 변환 모드는 특정 이미지나 프롬프트의 스타일을 비디오의 모든 프레임에 적용하여 일관된 스타일의 비디오를 생성한다.

런웨이의 젠 시리즈는 사용자 친화적인 인터페이스를 제공하여 비전문가도 쉽게 사용할 수 있다. 웹 기반으로 동작하기 때문에 별도의 프로그램 설치 없이 언제 어디서나 사용할 수 있다​. 런웨이는 자체 GPU를 사용하여 높은 성능을 제공하며, 이는 사용자 컴퓨터의 성능에 상관없이 고품질 비디오를 빠르게 생성할 수 있게 한다​.

인비디오 AI

인비디오 AI(Invideo.ai)

인비디오 AI(Invideo.ai)는 텍스트 입력만으로도 고품질의 비디오를 자동으로 생성해주는 혁신적인 AI 기반 비디오 제작 도구이다. 인비디오 AI는 텍스트 입력만으로도 고품질의 비디오를 자동으로 생성해주는 강력한 도구로, 광고, 마케팅, 교육 등 다양한 분야에서 효율성을 높이고 있다. 웹 기반으로 제공되는 이 도구는 사용자 친화적인 인터페이스와 강력한 AI 기능을 통해 비전문가도 쉽게 비디오를 제작할 수 있도록 돕는다.

인비디오 AI의 주요 기능은 자동 비디오 생성, AI 기반 스크립트 생성, 음성 합성 및 자막 생성, 실시간 협업, 웹 기반 도구 등이다. 먼저, 인비디오 AI는 사용자가 입력한 텍스트를 기반으로 비디오를 생성한다. 텍스트 입력만으로 스크립트를 작성하고, 관련 비디오 클립, 자막, 배경 음악, 전환 효과 등을 자동으로 추가하여 출판 가능한 비디오를 제작한다. 이 과정은 사용자에게 직관적인 편집 인터페이스를 제공하여 비디오 제작을 쉽게 한다​. 또한 인비디오 AI는 다양한 주제에 맞춘 스크립트를 생성할 수 있다. 이는 비디오 제작에 소요되는 시간을 크게 절약해주며, 맞춤형 스크립트를 통해 더 매력적인 비디오 콘텐츠를 제작할 수 있다​. 인비디오 AI의 음성 합성 기능은 인간의 음성을 닮은 자연스러운 음성을 생성하여 비디오에 생동감을 더해준다. 또한, 다양한 언어와 억양을 지원하여 글로벌 마케팅에 최적화된 비디오를 제작할 수 있다. 또한 인비디오 AI는 여러 사용자가 동시에 비디오 편집 작업을 할 수 있는 실시간 협업 기능을 제공한다. 이를 통해 팀원 간의 원활한 협업이 가능하며, 프로젝트 진행 속도를 높일 수 있다​. 더불어 인비디오 AI는 웹 기반 도구로, 별도의 소프트웨어 설치가 필요 없다. 이는 사용자가 어디서나 쉽게 접근할 수 있도록 하며, 다양한 디바이스에서 원활하게 작동한다.[37]

음성

클로바 더빙

클로바(Clova)

클로바 더빙(Clova Dubbing)은 네이버에서 개발한 인공지능 기반 음성 더빙 서비스로, 텍스트를 입력하면 다양한 목소리언어로 자동으로 음성을 생성하여 동영상더빙할 수 있는 도구이다.

클로바 더빙은 성별, 연령, 언어 등 다양한 보이스 옵션을 제공한다. 이를 통해 사용자들은 자신이 원하는 스타일의 목소리로 텍스트를 음성으로 변환할 수 있다. 네이버 클라우드 플랫폼에서는 MY 보이스 제작 기능을 통해 발화 속도와 음성 크기를 조절할 수 있으며, 자신만의 고유한 보이스를 만들어 사용할 수 있다​. 또한 클로바더빙은 사용하기 쉬운 인터페이스를 제공하여 비전문가도 손쉽게 동영상에 음성을 추가할 수 있다. 네이버 클라우드 플랫폼 콘솔에서 프로젝트를 생성하고, 텍스트를 입력한 후 원하는 목소리를 선택하면 자동으로 더빙이 완료된다. 이 모든 과정이 직관적으로 설계되어 있어 사용자가 쉽게 접근할 수 있다. 더불어 클로바더빙은 여러 사용자가 동시에 프로젝트를 편집할 수 있는 협업 기능을 제공한다. 이를 통해 팀원 간의 원활한 협업이 가능하며, 프로젝트의 진행 속도를 높일 수 있다.[38][39]

AI 보이스 스튜디오

AI 보이스 스튜디오(AI Voice Studio)

AI 보이스 스튜디오(AI Voice Studio)는 인공지능(AI) 음성합성 콘텐츠를 제작할 수 있는 서비스다. KT와 한국 AI 스타트업 휴멜로가 개발한 것이다. AI 보이스 스튜디오는 100개의 AI 목소리를 활용해 즐거움, 침착함, 중립, 슬픔, 화남의 5가지 감정으로 합성할 수 있는 'AI 보이스'와, 이 AI 보이스를 활용해 영상 등 오디오 합성 콘텐츠를 제작할 수 있는 '스튜디오'로 구성돼 있다. AI 보이스 스튜디오의 '감정 더빙' 기능을 활용할 경우, AI 보이스를 내가 낭독한 감정 그대로 더빙할 수 있어 더 생생한 AI 음성을 만들 수 있다는 것이 특징이다.

KT가 제공하는 모든 AI 목소리는 한국어, 영어, 중국어, 일본어 4개국어로 '다국어 합성'도 가능해 글로벌 시장을 노리는 제작자들에게도 유용한 것으로 평가받는다. 유명인들의 음성을 AI로 제공하는 '셀럽 AI 보이스'도 눈 여겨볼만한 기능이다. 가수 윤도현이 첫번째 '셀럽 AI 보이스'로 나섰다. AI 윤도현의 목소리로 인기 도서 '인간관계가 힘들어서 퇴사했습니다'를 오디오북으로 제작했다. 다만 '셀럽 AI 보이스'는 셀럽의 권리 보호를 위해 홈페이지의 문의하기 기능을 활용해 별도 정책에 따라 이용할 수 있다.

특히 '마이AI보이스'는 나만의 AI 목소리를 쉽고 편하게 제작할 수 있는 서비스다. 30개 예시 문장만 녹음하면 내 목소리와 닮은 AI 보이스를 만들어 준다. AI 전문가가 아닌 일반인도 쉽게 자신의 육성으로 AI 목소리를 제작할 수 있다. 한국어뿐만 아니라 영어, 중국어, 일본어, 스페인어 음성도 합성하여 만들 수 있다. 마이AI보이스로 만든 AI 목소리는 AI 보이스 스튜디오의 회원유지 기간 동안 계속 보관해 활용할 수 있다.[40]

타입캐스트

타입캐스트(Typecast)

타입캐스트(Typecast)는 인공지능 연기자 서비스이다. 대본을 입력하고 간단한 편집만으로 누구나 전문 연기자가 녹음한 것 같은 음성을 쉽게 다운로드 받을 수 있으며, 그 음성에 맞는 가상인간을 캐스팅하여 비디오 콘텐츠에서 활용할 수 있다. 타입캐스트는 감정 표현 음성 합성 기술을 개발한 스타트업 네오사피엔스에서 개발 및 운영하고 있다. 네오사피엔스는 이 외에도 적은 데이터로 목소리 모사, 다국어 음성합성, 가창 합성 기술 등에서 두각을 나타내고 있으며 가상의 목소리 생성 기술, 가상 인간 영상 합성 기술 등을 활용하여 타입캐스트에서 텍스트만 입력하면 가상인간이 말하는 영상을 쉽게 만들 수 있다.

2019년 4월 베타 서비스를 시작으로 가상 인간 비디오 기능, 프리미엄 성우 등 일부 유료 서비스를 포함해 운영 중이다. 전문 성우가 녹음한 목소리를 기반으로 음성이 생성되기 때문에 감정 표현, 운율, 속도 조절 등이 용이하며 2020년 8월부터는 가상 인간 비디오 기능을 추가하여 목소리까지 완벽한 가상 인간을 비디오에서 자유롭게 활용할 수 있도록 하고 있다. 유튜버들 사이에서 입소문이 나며 많이 사용되면서 사용자가 많이 늘었고, 2022년 2월 보도된 기사에 따르면 가입자가 100만명을 돌파하였다고 한다.[41] 2022년 11월에 보도된 기사에 따르면 120만명 이상이 사용 중이다.[42] 이들 사용자들을 일컬어 타입캐스터라고도 부르며, 타입캐스트로 유튜브 채널을 운영하는 사람들을 타입튜버(TypeTuber)라고 부르기도 한다.[43]

복스박스

복스박스(VoxBox)는 휴대전화컴퓨터를 위한 첨단 기술 솔루션을 제공하는 테크놀로지 기업 아이마이폰(iMyFone)이 출시한 인공지능(AI) 음성합성(TTS) 프로그램이다. 복스박스는 텍스트를 음성으로 변환하고, 음성을 텍스트로 변환하는 기능을 제공한다. 더빙 플랫폼, 영상 해설 플랫폼 등 다양한 플랫폼에서 사용할 수 있다. 복스박스는 텍스트의 음성 변환(TTS), 음성의 텍스트 변환(STT)을 지원하며 이미지, PDF, 워드(Word)를 음성으로 변환 가능하다. 3200개 이상의 음성과 한국어, 일본어, 영어, 프랑스어 등 46개 이상의 언어 지원하고 있으며, 형식 변환, 음성 녹음, 음성 편집 등 지원과 간단하고 직관적인 인터페이스로 초보자도 사용 가능하다.[44]

글쓰기

노션 AI

노션AI(Notion AI)

노션AI(Notion AI)는 언어 생성 AI를 활용한 문서 작성 애플리케이션이다. 이 앱은 오픈AI의 GPT-3 모델을 탑재했다. 버전은 영어를 비롯해 한국어, 일본어, 프랑스어, 독일어로 이뤄졌다.[45] 노션AI와 챗GPT는 비슷하면서 다르다. 텍스트를 만들어준다는 점은 같지만, 노션AI는 엄연히 노션 안에 탑재된 기능이다. '글쓰기 도우미'로 생각하면 이해가 쉽다.[46]

노션 AI는 사용자가 입력한 키워드나 짧은 문구를 바탕으로 완전한 문장을 생성하거나, 문서를 요약해주는 기능을 제공한다. 이를 통해 보고서 작성, 이메일 작성, 아이디어 정리 등의 작업을 신속하게 처리할 수 있다​. 또한 사용자가 제시한 주제에 대한 아이디어를 생성해주는 브레인스토밍 도구로 활용될 수 있다. 이를 통해 프로젝트 초기 단계에서 다양한 아이디어를 신속하게 도출할 수 있다. 더불어 여러 언어로 작성된 문서를 자동으로 번역하여 글로벌 팀 간의 협업을 원활하게 한다. 이는 다국적 기업이나 해외 클라이언트와의 소통에 매우 유용하다. 데이터를 분석하고, 이를 기반으로 그래프나 차트와 같은 시각적인 결과물을 생성해 줄 수도 있으며, 이를 통해 복잡한 데이터를 보다 쉽게 이해하고, 중요한 의사결정을 내리는 데 도움을 준다​. 특히 반복적인 작업을 자동화하여 사용자의 시간을 절약해준다. 예를 들어, 정기적인 리포트 작성이나 일정 관리를 자동화하여 사용자가 더 중요한 작업에 집중할 수 있도록 한다.

캔바 매직라이트

캔바(Canva)

캔바(Canva)는 전 세계 모든 사람이 디자인할 수 있도록 역량을 부여한다는 사명을 지닌 무료 온라인 비주얼 커뮤니케이션 및 협업 플랫폼이다. 2013년에 출범했다. 간단한 드래그 앤드 드롭 사용자 인터페이스프레젠테이션, 문서, 웹사이트, 소셜미디어 그래픽, 포스터, 의류부터 동영상까지 다양한 템플릿은 물론이고, 글꼴, 스톡사진, 일러스트레이션, 비디오 영상 및 오디오 클립의 방대한 라이브러리를 제공하므로 누구나 자신의 아이디어를 멋진 작품으로 만들 수 있다.[47] 그중 캔바의 매직라이트(Magic Write)는 누구나 간편하고 빠르게 콘텐츠를 만들 수 있도록 돕는 AI 지원 글쓰기 도우미다. 이를 소셜 미디어 게시물, 비즈니스 계획, 웹사이트, 블로그, 시, 일기, 창의적 글쓰기 등에 활용할 수 있다. 이 기능을 사용하면 입력한 텍스트 프롬프트를 기반으로 문장, 단락, 목록, 테두리 등을 생성할 수 있다.

캔바 매직라이트를 통해 텍스트 프롬프트를 입력하거나 문서의 기존 텍스트를 활용하여 문구를 생성할 수 있다. 무언가를 쓰고 싶지만 시작하는 것이 어려울 때 매직 글쓰기를 활용하여 블로그를 작성하고, 아이디어를 브레인스토밍하며, 비즈니스 전략 개요를 작성함과 동시에 마케팅 계획을 시작할 수 있다. 게다가 소셜 미디어 게시물, 이메일 등을 작성해 볼 수도 있다. 텍스트 입력에 드는 시간을 절약하고 곧바로 편집 단계로 나아갈 수 있다. 매직라이트는 프롬프트를 기반으로 맞춤형 텍스트를 생성하므로 결과물을 교정하고 편집하기만 하면 된다.[48]

프로그래밍

깃허브 코파일럿

깃허브 코파일럿(GitHub Copilot)

깃허브 코파일럿(GitHub Copilot)은 깃허브오픈AI가 코드의 자동 완성을 통해 비주얼 스튜디오 코드, 비주얼 스튜디오, 네오빔(Neovim), 젯브레인즈 통합 개발 환경(IDE)의 사용자들을 도울 수 있도록 개발한 클라우드 기반 인공지능 도구이다. 개인 개발자들이 구독을 통해 사용이 가능하다. 이 도구는 2021년 6월 29일 깃허브에 의해 처음 발표되었으며 파이썬, 자바스크립트, 타입스크립트, 루비, Go 언어로 코딩하는데 최적이다.

깃허브 코파일럿은 인간과 유사한 텍스트를 생성하기 위해 딥러닝을 사용하는 언어 모델인 GPT-3(Generative Pre-trained Transformer 3)의 수정된 프로덕션 버전인 오픈AI 코덱스를 기반으로 한다. 코덱스 모델은 12가지 프로그래밍 언어로 된 기가바이트 규모의 소스 코드에 대해 추가로 훈련되었다. 코파일럿의 오픈AI 코덱스는 엄선된 영어, 공개 깃허브 저장소 및 기타 공개적으로 사용 가능한 소스 코드에 대해 교육을 받았다. 여기에는 5,400만 개의 공개 깃허브 저장소에서 가져온 159GB의 파이썬 코드로 구성된 필터링된 데이터 세트가 포함된다. 오픈 AI의 GPT-3는 깃허브의 모회사인 마이크로소프트에만 라이선스가 부여된다.

자연어로 프로그래밍 문제가 제공되면 코파일럿은 솔루션 코드를 생성할 수 있다. 또한 입력 코드를 영어로 설명하고 프로그래밍 언어 간 코드를 번역할 수도 있다. 깃허브 코파일럿에는 코드 주석을 실행 가능한 코드로 변환하고, 코드 덩어리, 코드의 반복 섹션, 전체 메서드 및 기능에 대한 자동 완성과 같은 프로그래머를 위한 보조 기능이 포함되어 있다. 깃허브는 코파일럿의 자동 완성 기능이 대략 절반의 시간 동안 정확하다고 보고한다. 예를 들어, 일부 파이썬 함수 헤더 코드를 사용하면 코파일럿은 첫 번째 시도에서 43%, 10번 시도 후 57%에서 함수 본문 코드의 나머지 부분을 올바르게 자동 완성했다. 깃허브에서는 코파일럿의 기능을 통해 사용자가 문서를 읽는 데 소요되는 시간을 줄여 프로그래머가 익숙하지 않은 코딩 프레임워크와 언어를 탐색할 수 있다고 말한다.[49]

탭나인

탭나인(Tabnine)

탭나인(Tabnine)은 인공지능 기반의 소스코드 관리 플랫폼이다. AI 기술을 사용한 소프트웨어로 소스코드를 자동으로 완성해줘 개발자의 프로그래밍을 돕는다. 오픈소스 코드뿐 아니라 개발자가 만든 코드도 선택적으로 학습시킬 수 있어 작업 효율성을 대폭 개선할 수 있다. 파이썬, 자바스크립트 등 널리 쓰이는 프로그래밍 언어별 12개 이상의 AI 모델 라인업을 갖췄다. 깃허브(GitHub), 깃랩(GitLab) 등 데이터 오픈소스 사이트와도 연동된다. 삼성전자의 기업주도형 벤처캐피털(CVC) '삼성넥스트'은 2022년 6월 마감한 탭나인의 1550만 달러 규모 펀딩 라운드를 주도한 바 있다.[50]

탭나인은 2023년 3월 로그 포스트에서 탭나인이 깃허브 코파일럿 엔터프라이즈와 다른 점을 조명했다. 회사가 설명한 차별점에는 코드 개인 정보 보호, 오픈소스 코드 준수, 그리고 프라이빗 AI 모델 학습 등이 있다. 탭나인 사용자는 프라이빗 환경에서 코드를 작성하고 AI 모델을 활용할 수 있는 반면 깃허브 코파일럿은 인터넷 연결을 요구한다. 또한 탭나인은 AI 모델을 학습하기 위해 오픈소스 코드만 사용하지만, 깃허브 코파일럿은 코드 무단 사용에 대한 소송을 받은 바 있다. 마지막으로 탭나인 사용자는 자신이 작성한 코드를 직접 AI 모델을 학습시킬 수 있지만 코파일럿 사용자는 개인 맞춤형 학습을 위해 별도의 요금제에 가입해야 하며, 심지어 깃허브 웹사이트에 코드를 업로드 해야 한다.[51]

저작권

대한민국을 비롯해 대부분의 국가는 AI 생성물의 저작권을 인정하지 않는다. 저작권으로 인정받기 위해서는 인간의 창의성 기술, 노력의 결과로써 만든 고유한 창작물만 저작권법상 저작물로서 보호가 가능하기 때문이다. 현행 저작권법 해석에 따르면 ‘인간의 창작물’만이 저작물 이어서 ‘권리능력을 가진 자연인 또는 법인’만이 저작자로 인정한다. <저작권법 제2조>에 따르면, ‘저작물’은 인간의 사상 또는 감정을 표현한 창작물을 말한다. ‘저작자’는 저작물을 창작한 자를 말한다. 즉, 생성형 AI가 자동적으로 생성한 결과물은 현행 저작권법의 보호 대상이 아니다. 하지만 인간이 AI가 생성한 결과물에 창작적 표현을 추가했다면 그 기여 부분에 대해서는 저작권을 가질 수 있다.

다른 사람이 게시한 생성형 AI 콘텐츠를 재사용하면 저작권 위반에 해당하지 않는다. 생성형 AI 작성 콘텐츠에는 현행 저작권법상 저작권이 인정되지 않는다. 생성형 AI 개발사가 이용자들에게 산출물에 대한 모든 권리를 양도하고 상업적으로 판매, 이용할 수 있도록 하고 있더라도 AI 이용자가 산출물의 저작권을 취득한 것이 아니며 타인의 재사용을 금지할 수 있는 권리 또한 없다. 단, 생성형 AI가 학습한 원저작물에 대해서는 저작권 침해 문제가 제기될 수 있다. 따라서 생성형 AI를 활용해서 얻은 결과물이라는 출처 표기는 필수다.

생성형 AI를 활용해 유명인의 얼굴이 나오는 콘텐츠를 제작했는데 SNS에 업로드 시 초상권 문제가 발생할 수 있다. 생성형 AI 결과물이더라도 공인의 초상임을 알 수 있는 콘텐츠는 무단 게시가 불가능하다. 연예인이나 유명인뿐 아니라 국민이라면 누구나 그의 초상이 허락 없이 촬영, 묘사, 영리적으로 이용되는 것을 거부할 수 있다. 무단 이용자에 대해 손해배상 청구 및 게시 중단 청구가 가능하다.[52]

성장

코로나 팬데믹은 원격 작업으로의 전환과 산업 전반의 디지털화로 생성형 AI 시장에 긍정적인 영향을 미쳤다. 팬데믹 동안 많은 기업이 머신러닝인공지능을 도입했으며, IBM의 “Global AI Adoption Index 2022” 보고서에 따르면, 53% 이상의 IT 전문가가 팬데믹 대응으로 인공지능(AI) 도입을 가속화했다. AI를 활용해 COVID-19 바이러스와 다양한 영상 시스템을 감지하는 진단 도구를 개발했으며, 디지털 플랫폼의 급속한 발전이 생성형 AI 애플리케이션의 채택을 더욱 촉진시켰다. 예를 들어, 2020년 6월에는 아마존 웹 서비스(Amazon Web Services)가 AWS 딥컴포저 제품에 새로운 생성형 AI 알고리즘인 자가회귀 합성곱 신경망(Autoregressive Convolutional Neural Network, AR-CNN)을 추가해 우수한 음악을 디지털로 제작할 수 있게 했다.

그랜드 뷰 리서치(Grand View Research)의 최신 보고서에 따르면, 글로벌 생성형 AI 시장은 2022년 101억 4천만 달러로 평가되었으며, 2023년부터 2030년까지 연평균 35.6% 성장해 1천93억 7천만 달러 규모에 이를 것으로 예상된다. 초고해상도, 텍스트에서 이미지, 텍스트에서 비디오로의 변환과 같은 기술 발전과 산업 전반에서 워크플로 현대화에 대한 수요 증가로 생성형 AI 애플리케이션 시장은 확대될 것이다. 또한, 인공지능(AI) 및 딥러닝의 발전, 창의적인 응용 프로그램 및 콘텐츠 생성의 증가, 클라우드 저장소의 혁신으로 인한 쉬운 데이터 접근도 긍정적인 영향을 미친다. 더 높은 수준의 비주얼과 상호작용, 그리고 더 현실적인 느낌을 제공하는 AI 기술을 활용한 게임의 도입이 앞으로의 시장을 견인할 것이다.[1]

성장 요인

다양한 분야에서 인공지능 통합 시스템의 사용 확대

생성형 AI 애플리케이션의 증가는 개선된 계산 능력과 다양한 산업 분야의 문제를 해결할 수 있기 때문이다. 예를 들어, 생성형 AI는 사진 처리와 영화 복원에 적합하며, 저해상도 사진을 고해상도로 스케일업하는 데 도움을 준다. 오래된 사진과 영화를 4K 이상으로 스케일업하여 초당 60프레임을 생성하고 노이즈 제거, 색상 추가, 선명화를 통해 이미지를 개선한다. 2023년 1월, 알레테아 AI(Alethea AI)와 폴리곤(Polygon)은 생성형 AI 캐릭터 프로젝트를 위해 "생성형 AI 콜렉터블 캠페인"을 개최했다. 이 캠페인은 빠른 AI 캐릭터의 생성, 훈련 및 거래를 폴리곤의 NFT로 가능하게 한다. 생성형 AI를 통해 컴퓨터는 데이터를 기반으로 사용자와 상호작용하여 원본 콘텐츠를 창조하며, 이러한 발전은 생성형 AI 시장 성장에 기여하고 있다.

메타버스의 가상세계 & 산업 전반에 걸친 워크플로 현대화

생성형 AI의 잠재적 응용 분야는 매우 광범위하며, 업무 수행 방식을 변화시켜 산업과 비즈니스 모델을 혁신할 수 있는 큰 잠재력을 가지고 있다. AI 개발자들은 생성형 AI를 사용하여 새로운 가상세계와 게임 환경을 만든다. 생성형 AI는 가상현실(VR) 개발자가 독특하고 몰입도 있는 게임 환경의 무한 라이브러리를 만들 수 있도록 지원한다. 또한, 메타버스에서는 이미지, 음향, 3D 모델과 같은 사람이 만든 자산을 기반으로 컴퓨터의 무작위성과 처리 능력을 적용하여 유사한 원본 자산을 생성할 수 있다. 예를 들어, 엔비디아(Nvidia)는 3D 아티스트들을 위해 오디오 투 페이스(Audio2Face), 오디오 투 제스처(Audio2Gesture), 오디오 투 이모션(Audio2Emotion)을 포함한 실험적인 생성형 AI 도구 스위트를 옴니버스(Omniverse) 포털에 추가하여 3D 캐릭터애니메이션할 수 있도록 한다. 오디오 투 페이스를 통해 오디오 파일에서 표정을 생성하고, 오디오 투 이모션으로 감정을 만들며, 오디오 투 제스처로 제스처를 생성할 수 있다. 생성형 AI의 초기 도입은 인간과 AI의 협업에 초점을 맞출 것으로 예상된다.

기계학습과 딥러닝의 디지털 역량

생성형 AI는 다양한 개발 프로그램의 효율성을 향상시킨다. 머신러닝 알고리즘을 사용하여 방대한 양의 데이터를 분석하고 패턴과 동향을 파악하여 의사 결정에 활용함으로써 프로그램 결과를 개선할 수 있다. 생성형 AI는 이미지 개선이나 컴퓨터로 생성된 음성을 인간의 목소리처럼 들리도록 변환할 수 있으며, 청중 데이터를 분석하여 개인화된 음악 재생목록, 뉴스 피드 등의 콘텐츠를 생성할 수도 있다.

정부의 이니셔티브

많은 정부들이 생성형 AI와 같은 신기술의 혁신을 지원하고 있다. 2022년 8월, 미국의 일반 서비스 관리청(GSA)은 생성형 AI와 머신러닝을 활용하여 조달 기능을 최적화하고 주요 지표에 대한 가시성을 제공하며 조달 추세에 대한 인사이트와 예측 서비스를 제공하고 있다. 또한, 중국 정부는 코로나로부터 비롯된 혁신을 지원하기 위해 생성형 AI에 관심을 가지고 있으며, 기술 기업들은 정부의 지원을 받아 AI 유니버스 개발에 노력하고 있다. 중국의 기술 기업들은 중국의 취향과 정치적 상황에 맞는 AI 봇들을 대중에게 선보이고 있다.

생성형 AI가 다양한 동인으로 성장하고 많은 비즈니스 기회를 제공하지만, 딥페이크, 저작권 문제, 편향 및 부정확하게 생성된 콘텐츠, 데이터 및 정보 유출, 악의적 불법 활동에 대한 오용 등 해결해야 할 도전 과제들이 있다. 이해관계자들은 이러한 위험을 인식하고 대비해야 한다.[1]

시장

북미 지역은 2022년에 40.2%의 점유율로 시장을 주도했다. 이는 가상 상상력 및 의료 서비스의 증가, 은행 사기의 급증, 그리고 다양한 산업에 걸친 워크플로 현대화 등 여러 요인에 기인한다. 예를 들어, 2021년 첫 4개월 동안 미국의 디지털 사기 시도는 2020년 동기 대비 약 25% 이상 증가했으며, 금융 서비스 분야의 사기 시도는 약 109% 증가했다. 이러한 요인들로 인해 북미 지역은 예측기간(2023~2030년) 동안 연평균 35.6% 성장할 것으로 예상된다. 메타, 마이크로소프트, 구글 등 미국 중심의 주요 시장 참여업체와 발전된 기술 기업들, 그리고 전문가들의 존재가 북미 시장을 지원할 것이다. 대형 기술 기업들은 생성형 AI 스타트업과 기술에 투자하고 있으며, 미디어 및 엔터테인먼트, 헬스케어 등의 산업에서 AI 생성 콘텐츠에 대한 수요 증가, 모델 훈련을 위한 대량의 데이터 가용성, 그리고 특정 작업을 위한 미세 조정(Fine-tuning) 증가 등이 북미 시장 성장에 영향을 미치고 있다.

아시아-태평양(아태) 지역은 예측기간(2023~2030년) 동안 연평균 36.5% 성장률로 가장 빠르게 성장할 것으로 예상된다. 인도, 한국, 중국 등의 신흥 경제국에서 인공지능의 채택과 통합을 지원하기 위한 정부의 적극적인 이니셔티브가 증가하고 있으며, 많은 기업들이 생성형 AI 적용을 위한 개발 및 실험에 집중하고 있다. 이러한 요소들이 아태 지역의 시장 성장을 촉진하고 있다.[2]

소프트웨어 부문

소프트웨어 부문은 2022년에 가장 큰 매출 점유율인 64.8%를 차지했으며, 예측기간(2023~2030년) 동안에도 시장을 주도할 것으로 예상된다. 소프트웨어 부문은 R&D 활동의 급증과 생성적 설계의 성장으로 인해 건축, 공학, 제품 개발에서 새로운 독특한 디자인을 만들기 위해 AI 활용이 확대되고 있다. 또한, 하드웨어 시스템에서 수신한 데이터를 통합하고, AI 시스템으로 처리하여 신속하고 지능적인 결과를 생성하는 능력으로 인해 시장 성장이 가속화될 것이다. 강력한 기계학습 모델 기반의 생성형 AI 애플리케이션은 패션, 엔터테인먼트, 운송 등 다양한 산업과 분야에서 중요한 역할을 할 것으로 예상된다. 예를 들어, H&M과 아디다스와 같은 브랜드는 생성형 AI를 활용하여 의류 디자인과 맞춤형 운동화를 만들었으며, 생성형 AI 기술은 패브릭과 인쇄물을 위한 독특한 패턴 생성에도 사용되어 디자이너들의 시간과 노력을 절약하고 있다.

서비스 부문은 예측기간(2023~2030년) 동안 가장 빠른 성장률인 36.5%를 기록할 것으로 예상된다. 이 세그먼트의 성장은 데이터 보호, 거래 예측, 위험 요소 모델링 및 사기 탐지와 관련된 요구가 커지기 때문일 수 있다. 최근 몇 년 동안 의료 및 금융을 포함한 많은 업종에서 데이터 손실 및 보안 위반에 대한 우려가 급격히 증가했으며, 이로 인해 시장 참여자들은 문제를 해결하기 위해 더욱 발전된 서비스를 개발하고 있다. 클라우드 기반 생성형 AI 서비스는 유연성, 확장성, 비용 효율성을 제공하여 서비스 부문의 성장을 견인할 것으로 예상된다.[2]

트랜스포머 부문

기술 관점에서 시장은 생산적 적대 신경망(GANs), 트랜스포머(Transformers), 변분 오토인코더(VAEs), 그리고 확산 네트워크(Diffusion Networks)로 세분화된다.

  • 생산적 적대 신경망(GANs, Generative Adversarial Nets) : 생성형 AI의 핵심 기술 중 하나로, 기계가 피드백을 기반으로 학습하고 출력 품질을 향상할 수 있게 해준다. GANs는 두 개의 네트워크로 구성된다. 하나는 출력을 생성하는 생성자 네트워크이고, 다른 하나는 출력 품질을 평가하는 판별자 네트워크다. 이 두 네트워크를 함께 훈련함으로써 GANs는 인간이 만든 콘텐츠와 구별하기 어려울 정도로 현실적인 콘텐츠를 생성할 수 있다.
  • 트랜스포머(Transformers) : 훈련 데이터의 숫자적 표현을 계산하여 문맥과 의미를 학습하는 심층 신경망 아키텍처다. 이 방법은 데이터 요소들 간의 미세한 관계를 감지하기 위해 주목(Attention) 또는 셀프-주목(Self-attention) 기법을 사용한다. 트랜스포머는 자연어 처리(NLP)에서 텍스트와 음성을 실시간으로 처리할 수 있으며, RNN 등 기존 기술에 비해 실행 속도가 빠르다. 2022년에는 가장 큰 매출 점유율인 41.5%를 차지했으며, 예측 기간(2023~2030년) 동안 연평균 34.9% 성장할 것으로 예상된다. 이는 자연어 처리 수요 증가와 텍스트를 이미지로 변환하는 트랜스포머 애플리케이션의 채택 증가 때문이기도 하다. 예를 들어, 달리는 텍스트 데이터를 이미지로 변환하는 트랜스포머를 활용했으며, GPT-3는 텍스트-텍스트 트랜스포머 기술을 사용하여 사람처럼 보이는 텍스트를 생성할 수 있다.
  • 변분 오토인코더(VAEs, Variational Autoencoders) : 데이터의 잠재 변수를 학습하고, 데이터를 생성하기 위해 확률적 접근 방식을 사용하는 딥러닝 모델이다. VAEs는 데이터의 구조를 이해하고 새로운 데이터를 생성하는 데 유용하며, 주로 이미지 생성과 복원 작업에 사용된다.
  • 확산 네트워크(Diffusion Networks) : 예측 기간(2023~2030년) 동안 가장 빠른 성장률인 38.1%를 기록할 것으로 예상된다. 이 기술은 원본 데이터를 무작위로 만드는 과정을 역으로 추적하여 새로운 데이터를 생성한다. 먼저 원본 데이터에 무작위 잡음을 추가하여 데이터를 "diffuse"시키고, 이 과정을 여러 단계를 거쳐 수행하여 원본 데이터가 균일한 노이즈 분포로 변한다. 이후 이 과정을 거꾸로 추적하여 원본 데이터를 재구성하고, 이 과정에서 원본 데이터와 유사한 새로운 데이터를 생성한다. 확산 네트워크는 GANs의 단점을 극복하고, 노이즈를 더 잘 처리하며 비슷하거나 더 높은 품질의 이미지를 생성할 수 있다. 이 기술은 이미지 생성, 다양한 예술 스타일로의 렌더링, 애니메이션 생성 등 다양한 기능에 활용된다.[2]

LLM 분야

모델 관점에서 대형 언어 모델(LLM, Large Language Model) 세그먼트는 2022년에 33.6%의 점유율로 시장을 주도했으며, 예측 기간 동안 연평균 35.0%로 성장할 것으로 예상된다. 이 세그먼트의 성장은 사용자와 대화를 나눌 수 있는 챗봇부터 제품 설명이나 기사를 작성할 수 있는 콘텐츠 생성 도구 등 다양한 응용에서 비롯된다. 대형 언어 모델은 자연어 처리(NLP) 응용 프로그램 개발의 시간과 비용을 줄이는 데 도움을 줄 수 있다. GPT와 같은 대형 언어 모델은 인간과 유사한 언어를 이해하고 생성할 수 있어, 다양한 응용 분야에서 유용하게 활용되고 있다.

멀티모달 생성 모델은 예측 기간 동안 가장 빠른 성장률인 41.6%를 기록할 것으로 예상된다. 생성형 AI는 멀티 모달리티를 지원하여 이미지, 텍스트, 음성 등 여러 모달리티를 동시에 처리할 수 있으며, 이는 응용 영역의 확장과 다양성 증가로 이어진다. 멀티 모달 생성 모델은 여러 모달리티의 데이터 학습을 통해 더 큰 정확성과 견고성을 확보할 수 있으며, 인간처럼 유연한 사고가 가능한 한 단계 높은 차원의 모델로서 이 세그먼트의 성장을 촉진한다.

이미지 및 비디오 생성 모델은 고전적인 방법으로는 어려운 높은 품질과 현실적인 이미지 및 비디오를 빠르게 생성하는 데 기여하여 상당한 비율로 성장할 것으로 예상된다. 이미지 합성 기술은 엔터테인먼트와 게임 분야에서 더 현실적이고 몰입감 있는 가상 세계를 개발하는 데 활용되고 있다.[2]

자연어 처리 분야

응용 프로그램 관점에서 자연어 처리(NLP, Natural Language Processing) 세그먼트는 2022년에 22.5%의 점유율로 시장을 주도했으며, 예측 기간(2023~2030년) 동안 연평균 성장률 35.9%로 성장할 것으로 예상된다. NLP는 다양한 텍스트 및 음성 생성 응용 프로그램을 지원하는 강력한 생성형 AI 도구이다. 딥 러닝의 발전으로 순환신경망(Recurrent Neural Networks, RNN)과 같은 신경 NLP 모델, 구글 AI 랭귀지 연구원이 개발한 버트(BERT), 오픈AI의 GPT-3와 같은 트랜스포머 모델의 개발이 이루어졌다. 이러한 모델들은 NLP 기반 생성형 AI 애플리케이션의 정확성과 효율성을 크게 향상시켜 해당 시장의 성장을 촉진하고 있다.

컴퓨터 비전 세그먼트는 예측 기간(2023~2030년) 동안 연평균 성장률 38.1%로 성장할 것으로 예상된다. 운송 및 자동차 분야에서 컴퓨터 비전 시스템의 신속한 채택이 시장 성장을 견인하고 있다. 컴퓨터 비전 시스템의 빠른 처리와 높은 정확성, 그리고 경제적 이점이 컴퓨터 비전 시장을 주도하는 주요 요인 중 하나이다. 또한, 보안 감시, 헬스케어 및 모니터링과 같은 비 산업용 애플리케이션에서의 사용 증가가 컴퓨터 비전 시장에 유리한 기회를 제공하고 있다.[2]

각주

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 홍은주, 〈ChatGPT를 넘어, 생성형 AI(Generative AI)의 미래 – 1편〉, 《삼성SDS》, 2023-08-18
  2. 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11 2.12 2.13 2.14 2.15 홍은주, 〈ChatGPT를 넘어, 생성형 AI(Generative AI)의 미래 – 2편〉, 《삼성SDS》, 2023-08-25
  3. 챗GPT〉, 《위키백과》
  4. 공공지능정책과, 〈인공지능, 공공부문에서 똑똑하고 안전하게 활용〉, 《행정안전부》, 2023-05-08
  5. 5.0 5.1 KIAT 산업기술정책단 정책기획실, 〈<KIAT 애자일 2023년 제 1호> 챗GPT, 생성형 AI가 가져올 산업의 변화〉, 《한국산업기술진흥원》, 2023-03-06
  6. 박보경, 한성수, 〈챗 GPT 의 문제점과 한계에 대한 고찰〉, 《한국정보처리학회 춘계학술발표대회》, 2023-05-18
  7. 정한영 기자, 〈생성 AI 전쟁, 그 끝은 어딜까?...구글 '제미나이' 최대 100만 토큰 컨텍스트 창으로 무장한 차세대 모델 '제미나이 1.5 프로' 출시〉, 《인공지능신문》, 2024-02-16
  8. 김가은 기자, 〈구글 차세대 LLM '제미니'가 온다…연말 생성형 AI 경쟁 격화〉, 《이데일리》, 2023-09-18
  9. Microsoft Copilot is now generally available〉, 《Microsoft Bing Blog》, 2023-12-02
  10. 황정수 기자, 〈"기업들이 생성형 AI 쓰면, 한국 잠재 생산역량 620조 증가"〉, 《한국경제》, 2023-08-28
  11. 11.0 11.1 유성무, 송태원, 이민정, 최윤주, 설순욱, 〈특허 데이터 기반 생성형 AI 기술 동향 분석〉, 《한국정보전자통신기술학회논문지》, 2024
  12. 박현진 기자, 〈생성 AI 시대, “보는데 3분, 만드는데 150분 역전될까”...웹툰에 스며드는 인공지능으로 제작환경 바꾼다〉, 《인공지능신문》, 2023-08-28
  13. 박설민 기자, 〈생성형 AI가 만든 새로운 ‘디지털 격차’에 대비하라〉, 《시사위크》, 2024-04-02
  14. 뤼튼이 모두에게 한도 없는 AI를 제공하는 이유〉, 《뤼튼커뮤니티》, 2023-11-19
  15. 염현주 기자, 〈<인터뷰> 뤼튼테크놀로지스 이세영 대표, 생성 AI 앱 ‘뤼튼’으로 글쓰기 고민↓〉, 《스타트업투데이》, 2023-03-08
  16. 박수형 기자, 〈이세영 뤼튼 "인터넷처럼...누구나 생성AI 쓰는 시대 온다"〉, 《지디넷코리아》, 2023-03-08
  17. 전미준 기자, 〈인기 끝내주는 눈달린 챗GPT 'AskUp' 카톡 챗봇... 3일만에 채널친구 3만명 돌파, 최적의 답 찾아 제공〉, 《인공지능신문》, 2023-03-09
  18. AskUp 공식 사용 가이드 Vol. 2 - 기능 모음편〉, 《업스테이지》, 2023-08-16
  19. AskUp(아숙업) 공식 사용 가이드 Vol. 1 - 친구 추가편〉, 《업스테이지》, 2023-03-20
  20. DesignerAllan, 〈AskUp(아숙업)에 대한 모든 것 : 사용법 및 활용 사례〉, 《티스토리》, 2023-04-06
  21. 최근 AI 인공지능의 10년 역사 – 10대 사건 중심으로〉, 《디지털인사이트매거진》, 2023-02-07
  22. cocoa, 〈(논문 리뷰) DALL-E 2 : Hierarchical Text-Conditional Image Generation with CLIP Latents〉, 《티스토리》, 2022-05-08
  23. 박하나, 〈이미지 생성 인공지능(AI) 달리(DALL·E)의 활용 사례 연구〉, 《단국대학교》, 2023-01-26
  24. insight.coco, 〈이미지 생성형 AI '달리2', '미드저니' UX 장단점 분석〉, 《요즘IT》, 2023-07-17
  25. 홀릭스 HOLIX, 〈생성형 AI로 디자인하기 / DALL-E, Midjourney를 활용한 디자인 스터디〉, 《네이버 블로그》, 2023-07-24
  26. 생성형 AI 실무적용을 위한 Midjourney 미드저니 성공전략 : 프롬프트엔지니어링의 이해와 적용〉, 《위디엑스》
  27. 27.0 27.1 James AI Explorer, 〈AI 논문 분석 : 생성형 AI 모델 종류 및 특징 정리〉, 《티스토리》, 2023-11-14
  28. 새우까앙, 〈<논문리뷰> Stable Diffusion(High-Resolution Image Synthesis with Latent Diffusion Models)〉, 《티스토리》, 2023-11-24
  29. Will Douglas Heaven, 〈스테이블 디퓨전 개발사, 새로운 영상 생성 AI 공개〉, 《MIT 테크놀로지 리뷰》, 2023-02-15
  30. 유현우, 〈<이슈리포트> 2023-4-미국 의회 조사국 「생성형 AI와 저작권법(Generative Artificial Intelligence and Copyright Law)」검토 보고서〉, 《웰콘》, 2023-11-08
  31. KOSEN-코센리포트, 〈생성형 AI 주요 이슈 및 동향 <5월 사전주제> 생성형 AI 주요 이슈 및 동향〉, 《사이언스온》, 2023-05-17
  32. 더 프로스트 AI 영화 감상하기
  33. 브이캣 공식 홈페이지 - https://vcat.ai/
  34. 이대호, 〈브이캣, ‘AI로 영상 자동 제작’ CES 2024 혁신상 수상〉, 《바이라인네트워크》, 2023-11-15
  35. Runway Research, 〈Gen-2: Generate novel videos with text, images or video clips〉, 《Runway》, 2023-02
  36. ools for human imagination.〉, 《Runway》
  37. Generate Al videos with just text〉, 《Invideo AI》
  38. 클로바더빙 공식 홈페이지 - https://clovadubbing.naver.com/
  39. CLOVA Dubbing - 사용자가 입력한 문장을 음성으로 변환하여 영상에 합성할 수 있는 서비스〉, 《네이버클라우드플랫폼》
  40. 백지영 기자, 〈(2023 IT혁신상품) "나만의 AI목소리 만들어요"…KT 'AI 보이스 스튜디오'〉, 《디지털데일리》, 2023-12-21
  41. AI 연기자 서비스 ‘타입캐스트’, 가입자 100만명〉, 《플래텀》, 2022-02-11
  42. 5주년 네오사피엔스, 주요 성과 담은 인포그래픽 공개〉, 《플래텀》, 2022-11-17
  43. 타입캐스트〉, 《나무위키》
  44. 박현진 기자, 〈아이마이폰, AI 음성 합성 프로그램 ‘복스박스’ 출시...한국어·일어·영어 등 46개 이상 언어 지원〉, 《인공지능신문》, 2023-06-23
  45. 김미정 기자, 〈(리뷰) 노션AI 한글판, 간단 업무에 능숙...긴 글 작성은 '버벅'〉, 《지디넷코리아》, 2023-02-24
  46. 테크플러스 윤정환 기자, 〈글쓰기 알아서 뚝딱, ‘노션 AI’ 직접 써봤다〉, 《전자신문》, 2023-02-18
  47. 캔바, 모든 사용자 및 비즈니스를 위한 세계 최초 올인원 AI 디자인 제품 출시로 10주년 기념〉, 《뉴스와이어》, 2023-10-05
  48. Magic Write를 사용하여 텍스트 생성〉, 《캔바》
  49. 깃허브 코파일럿〉, 《위키백과》
  50. 홍성일 기자, 〈'삼성전자 투자' AI 소스코드 플랫폼 '탭나인', 월간 사용자 100만 돌파〉, 《더구루》, 2023-03-24
  51. Paul Krill, 〈AI 코딩 툴 탭나인, 유닛 테스트 자동화 기능 발표〉, 《CIO코리아》, 2023-02-24
  52. 방송통신위원회, 〈생성형 AI가 만든 저작물 저작권은 누가 갖게 될까요?〉, 《대한민국 정책브리핑》, 2024-04-04

참고자료

같이 보기


  검수요청.png검수요청.png 이 생성형 AI 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.