검수요청.png검수요청.png

멀티모달 AI

위키원
이동: 둘러보기, 검색

멀티모달 AI(Multimodal Artificial Intelligence)는 인간사물의 양상을 다양한 감각기관으로 받아들이는 것처럼, 해당 역할이 가능한 여러 인터페이스를 통해 서로 다른 감각이나 유형의 정보를 컴퓨터가 학습하여 사고할 수 있게 만든 인공지능(AI)이다. 모달리티(Modality)는 사전상 뜻이 ‘양식’ 또는 ‘양상’을 의미한다. 즉 어떤 형태로 나타나는 현상이나 그것을 받아들이는 방식을 말한다.[1] 여기서 멀티모달(Multimodal)이 의미하는 것은 여러 양상들을 말하는 것이며, 사람이 시각, 청각 등의 오감을 이용하여 사물에 대한 정보를 파악하고 받아들이는 것을 의미한다.

상세[편집]

멀티모달 AI는 텍스트, 이미지, 음성 등 다양한 형태의 데이터를 동시에 처리할 수 있는 인공지능 기술을 의미한다. 이 기술을 통해 기계는 인간처럼 여러 감각을 동시에 활용할 수 있어, 보다 풍부하고 복잡한 정보를 이해하고 처리할 수 있다. 일상생활에는 다양한 형태의 정보가 복합적으로 존재한다. 단일 유형의 데이터만을 처리하던 기존 AI와 비교해, 멀티모달 AI는 보다 복잡하고 다양한 작업을 수행할 수 있어 그 잠재력이 크다.

모달(Modal)이라는 용어는 모달리티(Modality)의 축약형이다. 모달리티는 특정한 정보나 통신의 유형을 나타내는 전문 용어로, 텍스트 모달리티는 텍스트 데이터를 의미하며 주로 자연어 처리에 사용된다. 또한, 이미지나 비디오와 같은 시각적 데이터를 나타내는 비주얼 모달리티와, 음성이나 소리와 관련된 데이터를 나타내는 오디오 모달리티 등이 있다. 모달리티라는 용어가 사용되는 이유는, 이 개념이 여러 데이터 형식이나 채널 간의 관계와 상호작용을 포함하는 복잡한 개념을 설명하기 때문이다. 멀티모달 AI는 이러한 다양한 모달리티들을 결합하여 복잡한 패턴을 인식하거나 예측하는 데 활용된다. 각 모달리티는 상호보완적인 정보를 제공하며, 함께 사용될 때 전체 시스템의 성능을 향상시킬 수 있다.[2]

비교[편집]

기존 AI[편집]

오늘날 대부분의AI 시스템은 단일모달(Unimodal) 방식으로 작동한다. 이러한 시스템은 한 가지 유형의 데이터만 처리하도록 설계되어 있으며, 해당 모달리티에 맞춘 알고리즘을 사용한다. 예를 들어, 챗GPT와 같은 단일모달 AI 시스템은 자연어 처리(NLP) 알고리즘을 사용하여 텍스트 콘텐츠를 이해하고 의미를 추출하며, 생성할 수 있는 유일한 출력 역시 텍스트이다.[3]

즉, 기존의 AI는 텍스트나 자연어를 이해하는 데 중점을 두어 왔다. 인류가 생성한 방대한 양의 데이터 중 상당 부분이 텍스트 형태로 남겨져 있으며, 사람이 주고받는 언어를 이해하는 자연어 처리가 전제되어야만 명제와 추론을 수행할 수 있다고 판단되었기 때문이다. 사람이 하는 질문을 우선 이해해야 그에 대한 답변을 제공할 수 있기 때문이다. 그러나 여기서 문제가 발생한다. AI는 실제로 단어가 의미하는 것이 어떤 형태로 존재하는지, 그리고 현실 세계에서 어떤 모습으로 나타나는지를 이해하지 못한다. 예를 들어, '남자가 말을 타고 있다'라는 문장에서 AI는 '탄다(ride)'라는 개념을 충분히 이해하지 못하며, 말의 크기나 타는 방식에 대한 명확한 인식을 하지 못한다. 즉, 데이터 처리나 통계 분석, 텍스트 검색은 가능하지만 인간과 유사한 방식으로 사고하는 것은 불가능하다. AI가 현실 세계를 더 잘 인식하도록 하려면 멀티모달 AI의 등장이 필수적이다.

가장 잘 알려진 멀티모달 AI 중 하나는 오픈AI에서 개발한 달리2(DALL-E 2)이다. 오픈AI는 달리2를 통해 AI가 인간의 언어를 시각적으로 어떻게 이해하는지를 보여주고자 했다. 달리2는 사용자가 입력한 문장을 바탕으로 해당 문장을 시각적으로 표현한 이미지를 생성한다. 예를 들어, 달리2는 사용자가 입력한 문장을 '이렇게 이해하고 있다'는 식으로 이미지를 통해 시각화한다. 달리2는 기존 이미지들을 개체별로 분류하고 이름을 부여한 후, 이미지 내에서의 위치, 색상, 그리고 동작을 이해한다. 또한, 이미지를 설명하는 텍스트 간의 관계를 학습한다.

간단하게 설명하면, 달리2는 수많은 우주비행사, 고양이, 농구공 등의 이미지를 학습한 후 '이런 모습이다'라는 형태로 개체를 이해하게 된다. 이후, 어떤 사진에서든 해당 개체를 분별해 낼 수 있다. 또한, 우주비행사는 우주유영을 어떻게 하고, 고양이는 어떻게 움직이며 앉아있는지, 농구공은 어떻게 사용되는지 등을 동작을 통해 이해하게 된다. 예를 들어, 달리2에게 '우주에서 고양이와 농구를 하는 장면'을 그림으로 생성해 달라고 요청하면, 해당 요청을 바탕으로 이미지를 생성한다. 또한, 달리2는 특정 화풍이나 스타일을 이해하고, 요청에 따라 인상파 화가 모네 스타일, 앤디 워홀 스타일, 어린이 동화 일러스트 스타일 등 다양한 표현 방식으로 이미지를 생성할 수 있다.[4]

발전 및 유형[편집]

그동안 생성형 AI 시장은 수천억 개 이상의 매개변수를 가진 텍스트 기반의 LLM이 주도했지만, 2024년에는 대규모 멀티모달 모델(LMM)이 새롭게 부상하고 있다. 멀티모달 기술은 텍스트뿐만 아니라 이미지, 영상, 음성 등 다양한 데이터를 분석하고 추론할 수 있는 능력을 의미한다. 챗GPT는 대화형 LLM으로, 대화 인터페이스를 통해 LLM의 강력한 언어 처리 및 생성 능력을 활용할 수 있게 해주는 모델이다.

더욱 진화된 LMM은 텍스트, 이미지, 오디오 등 다양한 데이터 유형을 통합하고 해석하여, 텍스트 전용 모델에서 손실된 맥락, 감정, 미묘한 뉘앙스까지 이해할 수 있는 상호작용이 가능한 수준으로 발전하고 있다. 생성형 AI 또한 텍스트, 이미지, 코드 등 유니모달에서 멀티모달로 진화하고 있다. 아래 표[5]는 입력 및 출력 양식에 따라 멀티모달 AI의 유형을 더 자세히 살펴본 내용이다.[6]

다양한 유형의 멀티모달 AI에 대한 분류.jpg

멀티모달 AI는 인간이 오감을 사용하여 정보를 수용하는 것처럼, 다양한 채널의 모달리티를 동시에 이해하고 사용할 수 있다. 멀티모달 AI를 통해 인간의 오감 기능을 터득한 AI는 로봇, 자율주행, 헬스케어 등과 연계되어 가까운 미래에 우리의 삶을 송두리째 바꿀 잠재력을 지닌 기술로 기대와 두려움의 대상이 될 수 있다. 아래 그림[7]에서 구글제미나이(Gemini)는 텍스트, 이미지, 오디오, 동영상, 코드에서 추론이 가능한 네이티브(native) 멀티모달 AI로, 다양한 상호작용을 보여주고 있다.[6]

멀티모달 AI와 상호작용.jpg

구현 기술[편집]

멀티모달 AI 기술은 주로 입력 모듈, 융합 모듈, 출력 모듈로 구성된다. 입력 모듈은 다양한 유형의 데이터를 받아 전처리하거나, 개별 데이터 양식에 대한 인코딩을 수행한다. 융합 모듈은 서로 다른 양식으로 처리된 정보를 여러 융합 기법을 사용하여 통합한다. 출력 모듈은 통합된 데이터 분석 결과를 텍스트, 이미지, 오디오, 동영상 등 다양한 형식으로 출력하는 기능을 담당한다. 이러한 세 가지 기능을 기반으로, 데이터 퓨전 기술, 모달리티 인코딩 기술, 크로스-모달 학습 기술이 결합되어 멀티모달 AI가 구현된다.

데이터 퓨전 기술[편집]

멀티모달 AI는 다양한 양식(모달)의 데이터를 효과적으로 결합하는 기술이다. 단순히 여러 양식의 데이터를 합치는 것을 넘어, 각 양식의 데이터 간의 관계를 파악하고 의미 있는 정보를 추출하는 데 중점을 둔다. 이를 ‘데이터 퓨전 기술’이라 하며, 이 기술은 데이터 처리의 초기 단계, 중간 단계, 그리고 독립적인 처리 후 결합 방식에 따라 세 가지 주요 방식으로 구분된다.

먼저, ‘얼리퓨전(Early Fusion)’ 방식은 데이터의 초기 처리 단계에서 다양한 양식의 데이터를 결합하는 방법이다. 이 방식은 모델에 데이터를 입력하기 전에 다양한 데이터 소스를 통합하여 단일의 ‘특징 집합’을 생성한다. 예를 들어, 이미지 픽셀 값과 관련 텍스트의 단어 벡터를 결합하여 하나의 큰 특징 벡터를 형성한다. 이 방식은 다양한 양식 간의 상호작용을 모델이 쉽게 학습할 수 있게 하지만, 각 양식의 고유한 특성을 잃을 수 있는 단점이 있다.

다음으로, ‘인터미디에이트 퓨전(Intermediate Fusion)’ 방식은 각 양식으로부터 추출된 특징들을 모델의 중간 단계에서 결합하는 방법이다. 이 방식은 초기 단계에서 결합하는 얼리퓨전과는 달리, 각 양식의 데이터를 독립적으로 처리하여 특징을 추출한 후 이들을 결합한다. 이 접근 방식은 양식마다 서로 다른 특징을 보존하면서도, 다른 양식과의 상호작용을 학습할 수 있다는 장점이 있다. 그러나 최적의 융합 단계를 찾기가 어렵거나, 모델 학습 과정이 복잡할 수 있다는 지적이 있다.

마지막으로, ‘레이트 퓨전(Late Fusion)’은 각 양식의 데이터를 독립적으로 처리한 뒤, 예측이나 결정을 내리고 이러한 결과를 결합하여 최종 결정을 내리는 방식이다. 이 방식은 각 양식에서 도출된 결론이나 예측을 통합하는 데 중점을 둔다. 레이트 퓨전은 각 양식의 독립적인 처리를 통해 유연한 모델 설계가 가능하지만, 양식 간의 복잡한 상호작용을 학습하는 데에는 한계가 있을 수 있다는 지적이 있다.[8]

모달리티 인코딩 기술[편집]

멀티모달 AI를 구현하기 위해서는 이미지, 텍스트, 음성, 영상 등 다양한 양식의 데이터가 필요하며, 이들 데이터는 각각 고유한 특징과 구조를 갖고 있다. 이러한 데이터의 특징과 구조를 효과적으로 활용하기 위해서는 각 양식에 특화된 인코딩 기술이 필수적이다. 즉, 각 양식의 데이터 특성을 최대한 유지하면서 인코딩을 수행하여 정보 손실을 최소화해야 한다.

또한, 멀티모달 AI의 성능을 향상시키기 위해서는 각 양식 간의 연관성을 효과적으로 표현해야 한다. 예를 들어, 이미지는 합성곱 신경망(CNN)을 이용하여 데이터의 특징을 추출하고 인코딩한다. 텍스트는 자연어 처리(NLP) 기술을 통해 텍스트의 특징을 추출하며, 음성 데이터는 음성 인식 기술을 적용하여 처리한다. 영상 데이터는 영상 처리 기술을 활용하여 양식별 특징을 추출하고 인코딩을 생성한다.[8]

크로스-모달 학습[편집]

또 다른 멀티모달 AI 기술로는 ‘크로스-모달 학습’이 있다. 이는 이미지, 텍스트, 음성, 영상 등 서로 다른 양식의 데이터를 함께 학습하여 모델의 성능을 향상시키는 기술이다. 즉, 입력과 출력의 양식이 서로 다른 모달 기술을 동시에 학습하는 방식이다.

각 양식의 데이터는 서로 다른 정보를 제공하며, 이러한 정보를 통합함으로써 더 정확한 결정을 내릴 수 있다. 한 가지 양식의 데이터가 부족할 경우, 다른 양식의 데이터를 활용하여 학습 효과를 높일 수 있다. 또한, 다양한 양식의 데이터를 학습함으로써 모델의 일반화 능력을 향상시킬 수 있으며, 서로 다른 양식의 데이터를 연결하여 새로운 정보를 추출할 수 있다. 따라서, 서로 다른 양식의 데이터를 공통된 표현 방식으로 변환하여 학습하거나, 각 양식의 중요도를 고려하여 학습 과정에서 집중할 부분을 조절하며, 한 양식의 정보를 다른 양식으로 변환하여 학습하는 접근법이 사용된다. 이러한 ‘크로스-모달’ 기술은 영상 콘텐츠 제작, 교육 및 학습 콘텐츠 개발, 예술 및 디자인, 게임, 제품 설계 및 시뮬레이션 등 다양한 분야에서 활용될 수 있다.[8]

사례[편집]

GPT-4[편집]

GPT-4오픈AI에서 개발한 첨단 언어 모델로, 멀티모달 처리 능력을 갖춘 최신 모델 중 하나이다. GPT-4는 텍스트와 이미지를 동시에 처리할 수 있는 기능을 제공하여, 복잡한 멀티모달 작업을 효과적으로 수행할 수 있다. 이 모델의 핵심은 대규모의 텍스트와 이미지 데이터를 통해 훈련된 강력한 트랜스포머 아키텍처에 있다. GPT-4는 특히 이미지텍스트 간의 상호작용을 정교하게 모델링할 수 있는 기능을 자랑한다. 예를 들어, 사용자가 입력한 텍스트 설명에 기반하여 관련 이미지를 분석하거나, 반대로 이미지를 기반으로 적절한 텍스트 설명을 생성할 수 있다. 이는 이미지 캡셔닝이나 텍스트 기반 이미지 검색과 같은 작업에서 유용하다. GPT-4의 멀티모달 능력 덕분에 사용자는 텍스트와 이미지를 결합하여 더욱 풍부하고 정확한 정보를 얻을 수 있다.

이 모델은 제로샷 학습(zero-shot learning) 능력을 갖추고 있어, 특정 작업에 대한 사전 훈련 없이도 효율적으로 학습하고 수행할 수 있다. 예를 들어, 모델이 특정 이미지에 대한 설명을 생성해야 할 때, 사전 훈련된 지식을 바탕으로 적절한 텍스트를 생성할 수 있는 것이다. 이러한 제로샷 학습 능력은 모델이 다양한 멀티모달 작업에 빠르게 적응할 수 있게 한다. GPT-4의 멀티모달 처리 능력은 대화형 AI, 문서 작성, 이미지 기반 질문 응답 등 다양한 분야에서 활용될 수 있다. 예를 들어, 사용자와의 자연스러운 대화를 생성하는 대화형 AI 시스템에서는 GPT-4가 텍스트와 이미지 정보를 결합하여 더욱 풍부하고 유용한 대화 경험을 제공할 수 있다. 또한, 문서 작성이나 편집, 번역 등의 작업에서도 GPT-4의 고품질 텍스트 생성 능력이 큰 도움이 된다.

달리3[편집]

달리3(DALL-E 3)는 오픈AI에서 개발한 최신 멀티모달 AI 모델로, 텍스트와 이미지를 동시에 처리하여 복잡한 이미지 생성 작업을 수행할 수 있는 능력을 지니고 있다. 이 모델의 핵심은 텍스트 설명을 바탕으로 고해상도의 이미지를 생성하는 것이며, 텍스트와 이미지 간의 복잡한 관계를 이해하고 활용하는 데 중점을 두고 설계되었다. 달리3는 멀티모달 처리 능력에서 큰 발전을 이루었다. 이 모델은 사용자가 입력한 텍스트 설명을 세밀하게 분석하여, 그에 상응하는 이미지를 생성하는 데 필요한 복잡한 시각적 정보를 정확하게 반영할 수 있다. 예를 들어, 사용자가 “우주복을 입은 고양이가 우주에서 우주선을 조종하고 있다”는 텍스트를 입력하면, 달리3는 이 설명에 맞는 독창적인 이미지를 생성한다. 이는 단순히 텍스트의 내용뿐만 아니라, 맥락과 의미를 깊이 이해하고 시각적으로 구현하는 능력을 기반으로 한다.

이 모델은 상상력과 창의성을 발휘할 수 있는 기능이 뛰어나며, 기존의 이미지를 그대로 복제하는 것이 아니라 텍스트의 의미를 바탕으로 새로운 형태의 이미지를 창조한다. 이러한 기능은 예술적 디자인이나 콘텐츠 제작 등에서 매우 유용하게 활용된다. 예를 들어, 상상 속의 동물이나 장면을 시각화하거나, 특정 컨셉에 맞는 고유한 비주얼을 만들어낼 수 있다. 달리3의 멀티모달 능력은 다양한 응용 분야에서 강력한 도구가 된다. 디자인 분야에서는 사용자가 간단한 텍스트 설명만으로 복잡한 디자인 시안을 생성할 수 있으며, 콘텐츠 제작에서는 광고, 마케팅, 소셜 미디어 등에서 필요한 맞춤형 이미지를 빠르게 생성할 수 있다. 교육 분야에서는 복잡한 개념을 시각적으로 설명하는 데 도움을 줄 수 있으며, 가상 현실과 게임 개발에서는 새로운 환경이나 캐릭터 디자인을 창조하는 데 유용하게 사용될 수 있다.

또한, 달리3는 고해상도 이미지 생성을 지원하며, 이는 모델이 생성하는 이미지의 세밀함과 품질을 크게 향상시킨다. 이전 버전인 달리2에 비해 디테일과 정밀도가 개선되어, 사용자에게 더욱 현실적이고 선명한 이미지를 제공할 수 있다. 이 모델은 대규모의 텍스트-이미지 쌍 데이터를 통해 훈련되었으며, 이로 인해 텍스트와 이미지 간의 복잡한 관계를 이해하고 이를 바탕으로 혁신적인 이미지 생성이 가능하다.

플라밍고[편집]

플라밍고(Flamingo)는 구글(Google) 딥마인드(DeepMind)에서 개발한 최신 멀티모달 모델로, 비디오와 텍스트를 통합적으로 처리할 수 있는 혁신적인 시스템이다. 이 모델은 비디오 데이터와 자연어를 동시에 이해하고 분석하는 능력을 갖추어, 비디오 기반의 다양한 작업을 수행하는 데 중점을 두고 설계되었다. 플라밍고는 비디오 데이터를 텍스트와 결합하여, 보다 정교하고 풍부한 정보 처리를 가능하게 한다. 플라밍고의 핵심 기능 중 하나는 비디오와 텍스트의 통합 처리 능력이다. 전통적으로, 비디오와 텍스트는 별개의 데이터 유형으로 처리되었으나, 플라밍고는 이 두 가지를 효과적으로 결합하여 상호작용할 수 있도록 설계되었다. 예를 들어, 사용자가 비디오에 대한 특정 질문을 입력하면, 플라밍고는 비디오의 내용을 분석하고 관련된 텍스트 정보를 바탕으로 정확한 답변을 생성할 수 있다. 이는 비디오의 시각적 및 시간적 정보를 텍스트 기반의 질문과 통합하여 해석하는 능력 덕분에 가능하다.

비디오 이해와 분석은 플라밍고의 주요 강점 중 하나이다. 비디오 데이터는 단순한 이미지 시퀀스가 아니라, 시간에 따른 동작과 상호작용을 포함하고 있다. 플라밍고는 이러한 시간적 흐름을 이해하고, 비디오의 다양한 장면과 동작을 분석하여 텍스트와 결합할 수 있는 정보를 추출한다. 예를 들어, “이 비디오에서 주인공이 무엇을 하고 있나요?”라는 질문에 대해, 플라밍고는 비디오의 시간적 흐름을 분석하고 주인공이 수행하는 동작을 파악하여 적절한 설명을 제공할 수 있다. 이 모델은 비디오 캡셔닝(video captioning)과 같은 작업에서도 뛰어난 성능을 발휘한다. 비디오 캡셔닝은 비디오의 내용에 대해 자연어로 설명하는 작업으로, 플라밍고는 비디오의 시각적 요소를 분석하고 이를 바탕으로 정확하고 풍부한 설명을 생성한다. 이 기능은 비디오 콘텐츠에 대한 자동 캡션 생성이나 비디오 요약을 자동화하는 데 유용하게 활용될 수 있다.

또한, 플라밍고는 비디오 기반의 질문 응답 시스템으로서도 강력한 기능을 제공한다. 사용자가 비디오에 대한 질문을 하면, 플라밍고는 비디오를 분석하여 질문에 대한 답변을 제공한다. 이 과정에서 비디오의 주요 장면, 시간적 흐름, 행동 등을 종합적으로 고려하여 정확한 답변을 생성할 수 있다. 이는 교육용 비디오, 교육 콘텐츠, 고객 지원 비디오 등 다양한 분야에서 유용하게 활용될 수 있다. 시간적 연속성을 이해하는 플라밍고의 능력은 비디오 데이터의 중요한 측면을 처리하는 데 필수적이다. 비디오의 장면이 단순히 정적인 이미지로 나열된 것이 아니라, 시간에 따라 변화하고 상호작용하는 정보를 포함하고 있기 때문에, 플라밍고는 이러한 시간적 요소를 효과적으로 분석하고 활용할 수 있도록 설계되었다. 이 모델은 비디오의 시간적 연속성을 이해하고 이를 바탕으로 보다 정교한 텍스트와 비디오의 상호작용을 가능하게 한다.[9]

클립[편집]

클립(CLIP; Contrastive Language-Image Pretraining)은 오픈AI에서 개발한 혁신적인 멀티모달 모델로, 텍스트와 이미지를 동시에 이해하고 분석하는 데 중점을 두고 설계되었다. 클립의 주요 강점은 텍스트와 이미지 간의 관계를 효과적으로 이해하고 활용하는 능력에 있다. 이 모델은 대규모의 텍스트-이미지 쌍 데이터로 훈련되어, 다양한 멀티모달 작업에서 강력한 성능을 발휘한다. 클립의 작동 방식은 대조적 학습에 기반한다. 이 모델은 텍스트와 이미지 각각을 벡터로 변환하고, 이 벡터들을 동일한 임베딩 공간에서 비교하여 텍스트와 이미지 간의 유사성을 평가한다. 구체적으로, 클립는 입력된 텍스트 설명과 관련된 이미지가 임베딩 공간에서 가까운 위치에 있도록 학습된다. 예를 들어, 사용자가 "해변에서 서핑하는 사람"이라는 텍스트를 제공하면, 클립은 이 텍스트와 가장 관련이 깊은 이미지를 검색하거나 식별할 수 있다. 이 과정에서 텍스트와 이미지는 동일한 벡터 공간에서 비교되며, 이로 인해 두 가지 데이터 유형 간의 관계를 효과적으로 이해하고 활용할 수 있다.

제로샷 학습은 클립의 또 다른 중요한 특징이다. 클립는 특정 작업이나 데이터셋에 대해 사전에 훈련되지 않아도, 텍스트와 이미지의 관계를 일반적으로 이해하고 처리할 수 있는 능력을 갖추고 있다. 이는 모델이 새로운 유형의 텍스트-이미지 쌍을 빠르게 학습하고, 적응할 수 있게 해준다. 예를 들어, 클립은 훈련 데이터에 포함되지 않은 새로운 카테고리의 이미지를 텍스트 설명과 연관 지어 검색하거나 분류할 수 있다. 클립의 멀티모달 능력은 다양한 응용 분야에서 유용하게 활용될 수 있다. 이미지 검색에서, 사용자가 특정 텍스트 설명을 입력하면, 클립은 이 설명과 관련된 이미지를 효과적으로 찾을 수 있다. 이는 인터넷에서 이미지 검색을 더욱 정교하고 유용하게 만들어준다. 또한, 이미지 캡셔닝 작업에서도 클립은 이미지의 내용에 대해 적절한 설명을 생성하는 데 도움을 줄 수 있다. 이러한 기능은 이미지 기반의 질문 응답 시스템에서도 강력한 성능을 발휘할 수 있다. 모델의 훈련 과정에는 대규모 데이터셋이 사용되며, 이는 클립이 다양한 주제와 스타일의 텍스트와 이미지를 이해할 수 있게 해준다. 클립은 다양한 텍스트 설명과 이미지 쌍을 통해 훈련되어, 폭넓은 범위의 시각적 및 언어적 개념을 포괄적으로 학습한다.[10]

가토[편집]

가토(Gato)는 딥마인드(DeepMind)에서 개발한 멀티모달 AI 모델로, 다양한 유형의 입력 데이터를 통합적으로 처리할 수 있는 범용 시스템이다. 이 모델은 텍스트, 이미지, 비디오, 로봇 제어 신호 등 여러 종류의 데이터 유형을 동시에 이해하고 분석할 수 있는 능력을 갖추고 있다. 가토는 범용 트랜스포머 아키텍처를 기반으로 설계되었으며, 이 모델은 다양한 데이터 입력을 처리할 수 있도록 하나의 통합된 네트워크를 통해 작동한다. 가토의 멀티모달 처리 능력은 이 모델의 핵심 강점 중 하나다. 기존의 많은 AI 모델은 특정 데이터 유형에 맞춰 설계되었으나, 가토는 텍스트, 이미지, 비디오 등 다양한 유형의 데이터를 동시에 처리할 수 있도록 훈련되었다. 예를 들어, 가토는 사용자가 제공하는 텍스트 설명과 관련된 이미지를 검색하거나, 비디오에서 특정 동작을 식별하며, 로봇 제어 신호를 통해 로봇의 동작을 조정하는 등의 작업을 수행할 수 있다. 이러한 기능은 가토가 다양한 멀티모달 환경에서 유용하게 활용될 수 있도록 해준다.

범용성은 가토의 또 다른 주요 장점이다. 이 모델은 하나의 네트워크를 통해 여러 도메인의 작업을 동시에 수행할 수 있으며, 이는 다양한 유형의 데이터 입력에 대해 일관된 성능을 발휘할 수 있게 해준다. 예를 들어, 가토는 텍스트 기반의 자연어 처리, 이미지 생성, 비디오 분석, 로봇 제어 등 여러 가지 작업을 통합적으로 처리할 수 있다. 이는 모델이 여러 가지 도메인에 걸쳐 효율적으로 작동할 수 있도록 한다. 실제 사용 사례로는, 가토가 로봇 제어 분야에서 로봇의 동작을 정밀하게 조정하거나, 이미지와 비디오 분석에서 시각적 데이터를 기반으로 텍스트 설명을 생성하는 것 등이 있다. 사용자가 "이 비디오에서 주인공이 무엇을 하고 있나요?"라는 질문을 입력하면, 가토는 비디오의 내용을 분석하여 주인공의 동작을 설명하는 답변을 제공할 수 있다. 또 다른 예로, 가토는 로봇에게 "물건을 잡아서 테이블 위에 놓는" 작업을 수행하도록 제어 신호를 전달하고, 이를 정확하게 실행할 수 있다. 가토의 통합 처리 능력은 다양한 데이터 유형을 하나의 모델에서 처리할 수 있게 해주며, 이는 개별적인 모델을 개발하고 유지관리하는 데 드는 비용과 복잡성을 줄여준다. 모델은 대규모의 텍스트, 이미지, 비디오, 로봇 제어 신호 데이터로 훈련되었으며, 이를 통해 다양한 유형의 데이터를 효과적으로 이해하고 활용할 수 있는 능력을 갖추었다.[11]

도전과제[편집]

멀티모달 AI는 여러 가지 요인으로 인해 단일 모달 AI보다 개발이 더 어려운 측면이 있다. 주요 요인은 다음과 같다.

  • 데이터 통합(Data integration): 다양한 소스에서 수집한 서로 다른 유형의 데이터를 결합하고 동기화하는 것은 복잡한 작업이다. 여러 모달리티를 원활하게 통합하고, 처리 파이프라인 전반에 걸쳐 일관된 데이터 품질과 시간 정렬(temporal alignment)을 유지하는 것은 어렵고 많은 시간이 소요될 수 있다.
  • 특징 표현(Feature representation): 각 모달리티는 고유한 특성과 표현 방식을 가지고 있다. 예를 들어, 이미지는 합성곱 신경망(CNN)과 같은 특징 추출 기술이 필요하며, 텍스트는 단어 임베딩이나 대규모 언어 모델(LLM)과 같은 방법이 요구된다. 서로 다른 모달리티를 의미 있는 방식으로 결합하여 표현하고, 이들의 상호 의존성을 포착하여 데이터에 대한 전반적인 이해를 높이는 것은 매우 어려운 과제이다.
  • 차원성 및 확장성(Dimensionality and scalability): 멀티모달 데이터는 일반적으로 고차원적이며, 각 모달리티가 고유한 특성 집합을 제공하기 때문에 차원 축소 메커니즘이 존재하지 않는다. 모달리티의 수가 증가할수록 데이터의 차원성도 크게 증가하여 AI 모델과 데이터 처리 알고리즘 모두에 계산 복잡성, 메모리 요구 사항, 확장성 측면에서 어려움을 초래한다.
  • 모델 아키텍처 및 융합 기술(Model architecture and fusion techniques): 멀티 모달리티에서 정보를 결합하기 위한 융합 기술과 효과적인 아키텍처를 설계하는 것은 여전히 연구가 진행 중인 분야이다. 모달리티별 처리와 모달리티 간 상호 작용 사이에서 적절한 균형을 찾는 것은 신중한 설계와 많은 실험을 필요로 하는 복잡한 작업이다.
  • 라벨링된 데이터의 가용성(Availability of labeled data): 멀티모달 AI 데이터 세트에는 다양한 형식의 라벨링된 데이터가 필요하다. 여러 가지 형식의 데이터 세트를 수집하고, 각각의 데이터에 주석을 다는 것은 매우 어려운 일이며, 대규모의 멀티모달 학습 데이터 세트를 유지하는 데는 많은 비용이 발생한다.

이러한 어려움에도 불구하고, 멀티모달 AI 시스템은 단일모달 시스템보다 사용자 친화적이며, 복잡한 현실 세계 데이터를 더 세부적으로 이해할 수 있다. 멀티모달 표현, 융합 기술, 대규모 멀티모달 데이터 세트 관리 등의 분야에서 지속적인 연구와 발전이 이루어지고 있으며, 이는 이러한 어려움을 극복하고 단일모달 AI 기능의 한계를 넘어서는 데 기여하고 있다.

활성화 후의 변화[편집]

한국에서는 LG AI 연구원에서 텍스트를 이미지로 변환하는 엑사원(EXAONE)을 발표했다.[12] 엑사원은 이미지를 텍스트로 설명할 수 있는 양방향 멀티모달 AI로 알려져 있다. 또한, 인텔카네기멜론 대학교가 협력하여 개발한 웹QA(WebQA)는 상의 데이터이미지를 학습한 후 사용자 질문에 답을 찾아주는 서비스이다. 예를 들어, 특정 새의 눈 주변 원 모양의 색상을 물어보면, '빨간색'이라고 답변을 제공할 수 있다. 현재까지는 이미지 생성 및 검색 정도로만 활용되고 있는 초기 단계에 있다. 그러나 텍스트와 이미지, 개체 간의 관계를 통해 AI가 학습하는 확산(diffusion) 모델을 사용하여 지식을 축적하는 과정으로 볼 수 있다.

멀티모달 AI가 활성화되면, 텍스트나 이미지에만 의존했던 기존의 활용 영역이 크게 변화할 것이다. 예를 들어, 챗봇 AI는 주로 고객이 말하는 자연어를 분석하여 정보를 찾는 것이 목적이었으나, 멀티모달 AI는 ‘번호판이 3X가1234인 차량의 전면부가 크게 파손된 사진’만 보험사에 전송하면, 해당 차량이 가입된 보험 상품을 검색하고, 고객의 피해 정도를 예측한 후 사고 접수와 처리를 자동으로 진행할 수 있다. 이를 통해 더욱 정확하고 명확한 판단을 내릴 수 있는 AI가 될 것이다.

또한, 테러범의 이미지를 분석하여 CCTV에서 실시간으로 찾아내는 기술이 현실화될 가능성도 있다. 자동차 업계에서는 자율주행에 필수적인 속도, 차선 위반, 운전자의 상태, 날씨 등 다양한 정보를 종합적으로 처리할 수 있는 AI도 멀티모달 기반으로 구현될 것이다. 의료 분야에서도 초기 질병 진단이나 원격 진료에 있어 중요한 역할을 할 것으로 예상된다. 멀티모달 AI는 인간과 유사한 방식으로 세상을 인식하면서도 더욱 날카롭고 정확한 분석을 제공할 수 있기 때문이다.

그러나 멀티모달 AI에 대한 우려도 존재한다. 모든 AI의 가장 큰 위험 요소는 딥페이크와 같은 AI 기반의 가짜가 범죄에 악용되거나, 편향적이거나 폭력적인 이미지와 텍스트를 학습하여 부정적인 결과를 초래하는 것이다. 이러한 이유로 달리2에서는 폭력, 혐오, 성인용 이미지를 학습 대상에서 제거하고 있으며, 공적인 인물을 포함한 실제 개인의 얼굴을 생성하지 않도록 하고 있다. 달리2가 생성한 이미지에서 사람의 얼굴이 조금 이상하게 표현되는 것도 이 때문이다. AI의 발전과 함께 인간과 동일한 수준의 책임이 요구되는 규제가 필요한 시대가 도래하고 있다.[4]

활용[편집]

전문가들은 미래에 대규모 멀티모달 데이터 세트를 기반으로 한 파운데이션 모델이 비용 효율성을 갖추게 되면서, 멀티모달 데이터 처리 능력을 활용한 더 다양하고 혁신적인 응용 프로그램과 서비스가 등장할 것으로 예상하고 있다. 대표적인 활용 사례는 다음과 같다.

  • 자율주행 차량 : 자율주행차카메라, 레이더, GPS, 라이다와 같은 다양한 센서 데이터를 더욱 효율적으로 처리하여 실시간으로 더 나은 의사결정을 내릴 수 있게 될 것이다.
  • 헬스케어 : 엑스레이나 MRI와 같은 의료 영상과 임상 기록을 결합하고, 스마트워치와 같은 웨어러블기기의 센서 데이터를 통합하여 환자 데이터를 분석함으로써 진단을 개선하고 환자에게 더 개인화된 의료를 제공할 수 있다.
  • 비디오 활용 : 멀티모달 AI를 사용해 시각 정보를 오디오, 텍스트 및 기타 모달리티와 결합하여 비디오 자막, 비디오 요약 및 비디오 검색 기능을 개선할 수 있다.
  • 인간-컴퓨터 상호 작용 : 멀티모달 AI는 인간-컴퓨터 상호 작용 시나리오에서 더 자연스럽고 직관적인 커뮤니케이션을 가능하게 할 것이다. 예를 들어, 음성 명령을 이해하고 응답하는 동시에 환경의 시각적 단서를 처리할 수 있는 음성 어시스턴트와 같은 애플리케이션이 포함된다.
  • 콘텐츠 추천 : 사용자 선호도와 검색 기록에 대한 데이터를 텍스트, 이미지, 오디오 데이터와 결합할 수 있는 멀티모달 AI는 영화, 음악, 뉴스 기사 및 기타 미디어에 대해 보다 정확하고 관련성 높은 추천을 제공할 수 있다.
  • 소셜 미디어 분석 : 텍스트, 이미지, 비디오와 같은 소셜 미디어 데이터를 감정 분석과 통합할 수 있는 멀티모달 AI는 소셜 미디어 플랫폼에서 주제 추출, 콘텐츠 모니터링, 트렌드 파악 및 이해 기능을 향상시킬 것이다.
  • 로봇 공학 : 멀티모달 AI는 물리적 로봇이 여러 모달리티를 사용하여 환경을 인식하고 상호 작용할 수 있도록 하여, 로봇공학 응용 프로그램에서 중요한 역할을 할 것이다. 이는 더 자연스럽고 견고한 인간-로봇 상호 작용을 가능하게 할 것이다.
  • 스마트 보조 기술 : 음성 데이터를 텍스트 및 이미지 데이터와 결합할 수 있는 음성 인식 시스템은 시각 장애인을 위한 사용자 경험(UX)과 제스처 기반 제어 시스템을 개선할 수 있다.[13]

각주[편집]

  1. 멀티모달(Multi Modal)AI와 기존 인공지능의 차이점〉, 《클루닉스》, 2024-07-03
  2. 류한석 류한석기술문화연구소장, 〈챗GPT다음?... 텍스트·이미지·음성 연결하는 '멀티모달 AI' 뭐길래〉, 《주간조선》, 2023-08-27
  3. Margaret Rouse, 〈멀티모달 AI〉, 《테코피디아》, 2023-03-20
  4. 4.0 4.1 소셜크리에이터 조남호 프로, 〈인간처럼 사고하는 멀티모달(Multi Modal) AI란?〉, 《삼성SDS》, 2022-10-21
  5. Multimodal Explainable Artificial Intelligence: A Comprehensive Review of Methodological Advances and Future Research Directions
  6. 6.0 6.1 정보통신기획평가원 동향분석팀 임양섭 수석/박사, 〈오픈AI를 비롯한 빅테크 기업의 멀티모달 AI 개발 현황〉, 《한국교통연구원》, 2024-06-24
  7. Google, 〈Gemini 실습: 멀티모달 AI와 상호작용〉, 《유튜브》, 2023-12-07
  8. 8.0 8.1 8.2 이보영 기자, 〈사람 닮은 멀티모달AI, ‘3가지 학습기술’로 구축〉, 《애플경제》, 2024-06-13
  9. Ffightingseok, 〈(22′ NIPS) Flamingo: a Visual Language Model for Few-Shot Learning〉, 《FFighting》
  10. KEANU, 〈Language-Image Multi-modal AI 기술 연구 - CLIP, 내가 만든 그림 평가해줘!〉, 《데보션》, 2022-10-14
  11. Justin T. 〈Gato - 무엇이든 잘하는 인공지능 모델(A Generalist Agent)〉, 《티스토리》, 2022-05-17
  12. 초거대 멀티모달 AI ‘엑사원(EXAONE) 2.0’ 공개〉, 《LG》, 2023-07-19
  13. 테코피디아, 〈(IT용어 알아보기) 멀티모달 AI(Multimodal AI)란? Singlemodal AI와의 차이점과 인공지능의 미래〉, 《네이버 블로그》, 2024-03-20

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 멀티모달 AI 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.