모달리티

모달리티(modality)는 인공지능(AI)에서 데이터를 표현하는 방식 또는 입력 유형을 의미한다. 다양한 형태의 데이터를 처리하는 AI 시스템에서 중요한 역할을 한다. 모달리티는 음성, 텍스트, 이미지, 비디오와 같은 서로 다른 유형의 데이터 소스를 나타내며, 이러한 데이터를 기반으로 AI 시스템은 더 복합적이고 정교한 분석과 결정을 내릴 수 있다.

상세[편집]

모달리티는 데이터 표현의 방식을 의미하며, AI 시스템이 다양한 유형의 데이터를 이해하고 처리하는 방법을 나타낸다. 예를 들어, 인간의 감각은 시각, 청각, 촉각 등 다양한 형태의 입력을 통해 세상을 인식하는데, AI 시스템도 이와 유사하게 텍스트, 이미지, 음성 등 다양한 입력을 처리한다. 이러한 다양한 입력 유형을 모달리티라고 부르며, AI 시스템은 각 모달리티에 맞는 방법으로 데이터를 분석하고, 필요한 경우 여러 모달리티를 결합하여 더 풍부한 정보를 제공할 수 있다.^[1]

단일 모달리티[편집]

단일 모달리티는 하나의 데이터 유형만을 처리하는 시스템을 의미한다. 예를 들어, 자연어 처리(NLP) 시스템은 텍스트 데이터를 기반으로 동작하며, 컴퓨터 비전 모델은 이미지나 비디오 데이터를 처리하는 방식이다. 이러한 시스템은 특정 유형의 데이터에 대해 매우 효율적이지만, 실제 세상의 복잡한 정보는 단일 데이터 유형으로 표현되지 않는 경우가 많다. 그래서 단일 모달리티 시스템은 특정 상황에서는 한계를 가질 수 있다.^[2]^[3]

멀티 모달리티[편집]

멀티 모달리티는 여러 유형의 데이터를 동시에 처리할 수 있는 시스템을 의미한다. 이는 여러 모달리티 간의 상호작용을 통해 더 풍부한 분석을 가능하게 한다. 예를 들어, 멀티모달 AI(Multimodal AI) 시스템은 텍스트, 음성, 이미지, 비디오 등 다양한 데이터 유형을 통합하여 분석한다. 이러한 시스템은 예를 들어, 의료 영상 데이터와 의사 소견서 텍스트를 함께 처리해 보다 정확한 진단을 내리는 데 사용될 수 있다. 예를 들어 텍스트와 이미지를 결합한 오픈AI의 클립(CLIP) 모델이나 달리(DALL-E)와 같은 멀티모달 모델은 이미지에 대한 설명을 생성하거나, 반대로 텍스트 기반으로 이미지를 생성할 수 있다. 이는 멀티 모달리티 시스템의 대표적인 사례로, 서로 다른 모달리티 간의 관계를 학습하여 다양한 작업에 응용할 수 있다.^[2]^[3]

필요성[편집]

단일 모달리티 시스템은 특정 데이터 유형에 대해서는 매우 강력한 성능을 발휘할 수 있지만, 실제 세상에서는 다양한 형태의 정보가 결합되어 나타난다. 인간이 세상을 인식할 때 시각, 청각, 촉각을 결합해 복합적으로 정보를 처리하는 것처럼, AI도 이러한 다양한 데이터 모달리티를 결합하여 더 깊이 있는 이해를 제공할 수 있다. 멀티모달 AI는 이런 복합적인 데이터를 처리하기 위해 개발된 시스템이다. 이 시스템은 두 가지 이유로 중요하다.

첫 번째는 다양한 감각 통합이다. 멀티모달 AI는 여러 모달리티를 결합해 더 풍부한 맥락을 제공하고, 이를 통해 더욱 정확한 결과를 도출할 수 있다. 예를 들어, 텍스트와 이미지, 비디오와 음성을 결합한 분석은 각각을 개별적으로 처리하는 것보다 더 유의미한 정보를 제공할 수 있다. 두 번째는 자연스러운 인간과 컴퓨터의 상호작용 때문이다. 멀티모달 시스템은 사람과의 상호작용에서 자연스러움을 더한다. 예를 들어, 음성 인식과 제스처 인식을 결합하여 사용자의 의도를 더 정확하게 파악할 수 있다.

응용[편집]

멀티모달 AI는 다양한 분야에서 중요한 역할을 하고 있다. 대표적인 응용 분야는 자율주행, 의료, 음성비서 및 챗봇이다. 자율주행 시스템은 카메라, 레이더, 라이더와 같은 다양한 센서를 통해 얻은 데이터를 결합해 도로 상황을 분석하고, 주행 경로를 결정한다. 이처럼 다양한 모달리티의 데이터를 종합해 더 정확하고 안전한 주행을 지원한다.^[4] 또한 의료 AI는 MRI, CT 스캔과 같은 영상 데이터를 분석하는 것과 동시에 환자의 진료 기록이나 의사 소견서를 텍스트로 처리하여 더 나은 진단과 치료 방안을 제시할 수 있다.^[5] 더불어 멀티모달 챗봇은 음성 명령과 텍스트 기반 상호작용을 결합하여 사용자와의 소통을 더 자연스럽게 한다. 예를 들어, 음성으로 질문하면 텍스트나 이미지로 답변을 제공하는 식으로 상호작용할 수 있다.^[6]

도전 과제[편집]

모달리티를 효과적으로 다루기 위해서는 여러 기술적 과제가 따른다. 각 모달리티는 고유한 데이터 특성을 가지고 있기 때문에, 이들을 통합해 일관성 있게 처리하는 것은 매우 어렵다. 먼저 데이터 정렬 및 동기화다. 서로 다른 모달리티의 데이터는 다른 시간적, 공간적 특성을 가질 수 있다. 예를 들어, 비디오 데이터와 음성 데이터는 동기화가 필요하며, 이를 처리하는 알고리즘은 두 모달리티 간의 타이밍 차이를 잘 처리해야 한다. 다음으로는 다양한 데이터 처리 방법이다. 텍스트 데이터는 자연어 처리(NLP)를 통해, 이미지 데이터는 컴퓨터 비전(CV)을 통해 각각 다른 방식으로 처리된다. 이러한 다양한 처리 방식을 효과적으로 통합하는 것이 기술적 도전 과제 중 하나다.

각주[편집]

↑ 김병필 KAIST 기술경영학부 교수, 〈멀티모달리티 인공지능〉, 《중앙일보》, 2024-05-20
↑ ^2.0 ^2.1 소셜크리에이터 조남호 프로, 〈인간처럼 사고하는 멀티모달(Multi Modal) AI란?〉, 《삼성SDS》, 2022-10-21
↑ ^3.0 ^3.1 테코피디아, 〈(IT용어 알아보기) 멀티모달 AI(Multimodal AI)란? Singlemodal AI와의 차이점과 인공지능의 미래〉, 《네이버 블로그》, 2024-03-20
↑ 최광민 기자, 〈확장 가능한 인공지능 멀티모달 매핑 엔진으로 자율주행 기능 지원하는 엔비디아의 ‘드라이브 맵’〉, 《인공지능신문》, 2022-04-04
↑ 박준 기자, 〈DGIST, 의료영상 분석 정확성 높이고 시간·비용 절감 AI기술 개발〉, 《대구광역시》, 2023-09-20
↑ 〈멀티모달 모델〉, 《나무위키》

참고자료[편집]

〈멀티모달 모델〉, 《나무위키》
최광민 기자, 〈확장 가능한 인공지능 멀티모달 매핑 엔진으로 자율주행 기능 지원하는 엔비디아의 ‘드라이브 맵’〉, 《인공지능신문》, 2022-04-04
소셜크리에이터 조남호 프로, 〈인간처럼 사고하는 멀티모달(Multi Modal) AI란?〉, 《삼성SDS》, 2022-10-21
박준 기자, 〈DGIST, 의료영상 분석 정확성 높이고 시간·비용 절감 AI기술 개발〉, 《대구광역시》, 2023-09-20
테코피디아, 〈(IT용어 알아보기) 멀티모달 AI(Multimodal AI)란? Singlemodal AI와의 차이점과 인공지능의 미래〉, 《네이버 블로그》, 2024-03-20
김병필 KAIST 기술경영학부 교수, 〈멀티모달리티 인공지능〉, 《중앙일보》, 2024-05-20

같이 보기[편집]

이 모달리티 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

인공지능 : 인공지능 서비스, 인공지능 로봇, 인공지능 기술^□^■^⊕, 인공지능 기업, 인공지능 인물

인공지능 기술	AI 워싱 • 랭체인 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링

문자인식과 음성인식	ICR • OCR • OMR • TTS • URL • 글자 • 답변 • 대화 • 동영상 • 디자인 • 맥락 • 문서 • 문자 • 문자인식 • 문자채팅 • 발음 • 번역 • 분류 • 상담 • 소스코드 • 스토리 • 얼굴 • 얼굴인식 • 음성 • 음성채팅 • 음성인식(STT) • 이미지 • 인공어 • 인공지능 음성 • 자막 • 자연어 • 질문 • 채팅 • 코드 • 코딩 • 텍스트 • 통번역 • 통역 • 파일 • 폴더 • 화상채팅 • 화자인식

인공지능 데이터	데이터라벨러 • 데이터라벨링 • 데이터셋 • 돌마 • 벡터 • 벡터DB • 벡터공간 • 스칼라 • 임베딩 • 크라우드워커 • 토큰 • 토큰화

인공지능 학습	ADP • CoLLM • DALL-E • DDPG • DQN • LAM • LMM • SARSA • sLLM • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 과적합 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 메타추론 • 모델 기반 강화학습 • 모델 프리 강화학습 • 미세조정(파인튜닝) • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 어니 • 에이전트 • 인공지능 학습 • 전이학습 • 준지도학습 • 지도학습 • 추론 • 학습 • 확률적 경사하강법

인공지능 알고리즘	AGI • ANI • ASI • RAG • XAI • 가중치 • 관계형 네트워크(RN) • 뉴런 • 다층퍼셉트론 • 단층퍼셉트론 • 데이터마이닝 • 방사신경망 • 볼츠만 머신 • 분산 샌드박스 • 생성대립신경망(GAN) • 생성형 AI • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 시그모이드 함수 • 신경망 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 역전파 • 은닉층 • 인공신경망(ANN) • 인공지능(AI) • 제한 볼츠만 머신(RBM) • 전방전달신경망 • 주의 메커니즘 • 코헨 자기조직 신경망 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 합성곱 신경망(CNN)

계산복잡도	NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 프로그램	BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 알렉스넷 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 파이토치 • 한돌

인공지능 특징	결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론

인공지능 법적 지위	권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[1] 김병필 KAIST 기술경영학부 교수, 〈멀티모달리티 인공지능〉, 《중앙일보》, 2024-05-20

[.EC.82.BC.EC.84.B1SDS-2] 2.0 ^2.1 소셜크리에이터 조남호 프로, 〈인간처럼 사고하는 멀티모달(Multi Modal) AI란?〉, 《삼성SDS》, 2022-10-21

[.ED.85.8C.EC.BD.94.ED.94.BC.EB.94.94.EC.95.84-3] 3.0 ^3.1 테코피디아, 〈(IT용어 알아보기) 멀티모달 AI(Multimodal AI)란? Singlemodal AI와의 차이점과 인공지능의 미래〉, 《네이버 블로그》, 2024-03-20

[4] 최광민 기자, 〈확장 가능한 인공지능 멀티모달 매핑 엔진으로 자율주행 기능 지원하는 엔비디아의 ‘드라이브 맵’〉, 《인공지능신문》, 2022-04-04

[5] 박준 기자, 〈DGIST, 의료영상 분석 정확성 높이고 시간·비용 절감 AI기술 개발〉, 《대구광역시》, 2023-09-20

[6] 〈멀티모달 모델〉, 《나무위키》

[1]

[2]

[3]

[4]

[5]

[6]

위키원

이름공간

변수

보기

더 보기

검색