검수요청.png검수요청.png

픽스트랄

위키원
이동: 둘러보기, 검색

픽스트랄(Pixtral)은 프랑스인공지능 스타트업 미스트랄(Mistral)에서 개발한 멀티모달 인공지능 모델이다. 이미지텍스트를 모두 처리할 수 있는 기능을 갖추고 있다. 이 모델은 오픈소스로 공개되어 누구나 상업적으로 사용할 수 있는 장점이 있다.

아사달 스마트 호스팅 가로 배너 (since 1998).jpg
이 그림에 대한 정보
[아사달] 스마트 호스팅

개요[편집]

픽스트랄은 이미지텍스트를 동시에 처리할 수 있는 멀티모달 인공지능(Multimodal AI) 모델이다. 멀티모달 AI는 서로 다른 형태의 데이터를 결합하여 분석하고 처리하는 인공지능을 의미하는데, 픽스트랄은 이미지와 텍스트를 동시에 이해하고 처리하는 데 특화되어 있다. 픽스트랄의 핵심은 픽스트랄 12B로, 이는 기존의 거대언어모델(LLM)인 네모(Nemo) 12B에 비전 어댑터(Vision Adapter)가 추가된 형태이다. 이 비전 어댑터는 총 4억 개의 매개변수로 구성되어 있으며, 네모 12B 모델의 텍스트 처리 능력을 보완해 이미지 처리 기능을 추가한다. 이를 통해 단순 텍스트뿐만 아니라 이미지를 입력받고 이를 해석해 물체 인식과 이미지 자막 작성, 질문에 대한 답변 제공 등 시각적 작업을 수행할 수 있다.[1]

픽스트랄 12B는 경쟁사인 클로드(Claude)가 제공하는 멀티모달 능력과 유사한 기능을 갖추고 있지만, 이미지 생성 기능은 포함되지 않는다. 대신 클로드와의 주요 차이점은 오픈소스로 공개되었다는 것이다. 이는 개발자나 연구자들이 자유롭게 픽스트랄을 사용할 수 있도록 한다는 점에서 큰 의미를 가진다.[2]

특징[편집]

비전 어댑터[편집]

비전 어댑터는 픽스트랄 12B에서 핵심적인 역할을 담당한다. 비전 어댑터는 AI 모델이 이미지 데이터를 처리할 수 있도록 지원하는 기능 모듈이다. 이를 통해 픽스트랄은 텍스트 기반 모델에 이미지 처리를 추가해, 해상도가 1024x1024인 이미지를 입력받고 분석할 수 있다. 웹상의 URL 이미지를 불러오거나 Base64 인코딩을 통해 이미지를 텍스트 형식으로 변환하여 처리하는 것도 가능하다. 이를 바탕으로 이미지에서 물체를 인식하고, 해당 이미지에 맞는 자동 자막 생성 작업을 수행할 수 있다.[3]

오픈소스[편집]

픽스트랄 12B는 깃허브(GitHub)와 허깅페이스(Hugging Face)의 토렌트 링크를 통해 오픈소스로 제공된다. 이를 통해 누구나 이 모델을 다운받아 사용할 수 있으며, 전체 파일 크기는 약 24GB에 달한다. 이 모델은 개인 개발자뿐만 아니라 상업적 용도로도 자유롭게 활용할 수 있다는 점에서 큰 잠재력을 가지고 있다.

또한, AI 챗봇인 르챗(Le Chat)과 AI 개발 플랫폼 라플랫폼(La Platforme)에서도 픽스트랄 12B를 테스트용으로 제공할 예정이다. 이를 통해 기업이나 개인 개발자는 픽스트랄을 기반으로 다양한 AI 애플리케이션을 개발하고 각자의 목적에 맞게 커스터마이징할 수 있다. 예를 들어, 시각적인 작업을 필요로 하는 프로젝트나 서비스에 적용하여 업무 효율성을 크게 향상시킬 수 있을 것이다.[4]

각주[편집]

  1. 이덕주 기자, 〈유럽 대표 AI기업 미스트랄, 멀티모달 능력 갖춘 ‘픽스트랄’공개〉, 《매일경제》, 2024-09-12
  2. 이석원 기자, 〈미스트랄, 첫 멀티모달 AI 모델 발표했다〉, 《테크레시피》, 2024-09-13
  3. 박찬 기자, 〈미스트랄, 최초의 멀티모달모델 '픽스트랄 12B' 출시〉, 《AI타임스》, 2024-09-12
  4. 남혁우 기자, 〈미스트랄AI, 텍스트·이미지 한번에 처리하는 멀티모달 AI 선보여〉, 《지디넷코리아》, 2024-09-12

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 픽스트랄 문서는 인공지능 서비스에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.