검수요청.png검수요청.png

엔비디아 코스모스

위키원
Asadal (토론 | 기여)님의 2025년 1월 13일 (월) 22:26 판 (같이 보기)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
이동: 둘러보기, 검색

엔비디아 코스모스(NVIDIA Cosmos)는 2025년 엔비디아가 발표한 로봇자율주행차를 개발할 수 있는 월드 파운데이션 모델(World Foundation Model, WFM) 플랫폼이다. 기존 데이터를 사용하는 것보다 저렴한 비용으로 로봇과 자율주행차를 훈련하는 데 사용하는 비디오를 생성한다.

아사달 스마트 호스팅 가로 배너 (since 1998).jpg
이 그림에 대한 정보
[아사달] 스마트 호스팅

개요[편집]

코스모스는 2025년 1월 6일 미국 라스베이거스에서 열린 CES 2025에서 공개한 새로운 물리적 AI 개발 플랫폼이다. 코스모스는 로봇자율주행 차량 등 물리적 세계와 상호작용하는 AI 시스템의 개발을 지원한다. 이 플랫폼은 2천만 시간 분량의 비디오 데이터를 기반으로 훈련되어, 로봇과 AI 시스템이 중력, 마찰, 관성 등 물리적 법칙을 이해하고 예측할 수 있는 능력을 갖추게 한다. 코스모스는 엔비디아의 디지털 트윈 플랫폼인 옴니버스(Omniverse)와 통합되어 더욱 강력한 시뮬레이션 환경을 제공한다. 이를 통해 제조, 물류, 자율주행 등 산업 전반에서 실제 데이터를 기반으로 한 예측 모델을 구축할 수 있다. 엔비디아의 젠슨 황 CEO는 "코스모스는 물리적 AI의 민주화를 촉진해 모든 개발자가 일반 로봇 개발에 쉽게 접근할 수 있도록 한다"며, "우리는 물리적 AI를 대중화하고 모든 개발자가 범용의 로봇 공학을 활용할 수 있도록 하기 위해 만들었다"고 밝혔다. 코스모스는 최신 생성형 AI 모델과 최신 토크나이저(텍스트를 모델이 이해할 수 있는 작은 단위인 토큰으로 분리하는 도구), 데이터를 빠르고 효율적으로 처리하기 위한 시스템인 가속화된 영상 처리 파이프라인으로 구성된다. 이 플랫폼은 2천만 시간 분량의 영상을 단 14일 만에 처리해 중앙처리장치(CPU)만 사용하는 경우 3~4년이 걸리는 작업 기간을 크게 줄일 수 있고, 토크나이저는 기존보다 처리 속도가 12배 더 빠르다.[1][2]

구성[편집]

코스모스 플랫폼은 물리 인식 비디오 생성을 위한 개방형 확산 모델(WFM)과 자동 회귀 트랜스포머 모델로 구성된다. 이 모델들은 2천만 시간의 인간 상호작용, 환경, 산업, 로보틱스, 운전 데이터를 기반으로 9,000조 개의 토큰으로 훈련되었다. 모델은 세 가지 범주로 나뉜다.

  • 나노(Nano): 실시간, 저지연 추론과 엣지 배포에 최적화된 모델
  • 슈퍼(Super): 고성능 기본 모델
  • 울트라(Ultra): 최고의 품질과 충실도를 제공하며 맞춤형 모델 개발에 적합

확산 모델은 엔비디아 옴니버스(Omniverse)와 결합하여 제어 가능한 고품질 합성 비디오 데이터를 생성하고, 로봇자율주행 차량의 인식 모델 부트스트랩 훈련을 지원한다. 자동 회귀 모델은 입력 프레임과 텍스트를 기반으로 다음 비디오 프레임을 예측하여 실시간 차선책 예측과 같은 물리적 통찰력을 제공한다.[3]

특징[편집]

개방성[편집]

코스모스는 연구자와 개발자가 기업 규모에 관계없이 상업적 사용이 가능하도록 엔비디아의 허용형 오픈 모델 라이선스를 제공한다. 이 플랫폼은 AI 에이전트를 구축하는 기업을 위해 새로운 오픈 모델인 엔비디아 라마 네모트론(Llama Nemotron)과 코스모스 네모트론(Cosmos Nemotron)도 지원한다. 이러한 개방성은 물리 AI 개발자의 제약을 해소하며, 모든 규모의 기업이 물리 AI 애플리케이션을 보다 빠르게 시장에 출시할 수 있도록 돕는다. 개발자는 코스모스 모델을 사용해 물리 기반 합성 데이터를 생성하거나 엔비디아 네모(NeMo) 프레임워크를 활용해 특정 물리 AI 설정에 맞는 미세 조정을 할 수 있다.[3]

데이터 처리와 큐레이션[편집]

코스모스 플랫폼은 강력한 비디오이미지 토크나이저를 포함하며, 이는 최신 방법보다 8배 더 높은 총 압축률과 12배 더 빠른 처리 속도를 제공한다. 엔비디아 네모 큐레이터(NeMo Curator)는 페타바이트 규모의 데이터를 빠르게 처리할 수 있도록 기존 CPU 파이프라인 대비 89배 빠른 데이터 처리 속도를 제공한다. 엔비디아 호퍼(Hopper) 및 블랙웰(Blackwell) GPU는 14일 만에 2,000만 시간의 비디오를 처리한다.[3] 코스모스 토크나이저는 자동회귀 모델의 경우 시간은 8배, 공간은 16x16배로 압축하며 최대 49개 프레임을, 디퓨전 모델은 시간 8배, 공간 8x8배 압축으로 최대 121개 프레임을 처리한다.

안전성[편집]

코스모스 플랫폼에는 코스모스 가드레일(Cosmos Guardrails)이라는 사전 가드와 사후 가드로 구성된 이중 가드레일 시스템을 도입했다. 사전 가드는 엔비디아의 AI 콘텐츠 안전 모델 '에이지스(Aegis)'를 통해 유해한 텍스트이미지 입력을 사전에 차단하고, 생성된 비디오를 선별하는 기능을 제공한다. 또한, 생성된 시퀀스를 식별할 수 있는 워터마킹 시스템을 통해 책임감 있는 AI 활용을 보장한다.[3] 사후 가드는 생성된 비디오의 모든 프레임을 검사해 안전하지 않은 콘텐츠를 차단하고, 레티나페이스(RetinaFace) 모델로 인물의 얼굴을 자동으로 블러 처리한다. 엔비디아는 1만 개 이상의 프롬프트-비디오 쌍을 활용해 시스템을 지속적으로 개선하고 있다.[4]

성능 평가[편집]

엔비디아는 코스모스의 성능을 검증하기 위해 500개의 정적 장면 데이터셋을 활용하여 3D 일관성을 평가했다. 기존 비디오 생성 모델인 비디오LDM과 비교했을 때, 코스모스의 디퓨전 텍스트투월드(Text2World) 7B 모델은 샘슨 오차(Sampson Error) 측정에서 0.355를 기록하며 기존 모델의 0.841보다 현저히 우수한 성능을 보여주었다. 또한 카메라 포즈 추정 성공률에서도 62.6%를 달성해 기존 모델의 4.4%를 크게 상회하는 결과를 얻었다. 물리법칙 준수 능력을 평가하기 위해 엔비디아 피직스(PhysX)와 아이작 심(Isaac Sim)을 활용해 중력, 충돌, 토크, 관성 등 8가지 시나리오를 테스트했으며, 9개 프레임의 입력 데이터를 기준으로 PSNR 21.06, SSIM 0.69라는 뛰어난 성능을 기록했다.[4]

활용 사례[편집]

  • 로보틱스: 코스모스는 가상 환경에서의 합성 데이터 생성과 강화학습을 통해 로봇 학습을 지원한다. 로보틱스 기업 힐봇(Hillbot)은 고충실도 3D 환경을 생성하여 데이터 파이프라인을 강화하고, 로봇 운영의 효율성을 향상시키고 있다.
  • 자율주행: 자율주행차 개발사 와비(Waabi)는 코스모스를 활용해 생성형 AI 시뮬레이터 ‘와비 월드(Waabi World)’를 기반으로 자율주행차의 안전성과 사실성을 높이고 있다.
  • 산업 애플리케이션: 엔비디아는 AV용 멀티센서 뷰 생성과 같은 미세 조정된 모델 샘플을 제공해 특정 작업에 최적화된 AI 개발을 지원한다.[3]

각주[편집]

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 엔비디아 코스모스 문서는 인공지능 로봇에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.