돌마

돌마(Dolma)는 앨런AI연구소(AI2)가 공개한 다양한 출처에서 수집된 방대한 양의 텍스트 데이터셋으로, 주로 웹 콘텐츠, 학술 출판물, 코드, 서적 및 백과사전 자료를 포함한다. 이 데이터셋은 AI 모델의 학습을 위한 기초 자료로 활용된다.

[아사달] 스마트 호스팅

개요

돌마는 앨런AI연구소가 공개한 오픈소스 대형 언어 모델(LLM)의 학습을 위한 텍스트 데이터셋이다. 무료로 사용할 수 있으며, 누구나 데이터셋의 내용을 검사할 수 있는 투명한 데이터셋으로, 기존의 폐쇄적이고 출처가 불분명한 데이터셋과는 차별화된다. 돌마는 AI 모델 학습 데이터셋의 투명성을 높이고 책임 있는 AI 개발 문화를 조성하기 위한 중요한 시도로 평가받고 있다. 돌마는 앨런AI연구소의 오픈소스 LLM인 올모(OLMo)의 핵심 학습 데이터셋으로, 대규모 언어 모델 학습의 새로운 표준을 제시하고 있다. 이는 AI 연구 및 개발에 있어 데이터 투명성과 책임감을 중시하는 흐름을 강화하며, 대규모 언어 모델의 발전에 중요한 역할을 할 것으로 기대된다. 돌마는 허깅페이스(Hugging Face) 플랫폼을 통해 제공되며, 연구자와 개발자가 이를 손쉽게 다운로드하고 사용할 수 있도록 접근성을 높였다. AI2는 데이터셋이 LLM 학습의 기초 자료로 활용되면서도 윤리적 기준을 준수하도록 하는 데 중점을 두고 있다.^[1]

구성

돌마는 3조 개의 토큰으로 구성된 대규모 텍스트 데이터셋으로, 지금까지 발표된 데이터셋 중 가장 방대한 규모를 자랑한다. 메타의 라마2(LLaMA 2)가 포함했던 2억 개의 토큰을 훨씬 초과하며, 이로 인해 대규모 언어 모델의 훈련 데이터로 새로운 표준을 제시하고 있다. 주요 데이터 출처는 다음과 같다.

과학 원고: 3,800만 개의 허가된 논문을 포함하는 peS2o 데이터셋.
웹 콘텐츠: 위키피디아와 학술 출판물, 서적, 백과사전 등 다양한 영문 자료.
기타 데이터: 허가된 다른 자료 조합으로 구성.

특징

라이선스

AI2는 돌마 데이터셋을 사용할 경우 다음과 같은 책임 있는 사용 기준을 요구한다.

사용 목적과 투명성: 사용자는 라이선스를 획득하기 위해 의도한 사용 사례를 공개해야 한다.
공유 규정: 돌마를 기반으로 생성된 파생물은 동일한 라이선스에 따라 배포되어야 하며, 데이터의 악용을 방지한다.
사용 제한: 감시, 허위 정보 생성, 기타 윤리적 문제가 될 수 있는 영역에서의 사용을 금지한다.

개인정보 보호

AI2는 개인 정보 보호를 중요하게 생각하며, 돌마 데이터셋에 포함된 개인 데이터를 삭제할 수 있는 요청 양식을 제공한다. 이는 데이터셋 학습 과정에서 개인의 민감한 정보가 사용되는 것에 대한 우려를 줄이기 위한 조치이다. 이러한 투명성은 오픈AI나 구글과 같은 회사들이 데이터셋 정보를 제한적으로 공유하는 방식과 비교하여 큰 차별점을 보인다.

각주

↑ 박찬 기자, 〈앨런AI연구소, 역대 최대 3조 토큰 데이터셋 오픈소스로 공개〉, 《AI타임스》, 2023-08-21

참고자료

박찬 기자, 〈앨런AI연구소, 역대 최대 3조 토큰 데이터셋 오픈소스로 공개〉, 《AI타임스》, 2023-08-21

같이 보기

데이터셋

이 돌마 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

인공지능 : 인공지능 서비스, 인공지능 로봇, 인공지능 기술^□^■^⊕, 인공지능 기업, 인공지능 인물

인공지능 기술	AI 워싱 • 랭체인 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링

문자인식과 음성인식	ICR • OCR • OMR • TTS • URL • 글자 • 단어 • 답변 • 대화 • 동영상 • 디자인 • 맥락 • 문단 • 문서 • 문자 • 문자인식 • 문자채팅 • 문장 • 발음 • 번역 • 분류 • 상담 • 소스코드 • 스토리 • 얼굴 • 얼굴인식 • 음성 • 음성채팅 • 음성인식(STT) • 이미지 • 인공어 • 인공지능 음성 • 자막 • 자연어 • 질문 • 채팅 • 코드 • 코딩 • 텍스트 • 통번역 • 통역 • 파일 • 폴더 • 화상채팅 • 화자인식

인공지능 데이터	데이터라벨러 • 데이터라벨링 • 데이터셋 • 돌마 • 벡터 • 벡터DB • 벡터공간 • 스칼라 • 임베딩 • 청크(Chunk) • 크라우드워커 • 토큰 • 토큰화

인공지능 학습	ADP • CoLLM • DALL-E • DDPG • DQN • LAM • LMM • SARSA • sLLM • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 과적합 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 메타추론 • 모델 기반 강화학습 • 모델 프리 강화학습 • 미세조정(파인튜닝) • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 어니 • 에이전트 • 인공지능 학습 • 전이학습 • 준지도학습 • 지도학습 • 추론 • 학습 • 확률적 경사하강법

인공지능 알고리즘	AGI • ANI • ASI • RAG • XAI • 가중치 • 관계형 네트워크(RN) • 뉴런 • 다층퍼셉트론 • 단층퍼셉트론 • 데이터마이닝 • 방사신경망 • 볼츠만 머신 • 분산 샌드박스 • 생성대립신경망(GAN) • 생성형 AI • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 시그모이드 함수 • 신경망 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 역전파 • 은닉층 • 인공신경망(ANN) • 인공지능(AI) • 제한 볼츠만 머신(RBM) • 전방전달신경망 • 주의 메커니즘 • 코헨 자기조직 신경망 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 합성곱 신경망(CNN)

계산복잡도	NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 프로그램	BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 알렉스넷 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 파이토치 • 한돌

인공지능 특징	결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론

인공지능 법적 지위	권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[1] 박찬 기자, 〈앨런AI연구소, 역대 최대 3조 토큰 데이터셋 오픈소스로 공개〉, 《AI타임스》, 2023-08-21

[1]

위키원

이름공간

변수

보기

더 보기

검색

돌마

목차

개요

구성

특징

라이선스

개인정보 보호

각주

참고자료

같이 보기