토큰 (데이터)

(다른뜻) 암호화폐에 대해 보기
토큰(token)은 텍스트 데이터를 처리하기 위해 문장을 더 작은 단위로 쪼갠 것이다. 인공지능과 자연어 처리(NLP) 분야에서 매우 중요한 개념으로, 이 작은 단위는 일반적으로 단어, 부분 단어, 혹은 심지어 개별 문자일 수 있다.

상세[편집]

토큰은 자연어 처리(NLP)와 인공지능(AI)에서 데이터를 다룰 때 가장 기본적인 단위 중 하나다. 텍스트 데이터를 이해하고 처리하기 위해 문장을 작은 단위로 나누는 과정에서 만들어지는 이 단위가 바로 토큰이다. 토큰은 하나의 단어, 어근, 부분 단어, 또는 심지어 개별 문자까지 다양한 형태를 가질 수 있다. 텍스트에서의 토큰화(tokenization)는 기계가 인간의 언어를 이해할 수 있게 만드는 중요한 과정이다. 기계는 자연어를 그대로 이해하지 못하기 때문에, 이를 처리하기 위해 텍스트를 작은 조각으로 분해해야 한다. 이때 사용되는 가장 작은 단위가 바로 토큰이다.^[1]

토큰은 NLP 모델이 텍스트를 이해하고 처리하는 데 핵심적인 역할을 한다. 각 토큰은 텍스트의 의미를 모델이 파악할 수 있도록 돕는 중요한 정보 단위다. 토큰화된 텍스트는 일반적으로 모델에 입력되기 전에 숫자 벡터로 변환되며, 이 벡터는 모델이 학습 과정에서 사용하는 데이터의 형태가 된다. 모델은 이 벡터화된 토큰들을 사용하여 패턴을 학습하고, 문맥을 이해하며, 새로운 텍스트에 대한 예측을 수행한다. 토큰은 모델이 문장의 구조를 이해하고, 문맥을 파악하며, 텍스트의 의미를 해석하는 데 중요한 기초를 제공한다.^[2]

종류 및 모델 학습[편집]

토큰의 종류는 다양하며, 각 종류는 모델의 학습에 다르게 기여한다. 가장 일반적인 토큰의 종류는 다음과 같다.

단어 토큰(Word Token) : 일반적으로 단어 단위로 나눈 토큰이다. 이 토큰은 문장의 의미를 직접적으로 표현하지만, 언어의 복잡성을 충분히 반영하지 못할 수 있다.
서브워드 토큰(Subword Token) : 단어보다 작은 단위로 나눈 토큰으로, 희귀 단어를 처리하거나 새로운 단어를 학습하는 데 유용하다.
문자 토큰(Character Token) : 개별 문자 단위로 나눈 토큰이다. 이 토큰은 모든 텍스트를 동일하게 처리할 수 있지만, 문맥 정보를 잃기 쉽다.

모델은 학습 과정에서 이 토큰들을 입력으로 받아, 각 토큰이 어떤 의미를 가지는지, 그리고 토큰 간의 관계가 어떻게 구성되는지를 학습한다. 이를 통해 모델은 텍스트의 문맥을 이해하고, 적절한 예측을 할 수 있게 된다.

토큰화[편집]

토큰화는 텍스트를 개별 토큰으로 나누는 작업을 말한다. 이 과정은 자연어 처리 작업의 필수적인 첫 단계로, 다양한 알고리즘과 기법이 사용된다. 텍스트를 나누는 방식에 따라 여러 종류의 토큰화 방법이 존재한다.

단어 기반 토큰화[편집]

단어 기반 토큰화는 텍스트를 개별 단어 단위로 나누는 가장 일반적인 방식이다. 이 방식은 문장을 공백(space)이나 구두점(punctuation) 등을 기준으로 단어로 나눈다. 예를 들어, "I love AI."라는 문장은 "I", "love", "AI", "."의 네 개의 토큰으로 분할된다. 단어 기반 토큰화는 간단하고 직관적이지만, 몇 가지 한계가 있다. 예를 들어, "AI"와 같은 약어는 제대로 처리되지 않을 수 있으며, "AI.", "AI,"처럼 구두점이 붙은 단어들은 각각 다른 토큰으로 인식될 수 있다.^[3]

문자 기반 토큰화[편집]

문자 기반 토큰화는 텍스트를 개별 문자 단위로 나누는 방식이다. 이 방식에서는 단어 전체를 하나의 토큰으로 간주하지 않고, 각 문자를 개별 토큰으로 처리한다. 예를 들어, "AI"라는 단어는 "A", "I"라는 두 개의 토큰으로 분할된다. 이 방식은 언어의 형태적 특징을 무시하고 모든 텍스트를 균일하게 처리할 수 있게 해준다. 그러나 문맥을 고려하지 않기 때문에 의미 파악이 어려울 수 있고, 토큰의 수가 크게 증가하는 단점이 있다.^[4]

서브워드 기반 토큰화[편집]

서브워드 기반 토큰화는 단어보다 작은 단위로 텍스트를 분할하는 방법이다. 이 방법은 특히 복합어(compound words)나 희귀 단어(rare words)를 처리할 때 유용하다. 예를 들어, "unhappiness"라는 단어를 "un", "happiness"로, 또는 "un", "happi", "ness"로 나눌 수 있다. 서브워드 토큰화는 일반적으로 두 가지 주요 알고리즘을 사용한다.

BPE(Byte Pair Encoding) : 이 알고리즘은 가장 빈번하게 나타나는 문자 쌍을 반복적으로 병합하면서 서브워드를 생성한다. 처음에는 모든 단어를 개별 문자로 나누고, 이후 빈번하게 등장하는 문자 쌍을 병합하여 더 큰 서브워드를 만들어낸다.
워드피스(WordPiece) : BPE와 유사하지만, 병합 단계에서 더 많은 통계적 정보를 활용하여 최적의 서브워드를 선택한다. 이 방법은 구글의 버트(BERT) 모델에서 사용되어 널리 알려졌다.^[5]

서브워드 기반 토큰화는 단어의 의미를 최대한 유지하면서도, 희귀 단어를 처리할 수 있는 유연성을 제공한다.^[6]

토큰의 수 및 모델의 처리 한계[편집]

모든 NLP 모델은 한 번에 처리할 수 있는 토큰의 수에 한계가 있다. 이 한계는 모델의 구조, 특히 모델의 아키텍처에 따라 다르다. 예를 들어, 트랜스포머 기반 모델인 GPT 시리즈나 버트(BERT)의 경우, 입력으로 받을 수 있는 최대 토큰의 수는 일반적으로 제한된다.^[7] 이 토큰 수 한계는 긴 텍스트를 처리할 때 중요한 고려 사항이다. 만약 입력 텍스트가 이 한계를 초과한다면, 텍스트의 일부가 잘리거나, 슬라이딩 윈도우(sliding window) 방식으로 분할된 후 별도로 처리될 수 있다. 이 과정에서 중요한 정보가 손실될 가능성이 있기 때문에, 텍스트를 처리할 때 신중한 접근이 필요하다.^[8]

중요성 및 도전 과제[편집]

토큰화는 자연어 처리(NLP) 시스템의 성능에 큰 영향을 미친다. 잘못된 토큰화는 문맥을 왜곡하거나 의미를 손실시킬 수 있으며, 이는 모델의 성능 저하로 이어질 수 있다. 예를 들어, "U.S.A."와 같은 약어는 제대로 처리되지 않으면 다른 의미로 해석될 수 있다. 토큰화는 또한 다국어(multi-language) 환경에서 더 복잡해질 수 있다. 언어마다 고유한 형태소(morphology)와 문법이 존재하기 때문에, 각 언어에 적합한 토큰화 전략이 필요하다. 예를 들어, 영어는 공백을 기준으로 쉽게 단어를 구분할 수 있지만, 한국어나 중국어는 띄어쓰기가 상대적으로 덜 사용되기 때문에 더 복잡한 토큰화 과정이 필요하다. 또한, 토큰화 과정에서 발생할 수 있는 데이터 손실도 중요한 문제다. 토큰화는 텍스트를 단순화시키는 과정이기 때문에, 복잡한 문장 구조나 미묘한 의미가 손실될 수 있다. 이런 문제를 최소화하기 위해, NLP 연구자들은 지속적으로 새로운 토큰화 기법을 개발하고 있다.^[6]

최근 NLP 분야에서는 토큰화에 대한 새로운 접근법들이 제안되고 있다. 예를 들어, 언어 모델들이 점점 더 복잡해지면서, 전통적인 토큰화 방법의 한계를 극복하기 위한 다양한 연구가 진행되고 있다. 특히, 서브워드 토큰화와 같은 방법은 더 적응력이 뛰어난 토큰화를 가능하게 하며, 다양한 언어와 텍스트 형태에 더 잘 대응할 수 있다. 또한, 비토큰화(non-tokenization) 접근법에 대한 연구도 이루어지고 있다. 이 방법은 텍스트를 미리 정해진 토큰으로 나누지 않고, 모델이 자체적으로 텍스트를 이해할 수 있도록 하는 것이다. 이런 접근법은 아직 초기 단계에 있지만, 미래에는 토큰화 과정에서 발생하는 문제들을 해결할 수 있는 잠재력을 가지고 있다.^[9]

각주[편집]

이동 ↑ 데이터 벌집, 〈(LLM) 언어 모델에서 토큰(Token)이란 무엇인가?〉, 《티스토리》, 2024-06-17
이동 ↑ 생각하는 마리오네트, 〈자연어처리(NLP) 텍스트전처리/벡터화〉, 《벨로그》, 2021-08-19
이동 ↑ 〈딥 러닝을 이용한 자연어 처리 입문 - 02-01 토큰화(Tokenization)〉, 《위키독스》
이동 ↑ 〈Transformers (신경망 언어모델 라이브러리) 강좌 - 3. 토크나이저 (Tokenizer)〉, 《위키독스》
이동 ↑ Hugman Sangkeun Jung, 〈Tokenization 방법론들에 대한 쉽고 직관적인 이해〉, 《미디엄》, 2024-06-08
↑ ^{이동: 6.0} ^6.1 박재한, 〈텍스트 전처리 : 토큰화〉, 《벨로그》, 2022-07-08
이동 ↑ Yngie, 〈GPT, GPT-2 (Generative Pre-Training of a language model)〉, 《깃허브》, 2020-07-05
이동 ↑ Hyunie, 〈자연어 전처리 - 토큰화/ 임베딩 (Tokenization, Embedding)〉, 《네이버 블로그》, 2021-04-18
이동 ↑ 전윤미 기자, 〈AI모델 한계, ‘토큰화’ 없애는 신기술 나올까〉, 《애플경제》, 2024-07-08

참고자료[편집]

〈딥 러닝을 이용한 자연어 처리 입문 - 02-01 토큰화(Tokenization)〉, 《위키독스》
〈Transformers (신경망 언어모델 라이브러리) 강좌 - 3. 토크나이저 (Tokenizer)〉, 《위키독스》
Yngie, 〈GPT, GPT-2 (Generative Pre-Training of a language model)〉, 《깃허브》, 2020-07-05
Hyunie, 〈자연어 전처리 - 토큰화/ 임베딩 (Tokenization, Embedding)〉, 《네이버 블로그》, 2021-04-18
생각하는 마리오네트, 〈자연어처리(NLP) 텍스트전처리/벡터화〉, 《벨로그》, 2021-08-19
박재한, 〈텍스트 전처리 : 토큰화〉, 《벨로그》, 2022-07-08
Hugman Sangkeun Jung, 〈Tokenization 방법론들에 대한 쉽고 직관적인 이해〉, 《미디엄》, 2024-06-08
데이터 벌집, 〈(LLM) 언어 모델에서 토큰(Token)이란 무엇인가?〉, 《티스토리》, 2024-06-17
전윤미 기자, 〈AI모델 한계, ‘토큰화’ 없애는 신기술 나올까〉, 《애플경제》, 2024-07-08

같이 보기[편집]

이 토큰 (데이터) 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

[접기]인공지능 : 인공지능 서비스, 인공지능 기술^□^■^⊕, 인공지능 로봇, 인공지능 기업, 인공지능 인물

인공지능 기술	AI 워싱 • 랭체인 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 킬 스위치 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링

문자인식과 음성인식	ICR • OCR • OMR • URL • 감정 • 글자 • 단어 • 답변 • 대화 • 동영상 • 디자인 • 맥락 • 문단 • 문서 • 문자 • 문자인식 • 문자채팅 • 문장 • 발음 • 번역 • 분류 • 상담 • 소스코드 • 스토리 • 얼굴 • 얼굴인식 • 음성 • 음성채팅 • 음성인식(STT) • 음성합성(TTS) • 의미 • 이미지 • 인공어 • 인공지능 음성 • 자막 • 자연어 • 질문 • 채팅 • 출처 • 코드 • 코딩 • 텍스트 • 통번역 • 통역 • 파일 • 폴더 • 화상채팅 • 화자인식

인공지능 데이터	노드 • 데이터라벨러 • 데이터라벨링 • 데이터셋 • 돌마 • 레이블 • 벡터 • 벡터DB • 벡터공간 • 스칼라 • 시뮬레이션 • 엣지 • 임베딩 • 청크(Chunk) • 크라우드워커 • 토큰 • 토큰화

인공지능 학습	ADP • CoLLM • DALL-E • DDPG • DQN • LAM • LMM • SARSA • sLLM • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 과적합 • 기억 • 단기기억 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 메타추론 • 모델 기반 강화학습 • 모델 프리 강화학습 • 미세조정(파인튜닝) • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 어니 • 에이전트 • 인공지능 학습 • 자기지도학습 • 장기기억 • 전이학습 • 준지도학습 • 지도학습 • 추론 • 학습 • 훈련

인공지능 알고리즘	AGI • ANI • ASI • FFN • MHSA • RAG • ReLU 함수 • Seq2Seq • VLA • XAI • Word2Vec • 가중치 • 경사하강법 • 관계형 네트워크(RN) • 기울기 소실 • 뉴런 • 다층퍼셉트론 • 단층퍼셉트론 • 데이터마이닝 • 디코더 • 로지스틱 함수 • 리키 ReLU 함수 • 매개변수 • 미시 함수 • 방사신경망 • 볼츠만 머신 • 분산 샌드박스 • 비선형 함수 • 생성대립신경망(GAN) • 생성형 AI • 선형 함수 • 소프트맥스 함수 • 손실함수 • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 스위시 함수 • 시그모이드 함수 • 신경망 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 어탠션 • 에이전트체인(CoA) • 역전파 • 역치 • 온도 • 원핫 • 은닉층 • 인공신경망(ANN) • 인공지능(AI) • 인코더 • 입력층 • 잔차신경망(레즈넷) • 제한 볼츠만 머신(RBM) • 전방전달신경망(FFNN) • 정렬위장 • 주의 메커니즘 • 초매개변수(하이퍼 파라미터) • 출력층 • 코헨 자기조직 신경망 • 탄젠트 함수 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 하이퍼볼릭 탄젠트 함수(tanh) • 학습률 • 합성곱 신경망(CNN) • 확률분포 • 확률적 경사하강법 • 활성화 함수

계산복잡도	NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 프로그램	BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 파이토치 • 한돌

인공지능 장비	GPU • 그래픽카드 • 레니게이드 • 반도체 • 엔비디아 • 엔비디아 A100 • 엔비디아 H100 • 엔비디아 H200 • 워보이 • 집적회로(칩)

인공지능 특징	결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론

인공지능 법적 지위	권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법

위키 : 인공지능, 개발, 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인물, 행사, 일반

[1] 이동 ↑ 데이터 벌집, 〈(LLM) 언어 모델에서 토큰(Token)이란 무엇인가?〉, 《티스토리》, 2024-06-17

[2] 이동 ↑ 생각하는 마리오네트, 〈자연어처리(NLP) 텍스트전처리/벡터화〉, 《벨로그》, 2021-08-19

[3] 이동 ↑ 〈딥 러닝을 이용한 자연어 처리 입문 - 02-01 토큰화(Tokenization)〉, 《위키독스》

[4] 이동 ↑ 〈Transformers (신경망 언어모델 라이브러리) 강좌 - 3. 토크나이저 (Tokenizer)〉, 《위키독스》

[5] 이동 ↑ Hugman Sangkeun Jung, 〈Tokenization 방법론들에 대한 쉽고 직관적인 이해〉, 《미디엄》, 2024-06-08

[.EB.B0.95.EC.9E.AC.ED.95.9C-6] {이동: 6.0} ^6.1 박재한, 〈텍스트 전처리 : 토큰화〉, 《벨로그》, 2022-07-08

[7] 이동 ↑ Yngie, 〈GPT, GPT-2 (Generative Pre-Training of a language model)〉, 《깃허브》, 2020-07-05

[8] 이동 ↑ Hyunie, 〈자연어 전처리 - 토큰화/ 임베딩 (Tokenization, Embedding)〉, 《네이버 블로그》, 2021-04-18

[9] 이동 ↑ 전윤미 기자, 〈AI모델 한계, ‘토큰화’ 없애는 신기술 나올까〉, 《애플경제》, 2024-07-08

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

위키원

이름공간

변수

보기

더 보기

검색