검수요청.png검수요청.png

GPT

위키원
이동: 둘러보기, 검색
오픈AI(OpenAI)

GPT(Generative pre-trained transformer)는 자연어처리(NLP) 분야에서 혁신적인 모델로, 대규모의 텍스트 데이터를 기반으로 사전 학습된 후 다양한 언어 생성 작업을 수행할 수 있는 인공지능(AI) 모델이다. 오픈AI가 개발한 GPT 시리즈는 딥러닝트랜스포머 아키텍처의 결합으로, 인간의 언어를 이해하고 생성하는 능력을 크게 향상시켰다.

이 모델들은 인간과 유사한 텍스트를 생성할 수 있는 인공신경망으로, 방대한 양의 비지도 학습 데이터로 훈련되었다. 2023년 기준으로, 대부분의 대형 언어 모델들은 이러한 특성을 공유하며, 종종 GPT로 묶어 부르기도 한다.[1]

GPT라는 용어는 다른 개발자가 만든 모델의 이름이나 설명으로도 자주 사용된다. 예를 들어, 일루서 AI(Eleuther AI)의 GPT-3 기반 모델 시리즈와 셀레브라스(Cerebras)의 일곱 개 모델이 그 예다. 또한 세일즈포스(Salesforce)의 아인슈타인 GPT와 블룸버그(Bloomberg)의 블룸버그 GPT처럼 특정 산업 분야에서 맞춤형 GPT를 개발하는 회사들도 있다.[2]

상세[편집]

GPT는 인공지능(AI) 연구 분야에서 중요한 혁신으로, 텍스트 생성과 자연어 처리 분야에서 큰 변화를 가져왔다. GPT는 주로 인간이 작성한 대규모 텍스트 데이터를 바탕으로 사전 학습된 후, 특정 작업에 맞게 파인튜닝되어 작동하는 언어 모델이다. 이 모델은 트랜스포머(Transformer) 아키텍처를 기반으로 하며, 문장 생성, 번역, 질문 응답 등 다양한 자연어 처리 작업을 수행할 수 있다.

GPT 모델은 오픈AI에서 개발하였으며, 오픈AI는 GPT-n 시리즈로 순차적으로 번호를 매긴 강력한 GPT 기반 모델들을 선보였다. 각 모델은 이전 버전보다 더 많은 매개변수로 훈련되며, 그 성능 또한 크게 향상되었다. 초기 버전인 GPT-1(2018)을 시작으로 GPT-2(2019), GPT-3(2020), 그리고 GPT-4(2023)까지 진화해 왔다.[3][4] 최신 버전인 GPT-4는 2023년 3월에 출시되었으며, 이 모델은 챗GPT와 같은 특화된 작업에 적합하도록 파인튜닝된 모델의 기반이 되었다.[5]

GPT 모델은 매우 큰 파라미터 수를 지니며, 이를 통해 방대한 양의 데이터를 학습해 매우 정교한 텍스트를 생성할 수 있다. 예를 들어, GPT-3은 1,750억 개의 파라미터를 가지며, 다양한 문맥에서의 언어 이해 및 생성 작업을 수행할 수 있다. 이러한 능력은 특히 챗봇, 콘텐츠 생성, 자동 번역 등 다양한 응용 분야에서 활용되고 있다.[6]

이를 기반으로 한 대화형 AI 시스템이 챗GPT(ChatGPT)다. 챗GPT는 GPT의 기술을 응용해 특정하게 사람들과의 대화를 목적으로 최적화된 버전이라고 볼 수 있다. 예를 들어, 챗GPT는 GPT-3.5 및 GPT-4 모델을 기반으로 하여 다양한 언어 및 상황에서 사용자와 상호작용할 수 있도록 개발되었다. 챗GPT는 사용자에게 자연스러운 대화 경험을 제공하며, 질문에 답변하거나 창의적인 텍스트를 생성하는 등 다채로운 기능을 수행할 수 있다.[7]

역사[편집]

생성형 사전 훈련(Generative Pre-training)은 오래전부터 머신러닝에서 사용되었으나, 변환기 아키텍처는 2017년에 구글이 발명하면서 도입되었다. 이로 인해 2018년에는 BERT, 2019년에는 XLNet과 같은 대규모 언어 모델들이 등장했다. 이 모델들은 생성 목적이 아닌 인코더 전용으로 설계되었다. 2018년, 오픈AI는 "생성적 사전 훈련에 의한 언어 이해 개선"이라는 제목으로 최초의 GPT 시스템을 발표했다.

변환기 아키텍처 이전에는 대규모 신경망 모델이 주로 지도 학습을 통해 개발되었다. 그러나 이 방법은 잘 주석된 데이터가 부족할 때 한계가 있었고, 대규모 언어 모델을 훈련시키는 데 많은 시간과 비용이 들었다. 오픈AI는 준지도 학습 접근법을 도입하여 대규모 생성 시스템을 구축했다. 이 방식은 비지도 학습을 통해 초기 매개변수를 설정한 후, 특정 작업에 맞게 파인튜닝하는 과정을 거친다.[8]

학습 과정[편집]

GPT의 핵심은 2017년 구글(Google) 연구진이 발표한 트랜스포머 모델에 있다. 트랜스포머는 기존의 순환 신경망(RNN) 및 합성곱 신경망(CNN)과 달리, 병렬화가 용이하고, 긴 문맥을 이해하는 데 뛰어난 성능을 보인다. 이 아키텍처는 주의 메커니즘(self-attention)을 통해 문장의 각 단어가 다른 단어들과 어떻게 연관되는지를 효율적으로 학습할 수 있다.

GPT는 두 단계의 학습 과정을 거친다.

  1. 사전 학습 : 대규모의 텍스트 데이터셋을 사용해 모델이 언어의 구조와 패턴을 학습한다. 이 과정에서 모델은 문장의 맥락을 이해하고, 다음 단어를 예측하는 능력을 갖춘다.
  2. 파인튜닝 : 특정한 작업에 맞게 사전 학습된 모델을 추가적으로 훈련시킨다. 이 과정에서는 주어진 텍스트에서 질문에 답하거나, 요약을 제공하는 등 특정 응용 분야에 맞게 모델의 성능을 최적화한다.

모델[편집]

기초 모델과 작업 특화 모델은 GPT 모델의 두 가지 중요한 구성 요소로, 각각의 역할이 명확하다. 기초 모델은 광범위한 언어 이해와 생성 능력을 제공하며, 작업 특화 모델은 이 기초 모델을 특정한 작업에 맞게 최적화하여 더욱 효과적으로 활용할 수 있게 한다. 이 두 단계의 조합은 GPT가 다양한 응용 분야에서 뛰어난 성능을 발휘하게 하는 핵심 원동력이다.

기초 모델[편집]

기초 모델은 GPT의 핵심으로, 대규모 텍스트 데이터셋을 바탕으로 학습된 범용 언어 모델이다. 기초 모델은 특정 작업에 최적화되기 이전에 일반적인 언어 패턴과 구조를 이해하도록 훈련된다. 기초 모델의 특징은 대규모 데이터 학습이 가능하다는 것이다. 기초 모델은 수십억에서 수백억 개의 파라미터를 가진 대규모 네트워크로, 인터넷 텍스트, 책, 논문 등의 방대한 양의 데이터를 바탕으로 학습된다. 이로 인해 언어의 일반적인 규칙, 문맥, 연관성 등을 학습할 수 있다.

기초 모델의 또 다른 특징은 범용성이다. 기초 모델은 특정 작업에 종속되지 않고, 문장 생성, 번역, 요약, 질문 응답 등 다양한 작업에 적용할 수 있는 범용적인 언어 모델이다. 마지막 특징으로는 사전 학습이 있다. 기초 모델은 사전 학습 단계에서 텍스트 데이터를 기반으로 언어의 구조를 이해하고, 문맥에서 다음 단어를 예측하는 능력을 갖춘다. 이 과정에서 모델은 다양한 언어적 패턴과 일반적인 지식을 내재화하게 된다​.

GPT 기초 모델
모델 아키텍처 파라미터 수 트레이닝 데이터 출시일
오리지널 GPT
(GPT-1)
12레벨
12방향 변환기 디코더 (인코더 없음)
linear-softmax를 따름
117,000,000 BookCorpus: 4.5 GB의 본문 2018년 6월 11일
GPT-2 GPT-1 (수정된 노멀라이제이션 포함) 1,500,000,000 웹 텍스트: 40 GB 본문, 800만 개 문서 2019년 2월 14일
GPT-3 GPT-2 (더 큰 스케일링을
허용하기 위한 수정 포함)
175,000,000,000 570 GB 플레인텍스트, 0.4 trillion개의 토큰,
대부분 CommonCrawl, WebText,
영어 위키백과, 2권의 책 말뭉치
2020년 6월 11일 (2022년 3월 15일
판의 이름이 GPT-3.5로 명명됨)
GPT-4 텍스트 예측과 RLHF로 훈련됨
텍스트와 이미지를 입력으로 받음
추가 정보는 공개되지 않음
미공개 미공개 2023년 3월 14일

작업 특화 모델[편집]

작업 특화 모델은 기초 모델을 기반으로 특정 작업에 맞게 파인튜닝(fine-tuning)된 모델이다. 이 단계에서 모델은 특정한 목적을 달성하기 위해 추가적인 데이터를 학습하게 된다. 작업 특화 모델은 기초 모델이 사전 학습을 통해 내재화한 지식을 바탕으로, 특정 작업에 필요한 데이터로 추가 학습을 진행한다. 예를 들어, 챗봇을 위한 모델은 대화 데이터를 통해 미세 조정되고, 번역 모델은 다양한 언어 쌍을 통한 번역 데이터를 추가 학습한다.

작업 특화 모델은 특정 작업을 최적화하기 위해 설계되며, 특정 도메인에서의 성능을 극대화할 수 있도록 튜닝된다. 이 과정에서 모델은 해당 작업에서 높은 성능을 발휘할 수 있도록 훈련된다. 작업 특화 모델은 다양한 응용 프로그램에서 활용된다. 예를 들어, 자동 번역기, 텍스트 요약 도구, 챗봇, 감정 분석 도구 등이 있다. 이 모델들은 특정 작업에 최적화된 데이터로 훈련되기 때문에, 일반적인 기초 모델보다 해당 작업에서 더 높은 성능을 발휘한다​.

2022년 1월, 오픈AI는 GPT-3 모델을 기반으로 감독 학습과 인간 피드백을 결합하여 지침을 따르도록 파인튜닝된 인스트럭트 GPT 모델을 발표했다. 이 모델은 정확도가 높고, 부정적이거나 유해한 콘텐츠 생성 확률이 낮으며, 사용자 요구에 더욱 잘 맞는 특성을 보인다. 이 모델은 이후 오픈AI의 API 서비스의 핵심 기반이 되었다. 또한, 챗봇과 같은 특정 작업에 특화된 모델들도 존재한다. 2022년 11월, 오픈AI는 인스트럭트 GPT와 유사하게 훈련된 언어 모델을 바탕으로 한 챗GPT를 출시했다. 이 모델은 RLHF(강화학습) 기법을 활용해 사용자와의 대화를 보다 자연스럽게 만들어준다. 마이크로소프트(Microsoft)의 빙 챗(Bing Chat)과 구글(Google)의 제미나이(‎Gemini) 역시 각각의 대화형 언어 모델을 사용한 예다. 또한, 자체 지침을 생성하고 이를 기반으로 목표를 달성하는 메타 작업 수행 모델도 있다. 오토-GPT는 이러한 재귀적 AI 에이전트의 초기 사례로, 이후 다양한 모델이 개발되었다.[8]

비교[편집]

챗GPT[편집]

GPT와 챗GPT는 같은 말같아 보이지만 용도 및 최적화, 응용 범위, 파인튜닝 등에서 차이를 보인다. 용도 및 최적화 측면에서 GPT는 일반적인 언어 생성 모델로, 다양한 텍스트 작업에 활용될 수 있다. 반면 챗GPT는 대화형 응용에 특화된 모델로, 자연스럽고 연속적인 대화를 유지하는 데 중점을 두고 있다. 응용 범위와 관련해서 GPT는 다양한 텍스트 생성 작업에 사용되며, 챗봇뿐만 아니라 문서 작성, 번역, 텍스트 분석 등 여러 분야에서 활용된다. 반면 챗GPT는 주로 대화형 인터페이스에 통합되어 사용자가 직접 대화할 수 있는 환경을 제공하는 데 집중한다. 마지막으로 챗GPT는 GPT 모델을 기반으로 하되, 대화의 일관성과 응답의 질을 높이기 위해 추가적인 데이터와 기술적 조정을 거친다. 이를 통해 더 자연스럽고 인간적인 대화 경험을 제공한다.[9]

각주[편집]

  1. Joe McKendrick, 〈Most Jobs Soon To Be ‘Influenced’ By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests〉, 《Forbes》, 2023-03-26
  2. Jamiel Sheikh, 〈Bloomberg Uses Its Vast Data To Create New Finance AI〉, 《Forbes》, 2023-04-05
  3. 정준화, 〈챗GPT의 등장과 인공지능 분야의 과제〉, 《국회입법조사처》, 2023-03-03
  4. 이현주, 성창수, 전병훈, 〈빅카인즈를 활용한 GenAI(생성형 인공지능) 기술 동향 분석: ChatGPT 등장과 스타트업 영향 평가〉, 《벤처창업연구》, 2023
  5. Mohammed Haddad, 〈How does GPT-4 work and how can you start using it in ChatGPT?〉, 《ALJAZEERA》, 2023-03-15
  6. 류 정화, 〈챗GPT의 간단 역사 정리, 그리고 인공지능(AI)이 검색과 콘텐츠 마케팅을 어떻게 변화시킬까?〉, 《콘텐타M》, 2023-03-16
  7. 유승재 대표이사, 〈생성형 AI 출현에 따른 대화형 AI 시장의 발전과 변화〉, 《MIT테크놀로지리뷰》, 2023
  8. 8.0 8.1 GPT (언어 모델)〉, 《위키백과》
  9. 챗GPT〉, 《위키백과》

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 GPT 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.