GPT

오픈AI(OpenAI)

GPT(Generative pre-trained transformer)는 자연어처리(NLP) 분야에서 혁신적인 모델로, 대규모의 텍스트 데이터를 기반으로 사전 학습된 후 다양한 언어 생성 작업을 수행할 수 있는 인공지능(AI) 모델이다. 오픈AI가 개발한 GPT 시리즈는 딥러닝과 트랜스포머 아키텍처의 결합으로, 인간의 언어를 이해하고 생성하는 능력을 크게 향상시켰다.

이 모델들은 인간과 유사한 텍스트를 생성할 수 있는 인공신경망으로, 방대한 양의 비지도 학습 데이터로 훈련되었다. 2023년 기준으로, 대부분의 대형 언어 모델들은 이러한 특성을 공유하며, 종종 GPT로 묶어 부르기도 한다.^[1]

GPT라는 용어는 다른 개발자가 만든 모델의 이름이나 설명으로도 자주 사용된다. 예를 들어, 일루서 AI(Eleuther AI)의 GPT-3 기반 모델 시리즈와 셀레브라스(Cerebras)의 일곱 개 모델이 그 예다. 또한 세일즈포스(Salesforce)의 아인슈타인 GPT와 블룸버그(Bloomberg)의 블룸버그 GPT처럼 특정 산업 분야에서 맞춤형 GPT를 개발하는 회사들도 있다.^[2]

상세[편집]

GPT는 인공지능(AI) 연구 분야에서 중요한 혁신으로, 텍스트 생성과 자연어 처리 분야에서 큰 변화를 가져왔다. GPT는 주로 인간이 작성한 대규모 텍스트 데이터를 바탕으로 사전 학습된 후, 특정 작업에 맞게 파인튜닝되어 작동하는 언어 모델이다. 이 모델은 트랜스포머(Transformer) 아키텍처를 기반으로 하며, 문장 생성, 번역, 질문 응답 등 다양한 자연어 처리 작업을 수행할 수 있다.

GPT 모델은 오픈AI에서 개발하였으며, 오픈AI는 GPT-n 시리즈로 순차적으로 번호를 매긴 강력한 GPT 기반 모델들을 선보였다. 각 모델은 이전 버전보다 더 많은 매개변수로 훈련되며, 그 성능 또한 크게 향상되었다. 초기 버전인 GPT-1(2018)을 시작으로 GPT-2(2019), GPT-3(2020), 그리고 GPT-4(2023)까지 진화해 왔다.^[3]^[4] 최신 버전인 GPT-4는 2023년 3월에 출시되었으며, 이 모델은 챗GPT와 같은 특화된 작업에 적합하도록 파인튜닝된 모델의 기반이 되었다.^[5]

GPT 모델은 매우 큰 파라미터 수를 지니며, 이를 통해 방대한 양의 데이터를 학습해 매우 정교한 텍스트를 생성할 수 있다. 예를 들어, GPT-3은 1,750억 개의 파라미터를 가지며, 다양한 문맥에서의 언어 이해 및 생성 작업을 수행할 수 있다. 이러한 능력은 특히 챗봇, 콘텐츠 생성, 자동 번역 등 다양한 응용 분야에서 활용되고 있다.^[6]

이를 기반으로 한 대화형 AI 시스템이 챗GPT(ChatGPT)다. 챗GPT는 GPT의 기술을 응용해 특정하게 사람들과의 대화를 목적으로 최적화된 버전이라고 볼 수 있다. 예를 들어, 챗GPT는 GPT-3.5 및 GPT-4 모델을 기반으로 하여 다양한 언어 및 상황에서 사용자와 상호작용할 수 있도록 개발되었다. 챗GPT는 사용자에게 자연스러운 대화 경험을 제공하며, 질문에 답변하거나 창의적인 텍스트를 생성하는 등 다채로운 기능을 수행할 수 있다.^[7]

역사[편집]

생성형 사전 훈련(Generative Pre-training)은 오래전부터 머신러닝에서 사용되었으나, 변환기 아키텍처는 2017년에 구글이 발명하면서 도입되었다. 이로 인해 2018년에는 BERT, 2019년에는 XLNet과 같은 대규모 언어 모델들이 등장했다. 이 모델들은 생성 목적이 아닌 인코더 전용으로 설계되었다. 2018년, 오픈AI는 "생성적 사전 훈련에 의한 언어 이해 개선"이라는 제목으로 최초의 GPT 시스템을 발표했다.

변환기 아키텍처 이전에는 대규모 신경망 모델이 주로 지도 학습을 통해 개발되었다. 그러나 이 방법은 잘 주석된 데이터가 부족할 때 한계가 있었고, 대규모 언어 모델을 훈련시키는 데 많은 시간과 비용이 들었다. 오픈AI는 준지도 학습 접근법을 도입하여 대규모 생성 시스템을 구축했다. 이 방식은 비지도 학습을 통해 초기 매개변수를 설정한 후, 특정 작업에 맞게 파인튜닝하는 과정을 거친다.^[8]

학습 과정[편집]

GPT의 핵심은 2017년 구글(Google) 연구진이 발표한 트랜스포머 모델에 있다. 트랜스포머는 기존의 순환 신경망(RNN) 및 합성곱 신경망(CNN)과 달리, 병렬화가 용이하고, 긴 문맥을 이해하는 데 뛰어난 성능을 보인다. 이 아키텍처는 주의 메커니즘(self-attention)을 통해 문장의 각 단어가 다른 단어들과 어떻게 연관되는지를 효율적으로 학습할 수 있다.

GPT는 두 단계의 학습 과정을 거친다.

사전 학습 : 대규모의 텍스트 데이터셋을 사용해 모델이 언어의 구조와 패턴을 학습한다. 이 과정에서 모델은 문장의 맥락을 이해하고, 다음 단어를 예측하는 능력을 갖춘다.
파인튜닝 : 특정한 작업에 맞게 사전 학습된 모델을 추가적으로 훈련시킨다. 이 과정에서는 주어진 텍스트에서 질문에 답하거나, 요약을 제공하는 등 특정 응용 분야에 맞게 모델의 성능을 최적화한다.

모델[편집]

기초 모델과 작업 특화 모델은 GPT 모델의 두 가지 중요한 구성 요소로, 각각의 역할이 명확하다. 기초 모델은 광범위한 언어 이해와 생성 능력을 제공하며, 작업 특화 모델은 이 기초 모델을 특정한 작업에 맞게 최적화하여 더욱 효과적으로 활용할 수 있게 한다. 이 두 단계의 조합은 GPT가 다양한 응용 분야에서 뛰어난 성능을 발휘하게 하는 핵심 원동력이다.

기초 모델[편집]

기초 모델은 GPT의 핵심으로, 대규모 텍스트 데이터셋을 바탕으로 학습된 범용 언어 모델이다. 기초 모델은 특정 작업에 최적화되기 이전에 일반적인 언어 패턴과 구조를 이해하도록 훈련된다. 기초 모델의 특징은 대규모 데이터 학습이 가능하다는 것이다. 기초 모델은 수십억에서 수백억 개의 파라미터를 가진 대규모 네트워크로, 인터넷 텍스트, 책, 논문 등의 방대한 양의 데이터를 바탕으로 학습된다. 이로 인해 언어의 일반적인 규칙, 문맥, 연관성 등을 학습할 수 있다.

기초 모델의 또 다른 특징은 범용성이다. 기초 모델은 특정 작업에 종속되지 않고, 문장 생성, 번역, 요약, 질문 응답 등 다양한 작업에 적용할 수 있는 범용적인 언어 모델이다. 마지막 특징으로는 사전 학습이 있다. 기초 모델은 사전 학습 단계에서 텍스트 데이터를 기반으로 언어의 구조를 이해하고, 문맥에서 다음 단어를 예측하는 능력을 갖춘다. 이 과정에서 모델은 다양한 언어적 패턴과 일반적인 지식을 내재화하게 된다.

GPT 기초 모델
모델	아키텍처	파라미터 수	트레이닝 데이터	출시일
오리지널 GPT (GPT-1)	12레벨 12방향 변환기 디코더 (인코더 없음) linear-softmax를 따름	117,000,000	BookCorpus: 4.5 GB의 본문	2018년 6월 11일
GPT-2	GPT-1 (수정된 노멀라이제이션 포함)	1,500,000,000	웹 텍스트: 40 GB 본문, 800만 개 문서	2019년 2월 14일
GPT-3	GPT-2 (더 큰 스케일링을 허용하기 위한 수정 포함)	175,000,000,000	570 GB 플레인텍스트, 0.4 trillion개의 토큰, 대부분 CommonCrawl, WebText, 영어 위키백과, 2권의 책 말뭉치	2020년 6월 11일 (2022년 3월 15일 판의 이름이 GPT-3.5로 명명됨)
GPT-4	텍스트 예측과 RLHF로 훈련됨 텍스트와 이미지를 입력으로 받음 추가 정보는 공개되지 않음	미공개	미공개	2023년 3월 14일

작업 특화 모델[편집]

작업 특화 모델은 기초 모델을 기반으로 특정 작업에 맞게 파인튜닝(fine-tuning)된 모델이다. 이 단계에서 모델은 특정한 목적을 달성하기 위해 추가적인 데이터를 학습하게 된다. 작업 특화 모델은 기초 모델이 사전 학습을 통해 내재화한 지식을 바탕으로, 특정 작업에 필요한 데이터로 추가 학습을 진행한다. 예를 들어, 챗봇을 위한 모델은 대화 데이터를 통해 미세 조정되고, 번역 모델은 다양한 언어 쌍을 통한 번역 데이터를 추가 학습한다.

작업 특화 모델은 특정 작업을 최적화하기 위해 설계되며, 특정 도메인에서의 성능을 극대화할 수 있도록 튜닝된다. 이 과정에서 모델은 해당 작업에서 높은 성능을 발휘할 수 있도록 훈련된다. 작업 특화 모델은 다양한 응용 프로그램에서 활용된다. 예를 들어, 자동 번역기, 텍스트 요약 도구, 챗봇, 감정 분석 도구 등이 있다. 이 모델들은 특정 작업에 최적화된 데이터로 훈련되기 때문에, 일반적인 기초 모델보다 해당 작업에서 더 높은 성능을 발휘한다.

2022년 1월, 오픈AI는 GPT-3 모델을 기반으로 감독 학습과 인간 피드백을 결합하여 지침을 따르도록 파인튜닝된 인스트럭트 GPT 모델을 발표했다. 이 모델은 정확도가 높고, 부정적이거나 유해한 콘텐츠 생성 확률이 낮으며, 사용자 요구에 더욱 잘 맞는 특성을 보인다. 이 모델은 이후 오픈AI의 API 서비스의 핵심 기반이 되었다. 또한, 챗봇과 같은 특정 작업에 특화된 모델들도 존재한다. 2022년 11월, 오픈AI는 인스트럭트 GPT와 유사하게 훈련된 언어 모델을 바탕으로 한 챗GPT를 출시했다. 이 모델은 RLHF(강화학습) 기법을 활용해 사용자와의 대화를 보다 자연스럽게 만들어준다. 마이크로소프트(Microsoft)의 빙 챗(Bing Chat)과 구글(Google)의 제미나이(‎Gemini) 역시 각각의 대화형 언어 모델을 사용한 예다. 또한, 자체 지침을 생성하고 이를 기반으로 목표를 달성하는 메타 작업 수행 모델도 있다. 오토-GPT는 이러한 재귀적 AI 에이전트의 초기 사례로, 이후 다양한 모델이 개발되었다.^[8]

비교[편집]

챗GPT[편집]

GPT와 챗GPT는 같은 말같아 보이지만 용도 및 최적화, 응용 범위, 파인튜닝 등에서 차이를 보인다. 용도 및 최적화 측면에서 GPT는 일반적인 언어 생성 모델로, 다양한 텍스트 작업에 활용될 수 있다. 반면 챗GPT는 대화형 응용에 특화된 모델로, 자연스럽고 연속적인 대화를 유지하는 데 중점을 두고 있다. 응용 범위와 관련해서 GPT는 다양한 텍스트 생성 작업에 사용되며, 챗봇뿐만 아니라 문서 작성, 번역, 텍스트 분석 등 여러 분야에서 활용된다. 반면 챗GPT는 주로 대화형 인터페이스에 통합되어 사용자가 직접 대화할 수 있는 환경을 제공하는 데 집중한다. 마지막으로 챗GPT는 GPT 모델을 기반으로 하되, 대화의 일관성과 응답의 질을 높이기 위해 추가적인 데이터와 기술적 조정을 거친다. 이를 통해 더 자연스럽고 인간적인 대화 경험을 제공한다.^[9]

각주[편집]

↑ Joe McKendrick, 〈Most Jobs Soon To Be ‘Influenced’ By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests〉, 《Forbes》, 2023-03-26
↑ Jamiel Sheikh, 〈Bloomberg Uses Its Vast Data To Create New Finance AI〉, 《Forbes》, 2023-04-05
↑ 정준화, 〈챗GPT의 등장과 인공지능 분야의 과제〉, 《국회입법조사처》, 2023-03-03
↑ 이현주, 성창수, 전병훈, 〈빅카인즈를 활용한 GenAI(생성형 인공지능) 기술 동향 분석: ChatGPT 등장과 스타트업 영향 평가〉, 《벤처창업연구》, 2023
↑ Mohammed Haddad, 〈How does GPT-4 work and how can you start using it in ChatGPT?〉, 《ALJAZEERA》, 2023-03-15
↑ 류 정화, 〈챗GPT의 간단 역사 정리, 그리고 인공지능(AI)이 검색과 콘텐츠 마케팅을 어떻게 변화시킬까?〉, 《콘텐타M》, 2023-03-16
↑ 유승재 대표이사, 〈생성형 AI 출현에 따른 대화형 AI 시장의 발전과 변화〉, 《MIT테크놀로지리뷰》, 2023
↑ ^8.0 ^8.1 〈GPT (언어 모델)〉, 《위키백과》
↑ 〈챗GPT〉, 《위키백과》

참고자료[편집]

〈GPT (언어 모델)〉, 《위키백과》
〈챗GPT〉, 《위키백과》
유승재 대표이사, 〈생성형 AI 출현에 따른 대화형 AI 시장의 발전과 변화〉, 《MIT테크놀로지리뷰》, 2023
이현주, 성창수, 전병훈, 〈빅카인즈를 활용한 GenAI(생성형 인공지능) 기술 동향 분석: ChatGPT 등장과 스타트업 영향 평가〉, 《벤처창업연구》, 2023
정준화, 〈챗GPT의 등장과 인공지능 분야의 과제〉, 《국회입법조사처》, 2023-03-03
류 정화, 〈챗GPT의 간단 역사 정리, 그리고 인공지능(AI)이 검색과 콘텐츠 마케팅을 어떻게 변화시킬까?〉, 《콘텐타M》, 2023-03-16
Mohammed Haddad, 〈How does GPT-4 work and how can you start using it in ChatGPT?〉, 《ALJAZEERA》, 2023-03-15
Joe McKendrick, 〈Most Jobs Soon To Be ‘Influenced’ By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests〉, 《Forbes》, 2023-03-26
Jamiel Sheikh, 〈Bloomberg Uses Its Vast Data To Create New Finance AI〉, 《Forbes》, 2023-04-05

같이 보기[편집]

이 GPT 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

인공지능 : 인공지능 서비스, 인공지능 로봇, 인공지능 기술^□^■^⊕, 인공지능 기업, 인공지능 인물

인공지능 기술	AI 워싱 • 랭체인 • 로봇공학 • 로봇기술 • 인지과학 • 자동추론 • 자연어 처리 • 지능 • 지식표현 • 컴퓨터 비전 • 튜링 테스트 • 프롬프트 • 프롬프트 엔지니어링

문자인식과 음성인식	ICR • OCR • OMR • TTS • URL • 글자 • 답변 • 대화 • 동영상 • 디자인 • 맥락 • 문서 • 문자 • 문자인식 • 문자채팅 • 발음 • 번역 • 분류 • 상담 • 소스코드 • 스토리 • 얼굴 • 얼굴인식 • 음성 • 음성채팅 • 음성인식(STT) • 이미지 • 인공어 • 인공지능 음성 • 자막 • 자연어 • 질문 • 채팅 • 코드 • 코딩 • 텍스트 • 통번역 • 통역 • 파일 • 폴더 • 화상채팅 • 화자인식

인공지능 데이터	데이터라벨러 • 데이터라벨링 • 데이터셋 • 돌마 • 벡터 • 벡터DB • 벡터공간 • 스칼라 • 임베딩 • 크라우드워커 • 토큰 • 토큰화

인공지능 학습	ADP • CoLLM • DALL-E • DDPG • DQN • LAM • LMM • SARSA • sLLM • SLM • 강화학습 • 거대언어모델(LLM) • 결정이론적 메타추론 • 계통적 강화학습 • 과적합 • 동적 계획법 • 딥러닝 • 딥큐러닝 • 머신러닝(기계학습) • 메타추론 • 모델 기반 강화학습 • 모델 프리 강화학습 • 미세조정(파인튜닝) • 반영식 아키텍처 • 비지도학습 • 사전학습 • 수시 알고리즘 • 어니 • 에이전트 • 인공지능 학습 • 전이학습 • 준지도학습 • 지도학습 • 추론 • 학습 • 확률적 경사하강법

인공지능 알고리즘	AGI • ANI • ASI • RAG • XAI • 가중치 • 관계형 네트워크(RN) • 뉴런 • 다층퍼셉트론 • 단층퍼셉트론 • 데이터마이닝 • 방사신경망 • 볼츠만 머신 • 분산 샌드박스 • 생성대립신경망(GAN) • 생성형 AI • 수퍼얼라인먼트 • 순전파 • 순환신경망(RNN) • 시그모이드 함수 • 신경망 • 신경망 구조 • 심층신경망(DNN) • 심층신뢰신경망(DBN) • 양방향 비고정값 암호 체계(TSID) • 역전파 • 은닉층 • 인공신경망(ANN) • 인공지능(AI) • 제한 볼츠만 머신(RBM) • 전방전달신경망 • 주의 메커니즘 • 코헨 자기조직 신경망 • 텍스트마이닝 • 트랜스포머 • 파이 • 퍼셉트론 • 합성곱 신경망(CNN)

계산복잡도	NP • NP-완전 • 계산복잡도 • 공간복잡도 • 시간복잡도 • 여 NP • 여 NP-완전

인공지능 프로그램	BCI • GPT • 딥블루 • 딥페이크 • 멀티모달 AI • 모달 • 모달리티 • 모달창 • 알렉스넷 • 어니 • 알파고 • 알파고제로 • 알파폴드 • 왓슨 • 카페 • 컨트롤넷 • 텐서플로 • 텔레파시 • 토치 • 파이토치 • 한돌

인공지능 특징	결정이론 • 계산상의 합리성 • 논리학 • 논리주의자 • 분산성 • 불확실성 • 삼단논법 • 선호도 • 예측곤란성 • 완벽한 합리성 • 유계 합리성 • 이유 불충분의 원리 • 자율성 • 최대기대효용 • 할루시네이션 • 효용이론

인공지능 법적 지위	권리주체성 • 소버린 AI • 전자대리인 • 전자적 인간 • 책임법

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[1] Joe McKendrick, 〈Most Jobs Soon To Be ‘Influenced’ By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests〉, 《Forbes》, 2023-03-26

[2] Jamiel Sheikh, 〈Bloomberg Uses Its Vast Data To Create New Finance AI〉, 《Forbes》, 2023-04-05

[3] 정준화, 〈챗GPT의 등장과 인공지능 분야의 과제〉, 《국회입법조사처》, 2023-03-03

[4] 이현주, 성창수, 전병훈, 〈빅카인즈를 활용한 GenAI(생성형 인공지능) 기술 동향 분석: ChatGPT 등장과 스타트업 영향 평가〉, 《벤처창업연구》, 2023

[5] Mohammed Haddad, 〈How does GPT-4 work and how can you start using it in ChatGPT?〉, 《ALJAZEERA》, 2023-03-15

[6] 류 정화, 〈챗GPT의 간단 역사 정리, 그리고 인공지능(AI)이 검색과 콘텐츠 마케팅을 어떻게 변화시킬까?〉, 《콘텐타M》, 2023-03-16

[7] 유승재 대표이사, 〈생성형 AI 출현에 따른 대화형 AI 시장의 발전과 변화〉, 《MIT테크놀로지리뷰》, 2023

[.EC.9C.84.ED.82.A4-8] 8.0 ^8.1 〈GPT (언어 모델)〉, 《위키백과》

[9] 〈챗GPT〉, 《위키백과》

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

위키원

이름공간

변수

보기

더 보기

검색

GPT

목차