오픈AI
오픈AI(OpenAI)는 인공지능(AI) 연구 및 배포를 통해 인류 전체의 이익을 도모하는 것을 목표로 하는 연구소다. 인간 수준의 지능을 지닌 일반 인공지능(AGI, Artificial General Intelligence)을 개발하고, 이를 안전하고 윤리적으로 사용하도록 하는 비전을 가지고 있다. 오픈AI는 초기에는 비영리 단체로 시작했지만, 현재는 비영리 단체와 수익을 제한하는 형태의 영리 자회사(OpenAI LP)를 병행하여 운영하고 있다.
목차
역사
오픈AI는 2015년 12월, 일론 머스크(Elon Musk), 샘 올트먼(Sam Altman), 그렉 브록먼(Greg Brockman), 일리야 수츠케버(Ilya Sutskever), 그리고 여러 AI 전문가들에 의해 설립되었다. 이들은 인공지능 기술이 인류의 미래에 중대한 영향을 미칠 수 있다고 인식했고, 이러한 기술이 투명하고 윤리적으로 개발되어야 한다는 필요성을 느꼈다. 일론 머스크는 AI 기술의 잠재적 위험성에 대해 특히 우려를 표명하며, 안전한 AI 개발을 위한 연구소의 필요성을 강조했다.
오픈AI의 설립자들은 인공지능 기술의 발전이 가져올 수 있는 위험과 기회를 모두 인식하고 있었다. AI가 잘못 사용되면 큰 위험을 초래할 수 있으며, 따라서 AI 연구는 투명하고 윤리적으로 수행되어야 한다는 점에 동의했다. 그들은 AI 기술이 인류 전체의 이익을 위해 사용될 수 있도록 보장하기 위해 오픈AI를 설립했다.[1] 특히, 일론 머스크는 AI의 잠재적 위험성에 대해 경고하며, AI 연구가 투명하고 안전하게 이루어져야 한다고 주장했다.
오픈AI는 처음에 비영리 단체로 시작했다.[2] 설립자들은 AI 연구가 상업적 이익보다는 인류의 이익을 최우선으로 해야 한다고 믿었다. 비영리 모델을 채택함으로써, 그들은 연구 결과를 공개하고, AI 기술의 오용을 방지하기 위해 노력할 수 있었다. 그러나 시간이 지남에 따라 AI 연구와 개발에 필요한 자원이 점점 더 많아지면서, 비영리 모델만으로는 충분한 자금을 조달하기 어려워졌다.
2019년, 오픈AI는 수익을 제한하는 형태의 영리 자회사인 오픈AI LP를 설립했다. 이 결정은 AI 기술 개발을 위해 필요한 자금을 효과적으로 조달하기 위한 것이었다.[3] 오픈AI LP는 투자자들에게 일정 수익을 제공할 수 있지만, 수익은 제한되며 대부분의 자금은 계속해서 AI 연구와 개발에 사용된다. 이를 통해 오픈AI는 상업적 이익과 연구 목적 사이의 균형을 유지하고자 했다.
오픈AI는 설립 초기부터 인공지능의 안전성과 윤리적 문제에 중점을 두고 연구를 시작했다. 초기 연구는 강화 학습, 자연어 처리, 컴퓨터 비전 등 다양한 AI 분야를 다루었다. 오픈AI는 연구 결과를 공개하고, 학계와 산업계와의 협력을 통해 AI 기술의 발전을 도모했다.
오픈AI의 대표적인 성과 중 하나는 GPT(Generative Pre-trained Transformer) 시리즈이다. GPT 시리즈는 자연어 처리 분야에서 혁신적인 성과를 거두었으며, 특히 GPT-3는 1750억 개의 매개변수를 가진 초대형 언어 모델로 주목받았다. GPT-3는 텍스트 생성, 번역, 요약, 질의응답 등 다양한 언어 작업에 사용될 수 있으며, 상업적 및 비상업적 목적으로 널리 활용되고 있다.
오픈AI는 상업적 성공과 함께 여러 윤리적 논란에도 직면했다. GPT-3의 독점 라이센스를 마이크로소프트(MS)에 부여한 것이 대표적인 예이다. 이 결정은 오픈AI가 본래의 비영리적 목표에서 벗어나 상업적 이익을 추구한다는 비판을 받았다. 또한, AI 기술의 오용 가능성과 관련된 우려가 지속적으로 제기되고 있으며, 오픈AI는 이러한 문제를 해결하기 위해 지속적으로 노력하고 있다.
주요 인물
샘 올트먼
샘 올트먼(Sam Altman)은 오픈AI의 CEO로, 미국의 기업가, 투자가, 프로그래머이다. 미국의 유대인 가정에서 태어나 미주리 세인트루이스에서 자랐다. 스탠퍼드 대학교에서 컴퓨터 과학을 공부하다가 중퇴하고 2005년 위치 기반 소셜 네트워킹 서비스 회사 룹트(Loopt)를 공동 설립, 19세의 나이에 CEO가 되었다. 2011년부터는 와이콤비네이터(Y Combinator)에 참여하였으며 2014년에는 와이 콤비네이터의 공동 설립자 폴 그레이엄(Paul Graham)으로부터 회장직에 임명되었다.
2015년에는 일론 머스크 등과 함께 인공지능 연구소인 오픈AI의 설립을 주도하였으며, 현재 사장으로 있다. 그는 오픈AI의 전략적 방향 설정과 자금 조달에 중요한 역할을 담당하고 있다. 올트먼은 오픈AI의 설립 초기에 AI 기술의 발전이 인류에 미칠 긍정적인 영향과 부정적인 영향을 모두 인식하고, AI 기술이 안전하고 윤리적으로 사용될 수 있도록 하는 목표를 가지고 오픈AI를 설립했다. 2023년에는 샘 올트먼의 갑작스러운 해임과 복귀 사건이 큰 화제가 되었다. 이는 오픈AI의 운영 구조와 경영진 간의 갈등을 드러내는 사건으로, 많은 논란을 불러일으켰다.[1]
그렉 브록먼
그렉 브록먼(Greg Brockman)은 오픈AI의 CTO이자 미국 기업가, 투자자 및 소프트웨어 개발자이다. 그는 2010년 MIT를 떠나면서 스트라이프(Stripe)에서 경력을 시작했으며 2013년에 CTO가 되었다. 그는 2015년에 스트라이프를 떠나 오픈AI를 공동 창립했으며 CTO 역할을 맡았다.
브록먼은 노스다코타주 톰슨에서 태어나 레드리버 고등학교에 다녔으며 그곳에서 수학, 화학, 컴퓨터 과학 분야에서 두각을 나타냈다. 그는 2006년 국제 화학 올림피아드에서 은메달을 획득했으며 1973년 이래로 노스다코타 출신 최초로 인텔 과학 재능 찾기에 참가한 결선 진출자가 되었다. 2007년에는 수학 재능이 있는 고등학생들을 위한 여름 프로그램인 캐나다/미국 수학 캠프에 참석했다. 2008년에 브로크만은 하버드 대학교에 등록했지만 1년 후에 학교를 떠나 매사추세츠 공과대학교에 잠시 등록했다.
그는 오픈AI의 기술 개발을 이끌고 있으며, 특히 머신러닝과 AI 연구에 깊이 관여하고 있다. 브록먼은 오픈AI의 다양한 AI 프로젝트를 주도하며, AI 기술의 발전과 상용화를 이끌어 왔다. 그는 특히 AI를 이용한 게임과 관련된 프로젝트에서 중요한 역할을 수행했으며, AI 모델의 성능을 극대화하기 위해 다양한 기술적 도전을 극복했다.[4]
일리야 수츠케버
일리야 수츠케버(Ilya Sutskever)는 오픈AI의 최고 과학책임자(Chief Scientist)이자 러시아 니즈니노브고로드 태생의 캐나다 컴퓨터 과학자이다. 유대인이기 때문에 구 소련 붕괴 후 이스라엘에서 대학을 다니다가, 캐나다로 이민가서 편입해서 학업을 마쳤다. 그는 토론토 대학교에서 제프리 힌턴(Geoffrey Hinton)의 지도로 박사 학위를 받아, 알렉스넷(AlexNet) 개발에 참여하기도 했다.
일리야 수츠케버는 딥러닝 분야의 선구자 중 한 명으로, 구글브레인(Google Brain)에서 중요한 연구를 수행했으며, 오픈AI의 설립 이후 연구 방향을 주도하고 있다. 수츠케버는 AI 연구에서 중요한 이론적 및 실질적 기여를 해왔으며, 특히 딥 러닝과 강화 학습 분야에서 두각을 나타내고 있다. 수츠케버는 오픈AI의 설립 이후 AI 연구와 개발에 집중하며, 다양한 AI 모델의 개발과 응용에 기여했다. 그는 AI의 잠재적 위험성을 인식하고, AI 기술이 윤리적이고 안전하게 사용될 수 있도록 하는 데 중점을 두고 있다.[5]
일론 머스크
일론 머스크(Elon Musk)는 테슬라(Tesla)와 스페이스엑스(Space X)의 CEO로 널리 알려져 있으며, 오픈AI의 공동 설립자 중 한 명이다. 2015년 오픈AI를 설립하는 데 중요한 역할을 했으며, AI 기술의 위험성에 대해 경고하며 AI 연구가 안전하고 윤리적으로 이루어져야 한다고 주장했다. 머스크는 AI 기술이 인류에게 가져올 잠재적 위험성에 대해 깊이 우려하여, AI 기술이 공공의 이익을 위해 사용되도록 보장하기 위해 오픈AI를 설립했다.
그러나 2018년에 머스크는 오픈AI 이사회에서 물러났다. 이는 그가 테슬라와 스페이스엑스에서의 업무에 집중하기 위함이었다. 이후 머스크는 오픈AI가 마이크로소프트(Microsoft)와의 협력을 통해 영리적인 방향으로 나아가는 것에 대해 비판을 가해왔다. 그는 오픈AI가 원래의 비영리적 목표에서 벗어나 상업적 이익을 추구한다고 비판했다.[6]
제품 및 서비스
언어 모델
GPT 시리즈
- GPT-1 : 2018년 오픈AI가 발표한 최초의 대규모 언어 모델로, 약 1억 1천 7백만 개의 매개변수를 가지고 있다. GPT-1은 대규모 텍스트 데이터셋을 학습하여 텍스트 생성, 번역, 요약 등 다양한 자연어 처리 작업에서 기본적인 성능을 보여주었다. 이 모델은 자연어 처리 기술의 가능성을 보여주었으며, 이후 모델 개발의 기초가 되었다. GPT-1은 NLP 연구에 큰 기여를 하였고, 언어 모델의 확장 가능성을 확인시켜 주었다.
- GPT-2 : 2019년에 발표된 모델로, 약 15억 개의 매개변수를 가지고 있다. GPT-2는 GPT-1보다 10배 이상의 매개변수를 포함하고 있어 더 많은 데이터를 학습할 수 있었다. 이 모델은 텍스트 생성 능력에서 뛰어난 성능을 보여주었으며, 더 긴 텍스트 생성, 문장 연결성, 문맥 이해력 등에서 향상된 결과를 보였다. GPT-2는 방대한 양의 인터넷 텍스트 데이터를 학습하여 다양한 언어 작업에서 활용될 수 있으며, 생성된 텍스트의 품질이 인간 수준에 가까워 많은 주목을 받았다. 초기에는 악용 가능성에 대한 우려로 제한된 형태로 공개되었으나, 이후 점진적으로 전체 모델이 공개되었다.[7]
- GPT-31 : 2020년에 공개된 모델로, 1750억 개의 매개변수를 가지고 있다. GPT-3는 텍스트 생성 능력에서 획기적인 성능 향상을 보였으며, 자연어 처리, 코드 작성, 질문 응답 등 다양한 작업에서 뛰어난 성능을 발휘한다. GPT-3는 자연어를 이해하고 생성하는 능력이 매우 뛰어나며, 인간과 유사한 수준의 텍스트를 생성할 수 있다. 이 모델은 다양한 API를 통해 개발자들에게 제공되며, 다양한 응용 프로그램 개발에 활용되고 있다. GPT-3는 특히 대화형 AI, 콘텐츠 생성, 언어 번역 등 여러 분야에서 활발히 사용되고 있으며, AI 기반 서비스의 상용화를 촉진하는 데 중요한 역할을 하고 있다.[8]
- GPT-41 : 2023년에 출시된 모델로, GPT-3보다 더 많은 데이터를 학습하고, 더 복잡한 작업을 수행할 수 있는 능력을 갖추고 있다. GPT-4는 고급 추론 및 지침 준수 능력을 통해 안전성 연구를 촉진하고, 다양한 응용 프로그램에서 활용되고 있다. GPT-4는 마이크로소프트 애저(Microsoft Azure) AI 슈퍼컴퓨터에서 학습되었으며, 챗GPT 플러스와 API를 통해 제공된다. 또한, GPT-4는 대규모 학습 데이터를 통해 다양한 언어 작업에서 향상된 성능을 보여준다. 이 모델은 다양한 산업 분야에서 활용되며, 특히 기업의 데이터 분석, 자동화된 고객 지원, 교육 도구 등 여러 방면에서 유용하게 사용되고 있다.
- GPT-51 : 개발 중인 GPT-5는 기존 모델보다 더 높은 정확도와 효율성을 목표로 하고 있으며, 더 많은 데이터를 학습하고, 더 복잡한 언어 작업을 수행할 수 있는 능력을 갖출 예정이다. GPT-5는 AI 기술의 진보를 통해 다양한 산업에서의 활용을 기대하고 있으며, 특히 의료, 금융, 법률 등 전문 지식이 필요한 분야에서의 혁신을 도모할 것이다.
위스퍼
위스퍼(Whisper)는 오픈AI에서 개발한 자동 음성 인식(Automatic Speech Recognition, ASR) 모델로, 다양한 언어의 음성을 텍스트로 변환하는 데 사용된다. 2022년 12월에는 기존 라지(large) 모델에서 더욱 개선된 라지-v2 모델을 출시했다. 위스퍼는 680,000시간 분량의 다국어 및 다목적 감독 데이터를 학습했다. 챗GPT 앱의 음성 인식 기능이 위스퍼 모델을 기반으로 만들어진 것이다.
위스퍼는 모델의 크기에 따라 여러 모델이 존재하며, 영어만 처리할 수 있는 모델과 여러 언어를 처리할 수 있는 다국어 모델로 구분된다. 오픈소스로 공개되었기 때문에 위스퍼를 스트리밍 웹사이트에서 바로 사용할 수 있으며 또한 파이썬(Python)으로 설치하여 사용할 수 있다. 별도로 오픈AI에서 제공하는 API를 통해, 라지-v2 모델을 유료로 사용할 수도 있다. 한국어는 단어 오류율(WER) 통계를 기준으로 27위에 해당한다.[9] 순위 통계만 27위일 뿐, 성능은 웬만한 음성 인식 기능보다 뛰어나다.
위스퍼는 높은 정확도와 빠른 응답 속도로 다양한 음성 기반 애플리케이션에 활용될 수 있으며, 음성 비서, 자동 문자 전사, 음성 검색 등 다양한 분야에서 사용된다. 방대한 음성 데이터를 학습하여 정확한 음성 인식을 제공하며, 다양한 언어와 방언을 지원한다. 이 모델은 특히 회의록 작성, 고객 서비스, 접근성 향상 등 다양한 실용적 용도로 사용될 수 있다.
코덱스
코덱스(Codex)는 오픈AI가 개발한 인공지능 모델이다. 응답 시 자연어의 구문을 분석하고 코드를 생성한다. 자연어를 프로그래밍 언어로 변환할 수 있는 AI 모델로, 개발자들이 더 효율적으로 코드를 작성하고 디버깅할 수 있도록 돕는다. 코덱스는 특히 비주얼 스튜디오 코드와 네오빔(Neovim) 등의 선별된 통합 개발 환경(IDE)을 위한 프로그래밍 자동 완성 도구인 깃허브 코파일럿(Github Copilot)으로 통합되어, 개발자들이 코딩 중 실시간으로 코드를 추천받고 자동 완성을 할 수 있게 지원한다. 코덱스는 오픈AI의 GPT-3 모델의 후손으로, 프로그래밍 애플리케이션에서의 사용에 최적화되어 있다. 코덱스는 다양한 프로그래밍 언어를 지원하며, 복잡한 코드 생성 및 수정 작업을 도와주는 강력한 도구로 활용되고 있다. 이 모델은 코드 작성, 코드 리뷰, 자동화된 테스트 생성 등 개발자 생산성을 크게 향상시킬 수 있는 다양한 기능을 제공한다. [7]
한편 오픈AI는 클로즈드 베타로서 코덱스용 API를 공개했다. 2023년 3월, 오픈AI는 코덱의 접근을 종료했다. 연구자들로부터의 대중적 항의로 인해 오픈AI는 이 결정을 되돌렸다. 코덱스 모델은 지금도 오픈AI 연구 접근 프로그램의 연구원들에 의해 사용이 가능하다.
프로메테우스
프로메테우스(Prometheus)는 다양한 데이터 소스를 통합하여 고급 분석과 예측을 제공하는 AI 플랫폼으로, 데이터 과학자와 분석가들이 복잡한 데이터를 쉽게 분석할 수 있도록 돕는다. 2023년 2월 7일 마이크로스프트 인공지능 언론 발표회에서 최초 공개되었다. 마이크로소프트(Microsoft) 빙(Bing)과 엣지(Edge)에 적용된다. GPT-4에서 검색 기능을 특화시켜 만든 모델이다. 프로메테우스는 빅데이터 처리, 예측 분석, 머신러닝 모델 구축 등 다양한 기능을 제공하여, 기업의 데이터 활용 능력을 향상시킨다. 프로메테우스는 대규모 데이터 처리와 분석을 위한 고급 도구를 제공하며, 특히 비즈니스 인텔리전스, 시장 예측, 고객 행동 분석 등 다양한 산업 분야에서 활용된다.
응용 소프트웨어
ChatGPT
챗GPT(Chat GPT)는 오픈AI(OpenAI)가 개발한 프로토타입 대화형 인공지능 챗봇이다. 챗GPT는 대형 언어 모델 GPT-3의 개선판인 GPT-3.5를 기반으로 만들어졌으며, 지도학습과 강화학습을 모두 사용해 파인 튜닝되었다. 챗GPT는 Generative Pre-trained Transformer(GPT)와 Chat의 합성어이다. 챗GPT는 2022년 11월 프로토타입으로 시작되었으며, 다양한 지식 분야에서 자세한 답과 자세한 답으로 자세하게 자세히 주목 받았다. 다만, 지식의 맞춤도는 중요한 정보으로 지적되고 있다. 챗GPT는 인간과 유사한 글자를 생성하는 뛰어난 기능을 입증했지만 훈련 데이터에 존재하는 편견을 쉽게 상속하고 증폭할 수 있다. 이는 인종, 성별, 언어 문화 집단에 따른 다양한 견해와 태도 등 다양한 인구통계에 대한 허위 진술이나 부당한 태도로 나타날 수 있다.[10]
생성형 AI는 대규모 데이터에서 학습하여 새로운 콘텐츠를 생성하는 능력을 가지며, 챗GPT는 특히 자연어 처리와 대화 생성에서 두각을 나타낸다. 챗GPT는 2022년 11월에 출시된 이후, 다양한 분야에서 빠르게 도입되었다. 초기에는 그 활용이 주로 텍스트 기반의 대화나 질문 응답 시스템에 집중되었으나, 현재는 교육, 의료, 공공 서비스 등 다양한 분야에서 사용되고 있다. 예를 들어, 행정안전부는 공공부문에서 챗GPT를 효과적으로 활용하기 위한 가이드라인을 배포하였다.[11] 챗GPT의 기술적 기반은 GPT(Generative Pre-trained Transformer) 모델이다. 이 모델은 트랜스포머라는 신경망 구조를 기반으로 하며, 방대한 양의 텍스트 데이터를 통해 사전 학습된다. 이를 통해 자연어를 이해하고 생성하는 능력이 뛰어나게 되었다. 특히 GPT-3.5와 같은 최신 모델은 수십억 개의 매개변수를 사용하여 인간과 유사한 대화 능력을 보인다.[12]
챗GPT의 도입과 확산은 긍정적인 측면과 부정적인 측면을 모두 가지고 있다. 긍정적으로는 다양한 업무의 효율성을 높이고, 새로운 서비스 창출을 가능하게 한다. 그러나 챗GPT의 사용이 증가함에 따라 사이버 보안 문제, 개인정보 침해, 저작권 문제 등 여러 가지 문제가 제기되고 있다. 이러한 문제를 해결하기 위해서는 기술적 개선과 함께 법적, 윤리적 고려가 필요하다. 또한 챗GPT는 현재 실시간 학습이 불가능하며, 입력 데이터의 편향성 문제도 가지고 있다. 이는 AI의 응답이 항상 정확하거나 중립적이지 않을 수 있음을 의미한다. 이러한 한계는 앞으로의 연구와 개발을 통해 개선될 필요가 있다.[13] 종합적으로, 챗GPT와 같은 생성형 AI는 혁신적인 가능성을 제공하면서도, 다양한 문제와 한계를 가지고 있다. 따라서 이러한 기술을 도입하고 활용하는 과정에서 신중한 접근이 필요하다.
달리
달리(DALL-E)는 오픈AI(OpenAI)에서 개발한 이미지 생성형 인공지능으로, 텍스트 설명을 기반으로 이미지를 생성할 수 있는 모델이다. 이 모델은 GPT-3 및 GPT-4와 같은 대규모 언어 모델을 기반으로 하며, 텍스트와 이미지를 함께 학습하여 다양한 시각적 콘텐츠를 생성하는 능력을 갖추고 있다. 2023년 9월 출시된 달리 3는 프롬프트를 이해하는 수준이 기존의 AI보다 월등히 뛰어나며, 텍스트를 이미지로 구현할 수 있는 전세계적으로 몇 안 되는 AI 모델이다. 2023년 10월 기준 달리 3는 챗GPT 플러스(유료 버전)에 탑재되어 챗GPT 대화창 안에서, 그리고 마이크로소프트 코파일럿(Microsoft Copilot) 또는 빙 이미지 크리에이터(무료)에서 사용할 수 있다. 달리 3는 영어 외 다수의 언어를 이해하며, 한글로 작성된 프롬프트(명령어)도 굉장히 잘 이해한다. 영어에 부담을 느껴 AI 그림에 관심은 있지만, 실제 생성을 시도하지는 못했던 잠재 유저의 AI 그림 생성 분야로의 진입 장벽을 크게 낮춰줄 것으로 보인다.
달리는 텍스트 기반 이미지 생성, 고해상도 이미지 생성, 이미지 변형 및 수정의 주요 특징과 기능을 가지고 있다. 먼저 달리는 사용자가 제공하는 텍스트 설명을 기반으로 이미지를 생성할 수 있다. 예를 들어, "빨간 모자를 쓴 고양이"와 같은 설명을 입력하면 이에 맞는 이미지를 만들어낼 수 있다. 이는 디자이너, 예술가, 마케터 등 다양한 분야에서 창의적인 작업을 지원하는 데 큰 도움이 된다. 또한 달리 2(DALL·E 2)는 고해상도의 이미지를 생성할 수 있는 능력을 가지고 있다. 첫 번째 버전보다 해상도가 4배 향상되었으며, 더욱 사실적이고 정확한 이미지를 생성할 수 있다. 이를 통해 사용자는 더 정교한 시각적 콘텐츠를 제작할 수 있다.[14] 더불어 달리는 단순히 이미지를 생성하는 것뿐만 아니라, 기존 이미지를 변형하거나 수정하는 기능도 제공한다. 사용자는 특정 이미지를 입력하고 그 이미지에 대한 변형된 버전을 생성할 수 있어, 다양한 디자인 시안을 쉽게 만들 수 있다.[15]
달리는 다양하게 활용될 수 있다. 먼저 달리는 예술가와 디자이너에게 창의적인 영감을 제공하는 도구로 활용될 수 있다. 상상 속의 이미지를 시각화하여 새로운 아이디어를 구체화하는 데 도움을 줄 수 있다. 이는 예술 작품의 창작 과정에서 매우 유용하다. 또한 기업의 광고나 마케팅 캠페인에서도 달리가 유용하게 사용될 수 있다. 광고 이미지를 빠르게 생성하고 수정할 수 있어, 다양한 시안을 손쉽게 제작할 수 있다. 이는 마케팅 전략을 더욱 효과적으로 실행하는 데 기여한다. 더불어 달리는 교육 분야에서도 활용 가능하다. 예를 들어, 학생들이 특정 주제에 대한 시각적 자료를 필요로 할 때 달리를 사용하여 적절한 이미지를 생성할 수 있다. 또한, 연구자들은 달리를 활용하여 데이터 시각화 및 설명 자료를 제작할 수 있다.[16]
소라
소라(Sora)는 오픈AI가 개발한 텍스트-비디오 모델이다. 일본어 소라(そら)에서 이름을 따왔으며, 그 이름은 무한하고 창의적인 잠재력에 대한 아이디어를 불러일으키는 모습을 묘사한다고 한다. 움직이는 물리적 세계를 이해하고 시뮬레이션하는 인공지능을 지향하며, 실세계의 상호작용이 필요한 문제 해결을 하는 모델을 목적으로 한다. 소라는 텍스트 요약 및 정보 검색을 지원하는 AI 모델로, 대량의 텍스트 데이터를 효율적으로 처리할 수 있다. 특히 뉴스 요약, 문서 분석, 학술 연구 등에서 유용하게 사용된다. 이 모델은 사용자가 입력한 질문에 대해 관련성 높은 정보를 제공하며, 긴 텍스트를 간결하고 이해하기 쉽게 요약해준다. 소라는 연구 논문 요약, 법률 문서 분석, 교육 자료 요약 등 다양한 분야에서 활용될 수 있다. 2024년 2월 기준 미공개 상태이며 아직 일반에 제공되지 않는다.
소라는 기존 동영상 생성 모델에 비해 매우 사실적인 영상을 생성하고, 자연스러운 카메라 움직임을 묘사할 수 있다. 상상 속의 장면이라도 이를 묘사하는 프롬프트를 입력하면 그 모습의 표현이 가능하다. 대상 영속성이 구현된 동영상이 생성되는데, 어떤 사물이 배경을 지나가도 사물이 배경에 특별한 영향을 끼치지 않으면 그 배경이 변하지 않는다. 입력한 이미지와 프롬프트를 토대로 한 애니메이션 생성이 가능한 것은 기본이고, 주어진 동영상의 앞뒤에 자연스럽게 이어지는 새로운 동영상을 생성할 수 있다. 사람이 그림을 그리는 동영상에는 그 그림이 더 그려지는 모습도 생성할 수 있다. 여러 개의 다른 동영상이 똑같은 장면으로 끝나게 하는 등의 연출도 가능하다. 끊기지 않는 무한 루프가 이어지는 동영상 생성도 가능하며, 주어진 동영상의 배경만을 바꿀 수 있는 등 다양한 기능을 제공한다. 두 개의 아예 다른 동영상 사이에 완벽히 이어지는 동영상을 생성할 수도 있으며, 동영상뿐만 아니라 이미지 생성도 가능하다.[17]
서치GPT
서치GPT(SearchGPT)는 검색엔진과 유사하게 작동하여, 사용자가 입력한 질문에 대한 정확하고 관련성 높은 정보를 제공하는 AI 모델이다. 서치GPT는 정보 검색, 고객 지원, 교육 등 다양한 분야에서 활용될 수 있다. 이 모델은 자연어로 작성된 질문을 이해하고, 관련된 정보를 검색하여 사용자에게 제공하며, 사용자의 요구에 맞게 결과를 최적화한다. 서치GPT는 실시간으로 정보를 제공하고, 복잡한 질문에도 신속하고 정확한 답변을 제공할 수 있어 다양한 산업에서 유용하게 활용된다.
더 구체적으로 서치GPT는 사용자 질문에 대해 뉴스코프나 애틀랜틱 매거진 같은 파트너사들 뉴스를 포함해 다양한 출처 정보들을 인용, 요약한 정보를 제공한다. 사용자는 챗GPT와 마찬가지로 추가 질문을 할 수 있다. 관련 정보에 대한 많은 결과 및 출처를 볼 수 있도록 사이드바도 개발했다. 오픈AI는 검색엔진 개발을 위해 다양한 퍼블리셔들과도 협력해 왔으며, 퍼블리셔들을 위한 조치도 마련했다고 밝혔다. 퍼블리셔들은 자신의 콘텐츠가 오픈AI의 모델을 훈련하는 데 사용되지 않도록 선택할 수 있으며, 여전히 검색 결과에 표시될 수 있다. AI 검색으로 인해 기존에 검색을 타고 들어오던 트래픽이 줄어, 수익 기반이 약화될 것을 우려한 데 따른 조치다.
더 버지의 보도에 따르면, 서치GPT는 GPT-4 패밀리 모델에 기반하며, 2024년 7월 공개된 서치GPT는 프로토타입에 불과하다. 실시간 검색 기능을 챗GPT에 통합해 답변의 성능을 높이기 위한 것으로 목표로 하고 있다. 즉, 별도의 제품으로 서치GPT를 정식 출시할 지는 미지수다. 한편 이날 서치GPT가 출시된 직후, 애틀랜틱 등 매체는 일부 할루시네이션 현상이 보인다고 지적했다.[18]
보이스엔진
보이스엔진(Voice Engine)은 자연스러운 음성 합성 기술을 제공하는 AI 모델로, 다양한 목소리로 텍스트를 읽어주는 기능을 지원한다. 2024년 3월 29일, 오픈AI에서 자사의 블로그 글을 통해 보이스엔진을 공개했다. 사람 목소리를 학습해 똑같은 목소리를 생성하는 생성형 인공지능 도구로, 약 15초 가량의 음성 데이터만 있으면 해당 음성과 목소리가 유사한 음성을 만들어낼 수 있다. 이 기술은 오디오북, 내비게이션 시스템, 음성 비서 등 다양한 분야에서 사용된다. 보이스엔진은 방대한 음성 데이터를 학습하여, 사용자에게 자연스럽고 이해하기 쉬운 음성을 제공하며, 다양한 언어와 음색을 지원한다. 특히 시각 장애인을 위한 접근성 향상, 자동차 내비게이션의 음성 안내, 맞춤형 오디오 콘텐츠 생성 등에 활용될 수 있다. 아직 악용 위험성으로 인해 공개되지는 않고 있다.
각주
- ↑ 1.0 1.1 배소진 기자, 〈오픈AI 함께 만든 머스크와 알트만은 왜 갈라섰을까?(티타임즈)〉, 《머니투데이》, 2023-04-01
- ↑ Karen Hao, 〈베일에 싸인 세계 최고 두뇌집단 오픈AI〉, 《테크놀로지리뷰》, 2023-11-23
- ↑ 김정민 변호사, 〈OpenAI 내분, 인류의 이기심과 두려움 드러내다〉, 《더칼럼니스트》, 2023-12-03
- ↑ 〈OpenAI 그렉 브록먼 "나는 어떻게 머신러닝 전문가가 됐나"〉, 《요즘IT》, 2023-04-18
- ↑ 이종태 기자, 〈오픈AI 이사회는 해야 할 일을 했다〉, 《시사인》, 2023-11-21
- ↑ 피우스, 〈일론 머스크, 샘 알트만 그리고 오픈AI의 숨겨진 역사〉, 《네이버 블로그》, 2023-03-25
- ↑ 7.0 7.1 신동윤 기자, 〈오픈AI, 챗GPT 개발과 운영으로 지난해 5억 4000만 달러 손실〉, 《지티티코리아》, 2023-05-07
- ↑ 현요셉 기자, 〈(인공지능 특집) OpenAI, 책임 있는 AI 연구 및 개발의 선구자 (1)〉, 《센머니》, 2023-02-26
- ↑ 〈whisper main language-breakdown〉, 《깃허브》
- ↑ 〈챗GPT〉, 《위키백과》
- ↑ 공공지능정책과, 〈인공지능, 공공부문에서 똑똑하고 안전하게 활용〉, 《행정안전부》, 2023-05-08
- ↑ KIAT 산업기술정책단 정책기획실, 〈<KIAT 애자일 2023년 제 1호> 챗GPT, 생성형 AI가 가져올 산업의 변화〉, 《한국산업기술진흥원》, 2023-03-06
- ↑ 박보경, 한성수, 〈챗 GPT 의 문제점과 한계에 대한 고찰〉, 《한국정보처리학회 춘계학술발표대회》, 2023-05-18
- ↑ 〈최근 AI 인공지능의 10년 역사 – 10대 사건 중심으로〉, 《디지털인사이트매거진》, 2023-02-07
- ↑ cocoa, 〈(논문 리뷰) DALL-E 2 : Hierarchical Text-Conditional Image Generation with CLIP Latents〉, 《티스토리》, 2022-05-08
- ↑ 박하나, 〈이미지 생성 인공지능(AI) 달리(DALL·E)의 활용 사례 연구〉, 《단국대학교》, 2023-01-26
- ↑ 〈소라〉, 《나무위키》
- ↑ 박찬 기자, 〈오픈AI, 실시간 검색 엔진 '서치GPT' 출시...구글 주가 하락〉, 《AI타임스》, 2024-07-26
참고자료
- 오픈AI 공식 홈페이지 - https://openai.com/
- 〈챗GPT〉, 《위키백과》
- 〈whisper main language-breakdown〉, 《깃허브》
- cocoa, 〈(논문 리뷰) DALL-E 2 : Hierarchical Text-Conditional Image Generation with CLIP Latents〉, 《티스토리》, 2022-05-08
- 박하나, 〈이미지 생성 인공지능(AI) 달리(DALL·E)의 활용 사례 연구〉, 《단국대학교》, 2023-01-26
- 〈최근 AI 인공지능의 10년 역사 – 10대 사건 중심으로〉, 《디지털인사이트매거진》, 2023-02-07
- 현요셉 기자, 〈(인공지능 특집) OpenAI, 책임 있는 AI 연구 및 개발의 선구자 (1)〉, 《센머니》, 2023-02-26
- KIAT 산업기술정책단 정책기획실, 〈<KIAT 애자일 2023년 제 1호> 챗GPT, 생성형 AI가 가져올 산업의 변화〉, 《한국산업기술진흥원》, 2023-03-06
- 피우스, 〈일론 머스크, 샘 알트만 그리고 오픈AI의 숨겨진 역사〉, 《네이버 블로그》, 2023-03-25
- 배소진 기자, 〈오픈AI 함께 만든 머스크와 알트만은 왜 갈라섰을까?(티타임즈)〉, 《머니투데이》, 2023-04-01
- 〈OpenAI 그렉 브록먼 "나는 어떻게 머신러닝 전문가가 됐나"〉, 《요즘IT》, 2023-04-18
- 신동윤 기자, 〈오픈AI, 챗GPT 개발과 운영으로 지난해 5억 4000만 달러 손실〉, 《지티티코리아》, 2023-05-07
- 공공지능정책과, 〈인공지능, 공공부문에서 똑똑하고 안전하게 활용〉, 《행정안전부》, 2023-05-08
- 박보경, 한성수, 〈챗 GPT 의 문제점과 한계에 대한 고찰〉, 《한국정보처리학회 춘계학술발표대회》, 2023-05-18
- 이종태 기자, 〈오픈AI 이사회는 해야 할 일을 했다〉, 《시사인》, 2023-11-21
- Karen Hao, 〈베일에 싸인 세계 최고 두뇌집단 오픈AI〉, 《테크놀로지리뷰》, 2023-11-23
- 김정민 변호사, 〈OpenAI 내분, 인류의 이기심과 두려움 드러내다〉, 《더칼럼니스트》, 2023-12-03
- 박찬 기자, 〈오픈AI, 실시간 검색 엔진 '서치GPT' 출시...구글 주가 하락〉, 《AI타임스》, 2024-07-26
같이 보기
이 문서는 로고 수정이 필요합니다.