검수요청.png검수요청.png

카카오브레인

위키원
(Kakao Brain에서 넘어옴)
이동: 둘러보기, 검색
카카오브레인(Kakao Brain)

카카오브레인(Kakao Brain)은 2017년 2월에 설립된 ㈜카카오인공지능(AI) 연구 전문 자회사이다.

개요[편집]

카카오브레인은 '인간처럼 생각하고, 행동하는 기계(Machine)를 통해 인류가 이제까지 풀지 못했던 난제에 도전한다'는 비전을 가지고 국내 AI 생태계 선순환 구조를 만들 수 있는 다양한 활동과 연구를 진행하기 위해 2017년 2월 설립된 회사이다. ㈜카카오의 100% 자회사로, 2017년 2월 분사해 카카오의 인공지능 사업을 전담해 왔다. 메타러닝, 영상(Vision), 음성(Voice), 자연어처리(NLP) 등 다양한 분야의 연구를 진행하고 있다. 또한 브레인 클라우드라는 자체 플랫폼을 통해 GPU 자원의 사용 효율성을 극대화하는 한편, 연구자의 클라우드 사용 편의성과 연구 속도를 높이는 다양한 기능 개발에 집중하고 있다.[1] 현재 카카오브레인은 카카오의 자체 생성형 인공지능 모델인 코지피티(KoGPT) 2.0을 개발 중이다.[2] 당초 2023년에 공개될 예정이었지만, 계속 일정이 미뤄지고 있다.[3]

주요 기술[편집]

AI 모델[편집]

허니비[편집]

허니비(Honeybee)는 이미지와 대규모 언어모델을 결합할 수 있는 새로운 멀티모달 대형 언어모델(Multimodal Large Language Model, MLLM)이다. 현재 멀티모달 언어모델 연구는 공개된 모델의 수가 적고, 학습 방법도 자세히 공개되지 않아 개발이 어려운 상황이다. 이에 카카오브레인은 멀티모달 언어모델의 발전을 도모하기 위해 자체 개발한 허니비의 소스코드를 공개하기로 결정했다. MLLM은 이미지와 명령어(프롬프트)를 입력하면 텍스트로 답변을 생성하는 모델로, 기존 텍스트 기반 대규모 언어모델(Large Language Model)에서 확장된 형태이다. 이미지를 텍스트와 함께 입력할 수 있어, 이미지에 담긴 장면을 설명하거나 이미지와 텍스트가 혼합된 콘텐츠에 대한 질문을 이해하고 답변할 수 있는 능력을 갖추고 있다. 예를 들어, 허니비에게 '농구 경기 중인 두 명의 선수' 이미지를 제공하고 '왼쪽 선수는 몇 번 우승했나요?'라는 질문을 영어로 입력하면, 허니비는 해당 이미지를 이해하고 질문에 대한 답변을 생성한다. 그 결과, MME, MMBench, SEED-Bench 등의 벤치마크에서 다른 공개된 MLLM들과 비교하여 최고의 성능을 기록했다. 특히 지각 능력과 인지 능력을 평가하는 MME 벤치마크에서 2800점 만점 중 1977점을 획득했다.

또한 관련 논문 '허니비: 멀티모달 LLM을 위한 로컬리티 강화 프로젝터(Honeybee: Locality-enhanced Projector for Multimodal LLM-다운)'는 2023년 12월 아카이브(arXiv)에 공개되었다. 이 논문에서는 "이미지 데이터를 처리하여 딥러닝 모델이 더 효과적으로 학습하고 이해할 수 있도록 돕는 기술"이라고 설명하며, "시각 프로젝터(Visual projector)가 사전 훈련된 비전 인코더와 대형 언어모델(LLM)을 연결하는 데 중요한 역할을 하며, 이를 통해 시각적 이해를 심화시키고 LLM의 능력을 활용할 수 있다"고 덧붙였다. 카카오브레인은 허니비의 MLLM 특성에 따라 이미지를 입력하고 텍스트로 질문을 하여 답변을 생성하고 사용자와의 상호작용이 가능해져, 앞으로 효과적인 교육 및 학습 보조 도구로 활용될 것으로 예상하고 있다. 현재 멀티모달 LLM 허니비(Honeybee)의 코드는 깃허브를 통해 오픈 소스로 공개되어 누구나 사용할 수 있다.[4]

칼로[편집]

칼로(Karlo)는 카카오브레인이 개발한 텍스트 기반 이미지 생성 모델이다. 현재 2.0 버전까지 개발되었으며, 1.0 알파 버전은 2022년 12월 오픈소스로 공개되어 사용자들로부터 다양한 피드백을 받았다. 이러한 피드백은 모델을 개선하고 발전시키는 데 중요한 역할을 했다. 2023년 1월 9일, 칼로의 기능을 다른 응용 프로그램이나 서비스에서 이용할 수 있도록 카카오디벨로퍼스에서 API로 공개되었다. 이와 함께 칼로 2.0 모델 역시 API 형태로 제공되고 있다. 2023년 7월, 텍스트 데이터 셋 규모를 1.2억 장에서 3억 장으로 확대하여 학습한 칼로 2.0이 공개되었다. 이를 통해 다른 웹 및 모바일 앱 서비스와 연동하여 사용할 수 있으며, 월 60만 장의 이미지를 무료로 생성할 수 있어 AI 기술에 대한 진입 장벽을 낮추는 데 기여하고 있다.[5]

트라이던트[편집]

트라이던트(Trident)는 오픈AI의 GPU(Graphic Processing Unit) 프로그래밍 언어인 트리톤(Triton)을 기반으로 구현한 라이브러리다. 2023년 4월 공개된 트라이던트는 AI 모델 개발에 필요한 연산이 최적화된 커널(kernel)로 구현되어 있고, 메타가 개발한 머신러닝 프레임워크 파이토치(PyTorch)와 같은 사용 방법을 제공한다. AI에서 사용되는 연산들은 커널로 작성되는데, 이러한 커널을 최적화하는 것은 매우 어렵다. 이러한 문제를 해결하기 위해서 오픈AI는 GPU 프로그래밍을 쉽게 할 수 있는 트리톤을 오픈소스로 공개했지만, 여전히 많은 개발자들이 커널 작성을 어려워한다. 트라이던트는 이런 어려움을 해결하기 위해 파이토치와 동일한 추상화(복잡한 소프트웨어 시스템을 간단하고 이해하기 쉬운 형태로 표현하는 방법)를 제공하여 개발자들은 최적화된 커널을 쉽게 사용할 수 있도록 한다. 파이토치와 동일한 추상화 계층을 제공하기 때문에, 모델에 적용하고자 한다면 관련 코드를 손쉽게 교체할 수 있고, 기존의 파이토치와 혼합해서 사용할 수 있는 것이 큰 장점이다. 파이토치보다 속도가 빠른 트라이던트를 모델에 적용하면 동일한 하드웨어 기준 약 15% 수준으로 훈련 및 추론 속도 향상을 기대할 수 있다.[5]

코지피티[편집]

코지피티는 카카오브레인의 한국어 특화 초거대 인공지능 언어 모델이다. 2022년에 오픈 API로 공개한 코지피티 API는 이용자가 입력한 한국어를 사전적, 문맥적으로 이해한 후 이용자 의도에 적합한 문장을 생성하는 기능을 제공한다. 이를 통해 맥락과 의도에 따라 문장을 생성해 상품 소개글 작성, 감정 분석, 기계 독해, 기계 번역 등 높은 수준의 언어 과제를 해결하고 여러 분야에서 활용할 수 있다. 개발자는 모바일, 웹 상품 광고나 쇼핑몰, 배달앱 등 서비스를 개발할 때 코지피티 API를 적용해 광고 카피를 쉽게 만드는 등 마케팅, 커머스, 자영업 등에 활용할 수 있다. 예를 들어, 이용자가 '곤약', '워시', '바디', '트리트', '샤워', '보습' 등 핵심 키워드를 입력하면 '스크럽부터 보습까지?'라는 광고 문구를 자동으로 생성할 수 있다. 또 수만 개의 후기를 종합 이해한 후 '2030 여성에게 선물하기 좋은 화장품'이나 '40대 남성에게 인기 많은 스포츠 용품' 등으로 요약해, 추천 문구를 생성하여 상품 구매 시 이용자들의 선택을 효율적으로 도울 수 있다. 광고 카피를 쉽게 만드는 것뿐만 아니라 서비스 내 이미 이용자들이 작성한 후기를 보고 긍·부정 판단은 물론, 상품의 특징을 파악하고 분류할 수도 있다. 카카오브레인은 향후 다양한 상품 후기를 보유한 서비스 플랫폼사나 광고회사 등을 대상으로 파트너십 체결을 하고 서비스 적용 범위를 확대해 나갈 계획이다. 아울러 텍스트 기반의 이미지 생성·변환·인페인팅 기술을 API 형태로 순차적으로공개할 예정이다.[6]

데이터[편집]

코요[편집]

코요(Coyo)는 7억 4,000만 개의 이미지와 텍스트로 구성된 데이터셋으로, 2022년 8월에 카카오브레인이 오픈소스로 공개했다. 이 데이터셋은 초거대 AI 모델이 정교한 결과를 도출하는 데 필요한 핵심 요소 중 하나이다. 데이터셋의 정제 과정은 모델의 공정성과 편향성을 결정하는 중요한 요소이다. 코요는 카카오브레인이 독자적으로 개발한 기술로, 이미지와 텍스트를 온라인에서 자동으로 수집해 비용과 시간을 절감했다. 이 데이터셋은 초거대 AI 이미지 생성 모델인 RQ-트랜스포머(RQ-Transformer)와 AI 아티스트 칼로(Karlo) 개발에 적용되었다. '코요'라는 이름은 멕시코의 대표 화가 프리다 칼로의 고향인 '코요아칸'에서 유래되었다. 카카오브레인은 코요를 통해 많은 AI 모델이 개발되길 기대하고 있으며, 이 데이터셋을 다양한 언어로 확장할 계획이다. 또한, 코요의 공개를 통해 사용자들이 신뢰할 수 있는 데이터로 모델을 학습할 수 있도록 돕고 있다.[7][5]

헬스케어[편집]

카카오브레인의 헬스케어 팀은 초거대 AI 기술을 활용하여 진단과 치료 분야에서 혁신을 추구하는 팀이다. 이 팀의 핵심 비즈니스에는 의료 진단 최적화 솔루션인 AI CAD와 AI를 통한 신약 개발이 포함된다. 의료진이 검사 결과를 해석하고 진단하는 과정에서 판독문을 작성하는데, 카카오브레인은 이러한 판독문을 자동으로 생성하는 AI CAD 소프트웨어를 개발하고자 한다. 기존의 AI CAD 소프트웨어는 제한된 문제를 다루거나 특정 환경에서만 작동하는 등의 한계가 있지만, 카카오브레인은 이를 극복할 수 있는 강점을 가지고 있다. 카카오브레인은 이미지와 텍스트를 함께 학습할 수 있는 초거대 AI 기술을 보유하고 있으며, 전 세계 최대 규모의 흉부 엑스레이 데이터셋을 갖추고 있다. 또한, 국내외 11개 이상의 병원과 공동연구를 진행하여 사용자의 피드백과 AI의 학습이 반복되는 데이터 선순환 구조를 구축하고 있다. 이를 통해 고객의 신뢰를 쌓아나갈 것으로 기대하고 있다. AI CAD와 더불어, 카카오브레인 헬스케어는 AI를 활용한 신약 개발에도 집중하고 있다. 전통적인 신약 개발은 평균 10년의 시간과 막대한 비용이 소요되며, 성공률은 약 9%에 불과하다. 그러나 카카오브레인은 초거대 AI를 이용하여 신약 개발 기간을 50% 이상 단축하고, 성공률을 300% 이상 향상시키는 것을 목표로 하고 있다. 이를 위해 AI 신약 개발사인 갤럭스(Galux)와 협력하여 연구를 진행 중이다.

카카오브레인은 헬스케어 분야에서의 초거대 AI 모델 연구개발에 본격적으로 착수했다. 의료영상 서비스 개발을 가속화하기 위해 총 9곳의 대학 병원과 공동 연구 계약을 체결했다. 이들 병원은 임상 현장의 경험과 의학적 자문을 제공하며, 카카오브레인은 이를 바탕으로 의료영상의 초안 판독문을 생성하는 AI 서비스를 개발할 계획이다. 협력 병원으로는 충남대학교 병원, 충북대학교 병원, 이화의료원(서울, 목동 병원), 계명대학교 동산의료원, 순천향의료원(천안, 구미, 서울 병원), 아주대학교 병원이 있다. 이러한 협력 관계를 통해 카카오브레인은 고객 중심의 연구 개발에 집중하고 있으며, 흉부 엑스레이(CXR) 의료영상의 초안 판독문을 생성하는 연구용 AI 웹서비스를 공개할 예정이다. 향후 상용화 모델 개발과 함께 초거대 AI 모델이 적용된 의료영상 판독 보조 서비스의 연구개발 범위를 확장할 계획이다.[8][9]

주요 플랫폼[편집]

브레인 클라우드[편집]

브레인 클라우드(brain cloud)는 딥러닝 연구를 위한 자원과 환경을 제공하는 클라우드 플랫폼이다. GPU 자원의 사용 효율성을 극대화하는 한편, 연구자의 클라우드 사용 편의성과 연구 속도를 높이는 다양한 기능 개발에 집중하고 있다.[10] 브레인 클라우드는 세 가지 주요 특장점을 가지고 있다. 첫째, 이 플랫폼은 SSH(Secure SHell, 시큐어 셸) 프로토콜을 통해 원격 컴퓨터를 안전하게 제어할 수 있는 자원을 제공한다. 이를 통해 개발자는 코딩, 디버깅, 컴파일, 배포 등 작업을 원격 통합개발환경(IDE)에서 수행할 수 있다. 이는 연구자가 익숙한 개발 환경에서 편리하게 연구를 진행할 수 있게 해준다. 둘째, 브레인 클라우드는 다른 클라우드 플랫폼과 달리 딥러닝 연구에 최적화된 다양한 연구 환경을 제공한다. 연구자들은 자주 사용하는 환경을 프리셋처럼 미리 설정해 두면, 세팅 시간을 줄일 수 있을 뿐만 아니라 내·외부 협업자들과 환경을 맞추는 시간과 과정을 줄일 수 있다. 마지막으로, 브레인 클라우드는 여러 프로그램을 동시에 병렬로 실행하거나 하나의 프로그램을 여러 실험 요소로 분할하여 처리할 수 있는 기능을 제공한다. 이를 통해 다양한 실험 결과를 더욱 빠르게 확인할 수 있다. 추가로, 브레인 클라우드는 대용량의 고속 네트워크 파일 스토리지를 제공하여 실험 데이터를 관리하고 사용하는 것이 용이하며, 실험 결과나 과정을 메신저를 통해 전달하고 학습 데이터나 결과 모델을 관리하는 등 다양한 연구 지원 기능도 제공한다.

브레인 클라우드는 인스턴스 서버, 인스턴스 유형, 스케줄드 태스크의 세 부분으로 구성되어 있다. 인스턴스 서버는 사용자가 원하는 프로세싱 자원을 할당하는 역할을 한다. 예를 들어, 2개의 CPU와 128GB의 메모리를 할당할 수 있으며, 하드웨어에 종속되지 않기 때문에 하드웨어 장애가 발생하더라도 개발 환경은 안정적으로 유지된다. 이 서버는 파이참(Pycharm)이나 비주얼 스튜디오 코드(Visual Studio Code)와 같은 IDE의 원격 개발 환경을 비롯해 다양한 개발 도구와 환경을 지원한다. 인스턴스 유형은 브레인 클라우드에서 제공하는 다양한 딥러닝 연구 환경을 의미한다. C++ 기반의 딥러닝 프레임워크 카페(Caffe), 파이썬 기반의 딥러닝 라이브러리 테아노(Theano)와 파이토치(PyTorch), 구글의 텐서플로(TensorFlow) 등이 이에 포함된다. 연구자들은 원하는 환경을 선택하여 즉시 세팅할 수 있으며, 필요한 패키지와 데이터 세트를 설치하여 자신만의 환경을 구축할 수 있다. 이 환경은 저장하여 반복적으로 사용하거나 다른 연구자와 공유할 수 있다. 스케줄드 태스크는 브레인 클라우드의 유휴 자원을 효율적으로 활용하여 다양한 실험을 동시에 실행하고 그 결과를 빠르게 확인할 수 있게 해준다. 여러 개의 프로그램을 병렬로 실행하거나, 하나의 프로그램의 여러 기능을 분할하여 동시에 처리하는 것이 스케줄드 태스크의 대표적인 기능이다.[11]

인퍼런스 플랫폼[편집]

인퍼런스 플랫폼은 머신러닝 모델을 보다 쉽게 활용할 수 있도록 지원하는 카카오브레인의 혁신적인 서비스이다. 딥러닝의 주요 과정인 트레이닝(training)과 인퍼런스(inference) 중, 이 플랫폼은 인퍼런스 과정을 효율적이고 간편하게 처리하는 데 중점을 두고 있다. 인퍼런스란, 훈련된 머신러닝 모델에 데이터를 입력하여 예측 결과를 도출하는 모든 과정을 포함하며, 실제 서비스에서 모델을 활용하는 단계이다. 카카오브레인의 인퍼런스 플랫폼은 '편하게 쓸 수 있는 머신러닝 자판기'라는 비유로 설명할 수 있다. 커피 자판기가 다양한 종류의 커피를 제공하듯, 이 플랫폼은 다양한 머신러닝 모델을 API 형태로 제공한다. 사용자는 복잡한 모델 구축 및 학습 과정 없이 필요에 따라 모델을 선택하고 사용할 수 있다. 이로 인해 비용 절감은 물론, 엔지니어들의 작업 부담도 줄어든다.

카카오브레인의 인퍼런스 플랫폼이 제공하는 두 가지 주요 장점은 'Comfort(편안함)'와 'Powerful(강력함)'이다. 'Comfort'는 다양한 머신러닝 모델을 쉽게 사용할 수 있다는 점에서 비롯된다. 카카오브레인은 코지피티와 같은 초거대 언어 모델 및 칼로와 같은 텍스트-이미지 멀티모달 모델을 포함한 여러 모델을 보유하고 있으며, 이를 API로 제공하여 사용자들이 손쉽게 접근할 수 있도록 한다. 이 과정에서 유지보수와 가격 경쟁력이 뛰어나, 필요한 만큼만 사용하고 비용을 지불할 수 있는 구조를 가진다. 'Powerful'은 카카오브레인의 강력한 GPU 클라우드 오케스트레이션 기술을 통해 실현된다. 이 기술은 모델들이 최적화된 상태에서 인퍼런스를 빠르게 수행할 수 있게 도와준다. 더불어, 카카오브레인은 새로운 머신러닝 모델의 연구와 개발을 지속적으로 추진하고 있어, 플랫폼의 성능과 역량이 계속해서 강화되고 있다.

카카오브레인의 인퍼런스 플랫폼은 단순한 기술 제공을 넘어서, AI 기술의 대중화를 목표로 하고 있다. 현재는 카카오 공동체를 비롯한 일부 사용자들에게만 공개된 상태지만, 곧 모든 사용자들이 카카오브레인의 인퍼런스 플랫폼을 이용할 수 있도록 준비 중이다. 향후 이 플랫폼이 더 많은 사람들에게 도달하여, 다양한 분야에서 혁신적인 해결책을 제시하는 데 기여할 것으로 전망된다.[12]

각주[편집]

  1. Kakao Brain〉, 《링크드인》
  2. 임지선 기자, 〈카카오, 카카오브레인에 360억원 수혈〉, 《한겨레》, 2024-04-16
  3. 김대영 기자, 〈카카오브레인, 본사 품으로?…카카오 AI 조직과 '통합' 검토〉, 《한국경제》, 2024-04-08
  4. 전미준 기자, 〈카카오브레인, 멀티모달 LLM ‘허니비’ 오픈 소스로 공개...이미지 인식해 텍스트로 답한다〉, 《인공지능신문》, 2024-01-19
  5. 5.0 5.1 5.2 오픈소스로 AI 생태계에 기여하는 카카오브레인의 노력〉, 《카카오》
  6. 김성현 기자, 〈카카오브레인, 초거대 언어 모델 '코지피티' 오픈 API 공개〉, 《지디넷코리아》, 2022-10-13
  7. 정유림 기자, 〈카카오브레인, 7억4000만개 이미지·텍스트로 이뤄진 데이터셋 공개〉, 《디지털투데이》, 2022-08-30
  8. 카카오브레인, 뭐하는 곳인가요?〉, 《카카오브레인 블로그》, 2023-05-03
  9. 카카오브레인, 대학 병원들과 손잡고 의료영상 분야 내 초거대 AI 모델 연구 개발 속도 낸다〉, 《카카오브레인 블로그》, 2022-12-21
  10. 인류의 난제에 도전하는, 카카오 브레인〉, 《카카오》
  11. 클라우드 플랫폼을 개발한 이유〉, 《카카오브레인 블로그》, 2022-03-02
  12. 카카오브레인 인퍼런스 플랫폼은 무엇일까?〉, 《카카오브레인 블로그》, 2022-07-28

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 카카오브레인 문서는 인공지능 서비스에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.