검수요청.png검수요청.png

SLLM

위키원
(소형언어모델에서 넘어옴)
이동: 둘러보기, 검색

sLLM(smaller Large Language Model) 또는 소형언어모델거대언어모델(LLM)과 비교하여 상대적으로 적은 수의 매개변수로 구성되며, 주로 저전력 환경 또는 특화된 작업에서 사용되는 자연어 처리 모델이다.

개요[편집]

sLLM은 거대언어모델(LLM)의 주요 특성을 유지하면서도, 더 작은 규모로 구현된 경량화 모델을 의미한다. 일반적으로 매개변수가 약 1,000억 개 이하인 모델들이 sLLM으로 분류된다. 이러한 모델들은 거대언어모델의 강력한 성능을 적은 자원으로 구현할 수 있다는 장점을 제공한다. 데이터 처리 속도나 실시간 응답 속도 측면에서 우수하며, 오픈소스 배포와 업데이트도 LLM에 비해 용이하다. 또한, 학습 데이터량과 훈련 시간이 적어 개발 및 유지 비용을 대폭 절감할 수 있다. 이렇게 sLLM은 LLM의 한계를 보완하고 다양한 환경에서 AI 활용도를 높이기 위해 개발되었으며, 최근 AI 산업에서 중요한 트렌드로 자리 잡고 있다. 구글(google), 마이크로소프트(Microsoft), 메타(Meta)와 같은 글로벌 테크 기업들이 이미 sLLM을 개발해 공개한 사례가 있다. 구글은 제미나이 나노를, MS는 파이-3.5 미니를 출시했으며, 메타는 라마3(LLaMA 3)를 발표했다. 국내에서도 ㈜케이티믿음매개변수를 40~70억 개로 줄인 버전을 개발 중이고, ㈜엘지유플러스익시젠(ixi-GEN)을 준비하고 있다. 이러한 움직임은 비용 효율화를 중시하는 기업들의 요구에 부응하는 방식이다.[1]

발전[편집]

sLLM의 역사는 메타의 LLM라마에서 시작된다. 2023년 3월 24일, 메타는 라마를 출시하며 소형화된 언어 모델의 가능성을 제시했다. 기본형인 66B(매개변수 650억 개)를 포함해 다양한 크기로 모델을 선보였으며, 그중 가장 작은 버전인 7B 모델은 매개변수가 70억 개에 불과했다. 이는 당시 주류였던 초거대언어모델(매개변수가 수천억 개를 넘는 모델)에 비해 혁신적인 경량화를 이뤘다는 평가를 받았다. 메타는 LLM 성능을 높이기 위해 매개변수 크기 증가에 의존하기보다는 훈련에 사용하는 텍스트 데이터(토큰)의 양을 늘리는 방식을 선택했다. 이는 데이터 품질과 처리 효율성을 동시에 추구한 접근법으로, sLLM 개발의 새로운 기준을 제시했다. LLaMA 모델이 공개된 이후, 개발자 커뮤니티에서는 이를 응용해 노트북이나 스마트폰과 같은 자원 제약이 있는 디바이스에서도 실행 가능한 버전이 등장하기 시작했다. 이는 LLM의 접근성을 대폭 확대하며, 언어 모델이 꼭 대규모 연산 자원이 없어도 사용할 수 있다는 가능성을 열었다.

스탠포드대학교 연구진은 라마 7B 모델을 기반으로 알파카(Alpaca)라는 sLLM을 개발했다. 알파카는 비용 효율적인 훈련 방식으로 주목받았으며, GPT-3.5 수준의 성능을 단 몇 백 달러로 구현할 수 있다는 점에서 큰 반향을 일으켰다. AI 연구 및 개발 기업들은 이를 계기로 소형 모델의 가능성을 검증하고, 경량화된 모델들이 기존 초거대 모델과 경쟁할 수 있는 기반을 다졌다.

2023년 3월에는 AI 칩 기업 세레브라스(Cerebras)가 다양한 매개변수 규모를 가진 소형 모델 패키지를 출시하며, sLLM의 다양성과 선택지를 더욱 넓혔다. 같은 시기, 한국 AI 스타트업 갓잇AI는 기업 맞춤형 sLLM인 엘마(ELMAR)를 출시했다. 엘마는 온프레미스(On-Premise) 형태로 설계되어, 데이터 보안이 중요한 기업들이 자체 서버에서 안전하게 AI 모델을 활용할 수 있도록 했다. 이는 클라우드 기반 LLM이 가진 데이터 유출 우려를 해소하며, sLLM이 기업 환경에서 유용하게 사용될 수 있는 가능성을 보여주었다.

sLLM은 이러한 초기 개발 과정을 통해 빠르게 발전했으며, 각국의 스타트업과 대형 테크 기업들은 sLLM을 다양한 산업 분야에 적용하고 있다. 점차 소형화된 모델은 특정 작업과 고객 요구에 최적화된 형태로 개발되며, 대형 언어 모델과 차별화된 강점을 가지는 '기업 전용 LLM'으로 진화하고 있다. 이 과정에서 AI 기술의 접근성과 활용성이 대폭 향상되었고, sLLM은 경량화 및 맞춤형 AI 시대를 이끄는 핵심 기술로 자리 잡고 있다.[2]

학습 방법[편집]

sLLM은 모델을 구성하는 매개변수의 수가 적기 때문에, LLM에 비해 복잡한 패턴을 이해하는 능력이 제한적이다. 이에 따라 LLM과 동일한 방식으로 대량의 데이터를 학습시키기보다는, 다양한 방법을 고려하여 소형 언어 모델의 학습 효율을 높이는 방법이 연구되고 있다.

첫째, 모델을 압축하는 방법이 있다. 여기에는 두 가지 주요 기술이 포함된다. 하나는 프루닝(Pruning)이라고 하는데, 이 과정에서는 모델에서 중요도가 낮은 부분을 제거하여 크기를 줄인다. 비유하자면 나무를 가지치기해서 불필요한 가지를 없애는 것과 비슷하다. 다른 하나는 양자화(Quantization)로, 모델이 사용하는 숫자를 더 단순하게 표현해 메모리 사용량을 줄이는 방식이다. 이를 통해 같은 결과를 내면서도 모델이 덜 복잡해진다.

둘째, 지식 증류(Knowledge Distillation)라는 접근이 있다. 이는 큰 모델(선생님 모델)이 작은 모델(학생 모델)에게 학습 내용을 알려주는 과정이라고 생각하면 된다. 이를 통해 작은 모델도 큰 모델의 장점을 흡수해 비슷한 성능을 낼 수 있다.

셋째, 모델 구조 자체를 더 간단하게 만드는 경우도 있다. 예를 들어, 현재 대부분의 AI 모델이 사용하는 복잡한 구조인 트랜스포머(Transformer) 대신 더 단순한 설계를 도입하여 가볍고 빠르게 작동하도록 한다.

마지막으로, 하드웨어를 활용한 가속도 중요한 부분이다. 가벼운 sLLM은 고성능 서버가 아닌 스마트폰이나 소형 장치에서도 실행될 수 있다. 이를 가능하게 하는 기술로는 모바일 GPU나 Edge TPU와 같은 경량 하드웨어가 사용된다. 이 방식은 어디서나 빠르고 효율적인 AI를 사용할 수 있게 해준다. 이러한 기술들은 sLLM이 LLM과 비교해 적은 자원으로도 실용적인 성능을 발휘할 수 있도록 돕는다.[3]

장점[편집]

효율적인 데이터 처리와 운영 비용 절감

sLLM은 매개변수 크기가 작아 데이터 처리 속도가 빠르고 실시간 응답이 가능하다. 이는 기존 LLM이 가지는 높은 연산 자원 소모 문제를 해결하며, 개발 및 유지 비용도 크게 절감할 수 있다는 점에서 실용적이다. 예를 들어, 스탠퍼드대학교가 개발한 알파카 7B는 약 600달러(77만 원)의 비용으로 3시간 만에 훈련을 완료하면서도 GPT-3.5와 유사한 성능을 보였다. 반면, GPT-3의 초기 훈련 비용은 약 132억 원에 달했다. 이는 특히 실시간 응답이 필요한 애플리케이션에서 두각을 나타낸다. 예를 들어, 챗봇이나 고객 서비스 시스템, 생산성 도구 등에서 빠른 처리 속도와 경량화된 모델이 매우 중요한 역할을 한다. 또한, sLLM은 학습과 운영 비용을 낮출 수 있어, 중소기업이나 스타트업에게 적합하다.

다양한 디바이스에서의 사용 가능

소형 언어 모델은 크기가 작아 모바일 디바이스나 사물인터넷(IoT) 환경에서도 원활히 구동될 수 있다. 구글은 팜2(PaLM2) 모델을 여러 크기로 세분화하여 모바일 환경에서도 사용할 수 있는 게코(Gecko) 모델을 개발했는데, 이 모델은 오프라인에서도 작동 가능한 것으로 알려져 있다. 이러한 특성은 비용 절감뿐 아니라 디지털 접근성을 높이는 데 기여한다.

맞춤형 활용과 유연성

sLLM은 특정 산업이나 업무에 특화된 맞춤형 AI 모델로 적합하다. 소형 언어 모델은 특정 데이터를 학습해 특정 분야에서 높은 성능을 발휘할 수 있으며, 기업은 이를 통해 필요한 서비스만 효율적으로 구현할 수 있다. 데이터브릭스의 돌리(Dolly) 모델과 AI 스타트업 갓잇AI의 엘마(ELMAR)는 이러한 맞춤형 활용의 대표적인 사례이다. 특히, 엘마는 데이터 외부 유출을 방지할 수 있는 사내 구축형 모델로, 데이터 보안을 중시하는 기업들에게 큰 인기를 얻고 있다.[4]

주요 모델[편집]

제미나이 나노[편집]

제미나이 나노구글이 개발한 거대언어모델(LLM)인 제미나이모바일기기에서 작동하도록 소형화한 초경량 인공지능 모델이다. 스마트폰 등 개인용 단말기에서 온디바이스(On-device) AI를 실행하기 위한 목적으로 설계되었다. 제미나이 나노는 매우 작은 크기와 효율성을 자랑하며, 클라우드에 의존하지 않고도 기기 내에서 인공지능 기능을 실행할 수 있어 개인 정보 보호와 비용 절감, 오프라인 접근성 등의 이점을 제공한다. 텍스트 생성, 스마트 응답, 오디오비디오 처리 등 다양한 애플리케이션에서 활용되며, 사용자 경험을 향상시키는 데 중점을 둔다. 예를 들어, 픽셀 8 Pro에서는 녹음된 대화나 인터뷰를 자동으로 요약하는 기능과 스마트 응답 기능을 통해 더욱 자연스러운 대화 응답을 제공한다. 또한, 로컬 데이터 처리가 가능하여 사용자 데이터를 외부 서버로 전송하지 않아 보안이 강화된다. 제미나이 나노는 주로 구글 AI 엣지 SDK를 통해 안드로이드 기기에서 사용되며, 향후 더 많은 모듈과 기능이 추가될 예정이다.[5][6]

파이-3.5 미니[편집]

파이-3.5 미니마이크로소프트가 출시한 sLLM이다. 38억 2천만 개의 매개변수를 가지고 있어 경량화와 효율성에 중점을 두었다. 노트북이나 스마트폰 같은 제한된 장치에서도 원활하게 실행되며, 코드 생성, 수학 문제 해결, 다국어 대화와 같은 작업을 신속히 처리한다. 12만 8천 토큰의 긴 컨텍스트 창을 지원해 대규모 텍스트를 손쉽게 분석하고 추론할 수 있다. 특히 긴 문맥에서의 코드 이해를 평가하는 RepoQA 벤치마크에서 메타라마 3.1과 미스트랄의 7B 인스트럭트 모델보다 뛰어난 성과를 기록했다. 지원되는 언어는 한국어를 포함해 23개다. 같은 크기의 파라미터로 구성된 파이-3 미니보다 처리할 수 있는 문서 길이가 길어졌고, 아랍어·핀란드어 등 일부 언어 성능을 개선한 것이 특징이다.[7][8]

클로드 하이쿠[편집]

클로드 하이쿠(Claude Haiku)는 클로드(Claude)의 모델 중 하나로, 가볍고 빠른 속도를 가지며, 비용 효율성을 고려한 경량화 모델이다. 주로 작업의 빠른 완료와 비용 효율성이 중요한 경우에 적합하다. 앤스로픽이 출시한 보급형 AI 모델로, 경제성과 속도에 중점을 둔 설계가 특징이다. 이 모델은 특히 기업이 비용 절감과 빠른 처리 속도를 중요하게 여기는 업무에 적합하다. 하이쿠는 GPT-3.5와 비교하여 최대 절반의 비용으로 동작하며, 기존 모델보다 최대 3배 빠른 성능을 제공한다. 하이쿠는 특히 고객 지원이나 내부 채팅과 같은 빠른 응답이 필요한 업무에 탁월하다. 예를 들어, 고객과의 상호작용에서 하이쿠는 즉각적인 응답을 제공할 수 있으며, 이로 인해 대규모 고객 지원 업무에서도 비용을 크게 절감할 수 있다.

또한, 하이쿠는 3만2000 토큰 미만의 프롬프트를 2만1000 토큰으로 처리할 수 있으며, 1초 안에 약 30페이지 분량의 텍스트를 분석할 수 있다. 차트, 그래프, 사진 등 시각적 입력을 포함한 고급 비전 기능도 탑재되어 있어, 회계 서류, 계약서, 법률 문서와 같은 대량의 문서를 신속하게 처리할 수 있다. 이러한 기능은 하이쿠를 기업에서의 활용도를 크게 높이는 요소로 작용한다. 보안 측면에서도 하이쿠는 엄격한 엔터프라이즈급 보안 조치를 적용하여 데이터 무결성과 기밀성을 보장한다. 앤스로픽은 하이쿠의 보안성을 강화하기 위해 지속적인 시스템 모니터링, 안전한 코딩 관행, 엄격한 액세스 제어를 시행하고 있다. 이로 인해 기업은 민감한 데이터를 안전하게 처리할 수 있는 신뢰할 수 있는 솔루션을 제공받을 수 있다.[9][10]

차이[편집]

sLLM과 LLM은 모두 자연어 처리 작업을 수행하는 AI 모델이지만, 규모, 성능, 활용성에서 중요한 차이를 가진다.

먼저, 모델 크기와 매개변수의 수가 가장 큰 차이점이다. LLM은 일반적으로 수천억 개 이상의 매개변수를 포함하며, 챗GPT(GPT-3)와 같은 대표적인 사례는 1750억 개의 매개변수를 사용한다. 반면, sLLM은 보통 1000억 개 이하의 매개변수를 가지며, 일부는 10억~70억 개의 매개변수로도 효율적으로 작동한다. 예를 들어, 메타라마 7B는 70억 개의 매개변수를 가진 sLLM의 대표적인 사례이다.

성능 면에서, LLM은 종종 더 많은 데이터를 처리하고 더욱 복잡한 작업을 수행할 수 있다. 이는 더 큰 컨텍스트 창과 정교한 응답을 제공할 수 있는 이유가 된다. 하지만 sLLM은 경량화와 특정 작업에 초점이 맞춰져 있어, 일반적인 작업에서는 성능 차이가 크지 않다. 오히려 sLLM은 특정 도메인에 맞춘 훈련과 미세 조정을 통해, 특정 분야에서는 LLM 못지않은 성능을 보일 수 있다.

자원 요구사항과 비용도 중요한 차이점이다. LLM은 대규모 훈련과 추론 과정에서 고성능 컴퓨팅 자원과 막대한 에너지가 필요하다. 예를 들어, GPT-3는 훈련에만 1000만 달러(약 132억 원)가 소요되었다. 반면, sLLM은 훈련 데이터와 자원이 적게 들고, 휴대폰이나 노트북에서도 작동할 수 있어 훨씬 경제적이다. 스탠포드의 알파카(Alpaca) 모델은 단 3시간 만에 77만 원의 비용으로 훈련을 마쳤다.

유연성과 활용성 측면에서도 차이가 나타난다. LLM은 범용 AI로서 다양한 작업에 적합하지만, 지나치게 크고 무겁기 때문에 특정 작업에 최적화하기 어렵다. 반면, sLLM은 경량화 덕분에 특정 산업이나 영역에 맞는 맞춤형 AI로 활용되기에 적합하며, 클라우드나 온프레미스 환경에서도 쉽게 배포할 수 있다. 이는 데이터 보안이 중요한 기업들에게 큰 이점으로 작용한다.

결론적으로, LLM은 더 큰 규모와 일반적 성능을 목표로 하지만, sLLM은 경량화와 비용 효율성, 특정 작업에 초점을 맞춘 모델로서 차별화된다. 이러한 특성은 LLM과 sLLM이 서로 대체재가 아니라, 사용 목적과 환경에 따라 상호 보완적으로 활용될 수 있음을 의미한다.

각주[편집]

  1. 남궁경 기자, 〈[ICT시사용어] 경량화 언어모델(sLLM)〉, 《전자신문》, 2024-05-21
  2. 임대준 기자, 〈슈퍼컴 필요없는 소형 언어모델 'sLLM' 급부상〉, 《AI타임스》, 2023-04-03
  3. 소형 언어 모델(sLLM)과 모델 압축이란?〉, 《아이크래프트》
  4. 작지만 오히려 좋아! 소형 언어 모델(sLLM)〉, 《이글루》, 2023-08-02
  5. 순다 피차이(Sundar Pichai), 데미스 하사비스(Demis Hassabis), 〈가장 유능하고 범용적인 AI 모델 제미나이(Gemini)를 소개합니다〉, 《구글코리아 블로그》, 2023-12-07
  6. AI리포터, 〈구글, 스마트폰용 AI '제미나이 나노' 탑재 허용〉, 《디지털투데이》, 2024-10-02
  7. 배한님 기자, 〈더 작고 효율적으로…MS, SLM '파이-3.5' 시리즈 출시〉, 《머니투데이》, 2024-08-27
  8. 박찬 기자, 〈MS, sLM ‘파이 3.5’ 시리즈 오픈 소스 출시..."추론부터 이미지 분석까지"〉, 《AI타임스》, 2024-08-21
  9. 박찬 기자, 〈앤트로픽, 클로드 3 경량 버전 '하이쿠’ 출시..."고속·저비용 동급 최강"〉, 《AI타임스》, 2024-03-14
  10. Sandeep Budki, 〈앤트로픽, 클로드 3 하이쿠 모델 발표 “절반의 비용, 3배의 속도”〉, 《CIO Korea》, 2024-03-15

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 SLLM 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.