검수요청.png검수요청.png

딥시크 (기업)

위키원
이동: 둘러보기, 검색

            가기.png (다른뜻) 딥시크에 대해 보기

딥시크(DeepSeek, 深度求索)
딥시크(DeepSeek, 深度求索)
환팡퀀트(幻方量化, High Flyer)
량원펑(梁文锋) 딥시크(DeepSeek, 深度求索) 창업자

딥시크(DeepSeek, 深度求索, shēn dù qiú suǒ)는 오픈소스 거대언어모델을 개발하는 중국의 인공지능 연구 기업이다. DeepSeek은 중국의 헤지펀드환팡퀀트(幻方量化, High-Flyer)의 대규모 자금 지원을 받았으며, 둘 다 량원펑(梁文锋, liáng wén fēng)이 설립하고 운영하고 있으며 저장성 항저우에 본사를 두고 있다.

2025년 1월 31일, 엔비디아는 DeepSeek-R1 모델이 NVIDIANIM에 탑재되었다고 발표했다. 같은 시기 아마존마이크로소프트도 DeepSeek-R1 모델을 도입했다. 엔비디아는 DeepSeek-R1이 가장 첨단의 대규모 언어 모델이라고 밝혔다.

상세[편집]

딥시크는 2023년 7월 17일, 유명한 퀀트 자산운용 대기업인 환팡퀀트(幻方量化)에 의해 설립되었다. DeepSeek은 혁신적인 기술 기업으로, 첨단 대규모 언어 모델(LLM) 및 관련 기술 개발에 오랫동안 집중해왔다. 환팡퀀트는 대기업 외 유일하게 수만 장의 A100 GPU를 보유한 기업으로, DeepSeek의 기술 연구 개발에 강력한 하드웨어 지원을 제공하고 있다.

2024년 12월 발표된 DeepSeek-V3 모델은 서구권에서 개발된 LLM 모델과 경쟁할 수 있을 정도의 성능을 보여 많은 주목을 받았는데, 특히 V3를 개발하는 데 있어 고작 80억 원 수준에 불과한 적은 비용이 들었다는 사실이 알려지면서, 수천억 원의 비용을 들여 엄청난 연산 자원을 축적해야만 고성능 AI를 개발할 수 있다고 굳게 믿어왔던 시장의 고정관념을 깨뜨리는 계기가 되었다.

OpenAI 같은 기존의 선두 그룹들이 조 단위의 천문학적인 자금을 AI 개발에 투입하는 상황에서 이 발표는 워낙 충격적이라 학습에 필요한 자금을 축소하여 발표한 것이 아니냐는 의혹이 제기되었는데, 발표한 논문에서 학습 방법을 공개했기 때문에 학습 비용을 속이는 게 불가능하다는 의견도 있다. 실제로, 비교적 적은 비용으로 논문의 결과가 재현된다는 것이 홍콩대 연구진에 의해 확인되었으며 학습 과정을 복제하려는 프로젝트들도 생겨나고 있다.

뒤이어 2025년 1월에 발표된 추론 모델, DeepSeek-R1은 supervised fine-tuning 기법을 건너뛰고 오로지 강화학습 기법만으로도 뛰어난 추론 성능을 얻어낼 수 있음을 증명했다는 높은 평가를 받았다. 특히 OpenAI o1 모델과 비교하여 수학, 영어, 코딩 부문에 있어 경쟁할 수 있는 수준의 성능을 갖추면서도, 최대 95%까지 더 저렴한 가격을 내세워 전 세계의 관심을 끌었다.

DeepSeek R1이 가져온 엄청난 파급력으로 인해, 일각에선 OpenAI가 ChatGPT 무료 사용자들에게도 o3-mini 모델을 제한적으로 제공하기 시작한 것에 DeepSeek R1이 영향을 주었을 것이라는 시각도 있다.

DeepSeek CEO 량원펑(梁文锋)은 R1 공개일인 2025년 1월 20일에 리창 총리와 면담을 가졌다.

"전 세계에 AGI를 오픈 소스로 제공하는 것이 목표"라고 밝힌 만큼, 실제로 DeepSeek에서 개발된 각종 모델들과 관련 논문들은 오픈 소스로 배포되고 있다. OpenAI가 정작 이름과는 달리 모든 모델을 클로즈드 소스로 서비스하고있는 만큼 중국의 DeepSeek야말로 어떤 의미에서는 진정한 "Open" AI라는 평가도 나오고 있다.

주요 인물[편집]

량원펑(梁文锋, liáng wén fēng) 딥시크 창업자

량원펑은 1985년 중국 광둥성 잔장시 우촨시 친바전 미리링촌(广东省湛江市吴川市覃巴镇米历岭村) 출신이다. 저장대학교를 졸업했으며, 정보 및 전자공학 학부와 석사 학위를 보유하고 있다. 현재 항저우 환팡테크놀로지 유한회사(幻方科技有限公司)와 DeepSeek의 창립자이다.

1985년생인 량원펑은 중국 토종 인재다. 초등학교 교사 부모 슬하 평범한 가정에서 자란 그는 어린 시절부터 학업, 특히 수학 과목에서 두각을 나타낸 '괴짜 천재'로 알려졌다. 그의 중학교 시절 담임교사는 "량원펑은 이미 중학교 때 고교 수학을 끝내고 대학 수준의 수학을 공부했다"면서 "수학적 사고력이 매우 뛰어났다"고 전했다. 량원펑의 고교 동창생은 "량원펑은 실험 과제를 좋아했으며 축구를 사랑했다"며 "창업한 뒤에는 완전 자동 자수기계와 같은 제품을 개발하면서 끊임없는 탐구정신을 보였다"고 전했다.

량원펑은 2002년 만 17세에 '가오카오'(高考·중국의 수능) 교내 수석의 성적으로 중국 공학 분야 명문인 저장대 전자정보공학과에 입학했다. 저장대에서 2007년 전자정보공학 학사, 2010년 정보통신공학 석사 학위를 취득한 그는 2010년에는 'AI 감시 카메라의 지능형 추적 알고리즘 개선'과 관련된 석사학위 논문을 발표했다. 이때 이미 중국 AI 분야 발전 흐름을 파악했다는 평도 있다.

해외 유학이나 글로벌 기업체 근무 경력이 없는 그는 2008년 글로벌 금융위기를 계기로 컴퓨터 프로그램을 이용한 금융 투자 '퀀트 트레이딩'을 연구하기 시작했다. 2015년에는 대학 친구 2명과 퀀트 전문 헤지펀드 '하이플라이어'(High-Flyer, 幻方量化)를 창립했다.

량원펑은 2019년 AI 딥러닝 플랫폼을 개발하는 부서를 회사 내부에 자체적으로 만들었다. 투자 기법을 정교화하기 위해 만든 부서가 딥시크의 출발점이 된 셈이다. 2021년 회사는 최대 1000억 위안(약 20조원) 규모 자산을 관리하며 몸집을 불렸다.

이후 2023년 5월 헤지펀드에서 함께 일했던 직원들과 함께 딥시크를 창업했고, 불과 1년 8개월 만에 AI 모델 'R1'을 내놓으며 전 세계 AI 산업 판도를 뒤흔들었다.

량원펑은 지난해 7월 중국 정보기술(IT) 매체 안융과의 인터뷰에서 "미국과 중국의 AI 기술 격차는 1~2년 차이가 아니라 독창성과 모방의 차이"라며 "본질적으로 이를 바꾸지 못하면 중국은 영원히 추종자에 머물 수밖에 없다"고 말했다.

  • 2008년: 머신러닝 등 기술을 활용한 완전 자동화된 퀀트 트레이딩을 팀과 함께 탐구하기 시작했다.
  • 2015년: 환팡퀀트(幻方量化) 공식 설립.
  • 2019년: 자산 관리 규모가 100억 위안을 돌파했으며, 같은 해 금우상(금우어워드) 시상식에서 《프로그래머의 시각으로 본 중국 퀀트 투자 미래》라는 주제로 기조연설을 진행했다.
  • 2020년: 환팡의 AI 슈퍼컴퓨터 "잉훠 1호(萤火一号)"가 정식 가동되었다.
  • 2021년: "잉훠 2호(萤火二号)" 구축에 10억 위안을 투자했다.
  • 2023년 7월: 환팡퀀트는 대형 언어 모델 전문 기업 DeepSeek을 설립하며 범용 인공지능(AI) 분야에 본격적으로 진출했다.
  • 2024년 5월: DeepSeek V2 발표.
  • 2024년 12월 27일: DeepSeek V3 출시.
  • 2025년 1월 20일: DeepSeek-R1 모델 공식 발표. 같은 날, 량원펑은 중국 국무원 총리 리창(李强)이 주재한 전문가, 기업가, 교육·과학·문화·보건·체육 분야 대표 간담회에 참석해 연설했다.

발전과정[편집]

  • 2023년 07월 17일, 유명한 퀀트 자산운용 대기업인 환팡퀀트(幻方量化)에 의해 설립되었다.
  • 2023년 08월 02일: 등록 자본금을 1,000만 위안으로 변경하고, 정관을 새로 등록했으며, 투자자를 닝보 청언 기업 관리 컨설팅 합자회사로 변경했다. 기업 유형도 '기타 유한책임회사'로 전환했다.
  • 2024년 05월 07일: MoE(Expert Mixture) 아키텍처 기반의 DeepSeek V2를 출시했다. 이틀 후, 제1재경 기술 센터에서 DeepSeek의 기술 보고서와 모델에 대한 심층 분석을 수행했다. 철저한 평가 끝에 DeepSeek V2가 금융 특화 대규모 언어 모델의 요구 사항과 높은 적합성을 보인다고 판단, 기반 모델을 DeepSeek V2로 전환하고 이를 중심으로 금융 분야 특화 모델의 학습 및 응용 개발을 신속히 진행했다.
  • 2024년 9월 5일: DeepSeek 공식이 API 지원 문서를 업데이트하며, DeepSeek Coder V2와 DeepSeek V2 Chat 모델을 통합한 새로운 모델인 DeepSeek V2.5를 출시했다. 기존 API 사용자들은 deepseek-coder 또는 deepseek-chat을 통해 새로운 모델에 접근할 수 있도록 하여 이전 버전과의 호환성을 유지했다.
  • 2024년 12월: DeepSeek의 출시 과정과 최적화 방향에 관한 전문가 회의록이 업계에 유포되었다. 이에 대해 DeepSeek은 회사가 어떠한 인원도 증권사 투자자 간담회에 참여하도록 허가한 적이 없으며, 이른바 "DeepSeek 전문가"는 회사와 무관한 인물이라고 공식 발표했다. DeepSeek은 외부 인터뷰, 투자자 대상 정보 교류 회의 참여를 금지하는 엄격한 내부 규정을 가지고 있다고 밝혔다.
  • 2025년 01월 27일: DeepSeek 앱이 미국 애플 앱스토어 무료 앱 다운로드 순위에서 1위를 차지하며 ChatGPT를 넘어섰다. 같은 날, 중국 앱스토어 무료 앱 순위에서도 1위에 올랐다. 공개된 자료에 따르면, DeepSeek의 직원 수는 OpenAI의 1/5 수준이며, 총 100여 명 중 약 70명이 베이징 지사에서 근무하며 운영자, 추론 프레임워크, 멀티모달 기술, 딥러닝 연구를 담당하고 있다. 나머지 30여 명은 항저우 본사에 근무하며 프론트엔드, 제품, 비즈니스 업무를 맡고 있다.
  • 2025년 01월 28일: DeepSeek은 서비스 상태 페이지를 통해 최근 온라인 서비스가 대규모 악의적 공격을 받았다고 발표했다. 이에 따라 +86 이외의 번호로는 신규 등록이 제한되었으며, 기존 등록 사용자는 정상적으로 로그인할 수 있다고 밝혔다.
  • 2025년 01월: GitHub에서 Janus-Pro라는 멀티모달 대규모 언어 모델을 출시하며, 텍스트-이미지 생성 분야에 진출했다.
  • 2025년 01월 31일: 엔비디아가 DeepSeek-R1 모델이 NVIDIANIM에 탑재되었음을 발표했다. 같은 시기에 아마존과 마이크로소프트 역시 DeepSeek-R1 모델을 도입했다. 엔비디아는 DeepSeek-R1을 가장 첨단의 대규모 언어 모델로 평가했다.
  • 2025년 02월: DeepSeek-R1 대규모 언어 모델이 텐센트 클라우드 'HAI' 플랫폼에 원클릭 배포되었으며, 개발자는 단 3분 만에 API 호출을 통해 모델에 접속할 수 있게 되었다.

주요 제품[편집]

모든 제품의 코드를 MIT 허가서 하에, 모델은 자체 라이선스(DEEPSEEK LICENSE AGREEMENT)하에 오픈 소스로 공개하고 있다.

DeepSeek LLM[편집]

2024년 1월 5일, DeepSeek LLM 출시. 이는 DeepSeek의 첫 번째 대규모 언어 모델로, 670억 개의 파라미터를 보유하고 있으며 2조 개의 토큰으로 구성된 중영문 데이터셋을 기반으로 처음부터 학습되었다. DeepSeek LLM 7B/67B Base와 DeepSeek LLM 7B/67B Chat이 모두 오픈 소스로 공개되어 연구 커뮤니티에서 활용할

수 있다. DeepSeek LLM 67B Base는 추론, 코딩, 수학, 중국어 이해 등에서 Llama2 70B Base를 능가하며, DeepSeek LLM 67B Chat은 코딩과 수학 분야에서 뛰어난 성능을 보여준다. 또한 헝가리 국가 고등학교 시험에서 65점을 기록하는 등 탁월한 일반화 능력을 입증했다. 특히 중국어 성능 면에서는 GPT-3.5를 능가한다.

DeepSeek-Coder[편집]

2024년 1월 25일, DeepSeek-Coder 출시. DeepSeek Coder는 여러 코드 언어 모델로 구성되어 있으며, 2조 개의 토큰(코드 87%, 중영문 자연어 13%)으로 처음부터 학습되었다. 모델 크기는 1B부터 33B까지 다양하며, 프로젝트 단위 코드 코퍼스를 활용한 사전 학습, 16K 윈도우 크기, 추가 채움 과제 등을 통해 프로젝트 수준의 코드 보완과 완성을 지원한다. 여러 프로그래밍 언어와 벤치마크 테스트에서 오픈 소스 코드 모델 중 최첨단 성능을 달성했다.

DeepSeekMath[편집]

2024년 2월 5일, DeepSeekMath 출시. DeepSeekMath는 DeepSeek-Coder-v1.5 7B를 기반으로, Common Crawl에서 추출한 수학 관련 토큰 및 자연어, 코드 데이터를 추가로 학습했다. 총 5천억 개의 토큰으로 학습된 이 모델은 경쟁 수준의 MATH 벤치마크 테스트에서 51.7%의 우수한 성적을 기록했다. 외부 도구나 투표 기술 없이 Gemini-Ultra와 GPT-4에 근접한 성능을 보여준다.

DeepSeek-VL[편집]

2024년 3월 11일, DeepSeek-VL 출시. 이는 오픈 소스 비전-언어(VL) 모델로, 고해상도 이미지(1024 x 1024)를 효율적으로 처리할 수 있는 혼합 비전 인코더를 채택했다. 이 설계는 시각적 작업에서 중요한 의미와 세부 정보를 효과적으로 포착할 수 있도록 한다. 1.3B와 7B 모델로 구성된 DeepSeek-VL 시리즈는 여러 비전-언어 벤치마크 테스트에서 최첨단 또는 경쟁력 있는 성능을 달성했다.

DeepSeek-V2[편집]

2024년 5월 7일, 2세대 오픈 소스 Mixture-of-Experts(MoE) 모델인 DeepSeek-V2 출시. DeepSeek-V2는 2,360억 개의 총 파라미터를 갖고 있으며, 각 토큰당 210억 개의 파라미터가 활성화된다. DeepSeek 67B 대비 성능이 향상되었고, 학습 비용은 42.5% 절감, KV 캐시는 93.3% 감소, 최대 생성 처리량은 5.76배 증가했다. 8.1조 개의 토큰으로 사전 학습한 후, 감독 학습(SFT)과 강화 학습(RL)을 통해 성능을 극대화했다. 이 모델은 중국어 종합 능력 평가에서 뛰어난 성능을 보이며 'AI계의 핀둬둬'라는 평가를 받았다.

DeepSeek-Coder-V2[편집]

2024년 6월 17일, DeepSeek-Coder-V2 출시. 이는 오픈 소스 MoE 기반 코드 언어 모델로, GPT-4 Turbo와 유사한 성능을 보여준다. DeepSeek-V2의 중간 체크포인트에서 시작해 6조 개의 추가 토큰으로 학습하여 코딩과 수학 추론 능력을 강화했다. 지원 언어는 86개에서 338개로 확대되었으며, 컨텍스트 길이도 16K에서 128K로 확장되었다. 코드 및 수학 벤치마크 테스트에서 GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro 등 주요 모델을 능가하는 성능을 기록했다.

DeepSeek-VL2[편집]

2024년 12월 13일, 고급 멀티모달 이해를 위한 전문가 혼합 비전-언어 모델인 DeepSeek-VL2 출시. DeepSeek-VL2는 DeepSeek-VL 대비 시각적 질문 응답, OCR, 문서/표/차트 이해, 시각적 위치 지정 등 다양한 작업에서 탁월한 성능을 발휘한다. 모델은 VL2-Tiny(10억 개 활성 파라미터), VL2-Small(28억 개), VL2(45억 개)로 구성되어 있으며, 적은 활성 파라미터로도 기존 모델과 경쟁하거나 더 나은 성능을 보여준다.

DeepSeek-V3[편집]

2024년 12월 26일, DeepSeek-V3 첫 번째 버전 출시 및 오픈 소스 공개. DeepSeek-V3는 지식 기반 작업(MMLU, MMLU-Pro, GPQA, SimpleQA)에서 DeepSeek-V2.5 대비 크게 향상된 성능을 보여준다. AIME 2024 및 CNMO 2024에서 모든 오픈 소스 및 상용 모델을 압도했으며, 생성 속도는 20TPS에서 60TPS로 3배 향상되어 더 부드러운 사용자 경험을 제공한다.

V2 대비 반응 속도가 3배 빨라졌으며, 개발사가 공개한 벤치마크에서는 Claude-3.5-sonnet-1022, GPT-4o-0513, LLama3.1-405B-Inst, Qwen2.5-72B를 압도하는 성능을 보여주었다. 실제로도 저렴한 API 가격에 상당한 성능으로 높은 가성비를 보이고 있다.

한편, 겨우 2048개 NVIDIA H800 클러스터를 이용해 278만 8천 GPU 시간만에 671B에 달하는 대형 모델을 학습했다고 밝히면서 업계에 충격을 주었다. H800은 미국의 대(對)중국 수출규제에 따른 중국 수출용 모델로, 원본인 H100 대비 NVLink 대역폭이 반토막나고 배정밀도 전송속도는 3%인 저가형 스펙다운 모델이기 때문에 더욱 충격이 컸다.

DeepSeek-R1[편집]

2025년 1월 20일, DeepSeek-R1 출시 및 오픈 소스 공개. DeepSeek-R1은 후반 학습 단계에서 대규모 강화 학습을 적용하여 적은 양의 라벨 데이터로도 추론 능력을 크게 향상시켰다. DeepSeek-V3와 DeepSeek-R1은 저렴한 비용과 OpenAI에 필적하는 성능으로 실리콘밸리를 놀라게 했으며, Meta 내부에서는 DeepSeek의 성과를 복제하기 위한 긴급 대응이 이뤄졌다.

DeepSeek-R1은 DeepSeek-V3를 기반으로 하는 2가지 메인 모델(R1, R1-Zero)과, 자체적으로 파인튜닝한 증류 모델로 구성되어 있다.

공개된 벤치마크 결과에 의하면 o1-mini를 뛰어넘고, o1과 맞먹는 결과를 보여준다. 예측 비용은 OpenAI의 4o-mini보다 4배밖에 비싸지 않아 시장에 충격을 주었다.

중국의 투자회사가 불과 두 달 만에 만든 오픈 소스 인공지능이 OpenAI o3을 제외한 미국 거대기업들의 모든 대형LLM 성능을 올킬했다는 것이 알려지자 인터넷 인공지능 관련 커뮤니티, 그리고 실리콘밸리에 매우 큰 충격을 가져다주었다. 인공지능을 벤치마크하는 최고 허들을 구축하기 위해 만들어진 테스트에서도 현재 시장에서 공개된 다른 모델들보다 더 높은 성능을 보여주기도 했다.

한국어에 대한 지식도 어느 정도 존재하며, 그 유창성이 출시 당시 기준 현존 최고 수준의 프론티어 모델까지는 아니지만 4o와 같은 어느정도 구형 모델에는 크게 밀리지 않는다.

이미지의 한글을 인식할 수 있다. 이미지 인식은 텍스트 추출(OCR)이 주된 용도며, 순수 풍경 사진은 받아들이지 못한다. 2025년 1월 26일 기준 공식 홈페이지에서는 'DeepThink (R1)'버튼을 눌러야 사용 가능하며, 그렇지 않으면 DeepSeek V3 모델이 호출된다.

구독 서비스를 해야 최신 성능을 제한없이 이용할 수 있는 ChatGPT등 다른 LLM과 다르게 완전한 무료로 더 좋은 성능을 발휘한다는 파격적인 서비스 덕분에 ChatGPT를 제치고 미국 애플 앱 다운로드 1위를 달성했다. 틱톡은 안보위협으로 서비스 중단을 선언했는데, 미국의 기술 및 안보와 관련된 천문학적인 데이터 유출 위협을 줄 수 있는, 훨씬 더 큰 문제가 발생한 셈이다.

베이스 모델인 R1-zero는 인간 개입에 의한 SFT(supervised fine tuning)없이 강화학습(RL, reinforcement learning) 만으로 모델을 학습 시켰다. R1-zero 모델을 파인튜닝한 R1 모델은 인간에 의해 선별된 소규모 고품질 데이터를 사용하여 SFT로 먼저 파인튜닝한 후, 강화학습을 통해 모델을 추가로 파인튜닝하는 다단계 과정을 거쳐 학습된 모델이다.

공식 홈페이지의 경우 AI기반 검색 기능을 동시에 이용할 수 있다는 점은 희귀한 지식이나 한국 고유의 지식에 대해서도 문제 해결력을 끌어 올린다. GPT에도 없던 검색과 추론을 동시에 이용할 수 있는 기능이라 호평이 있었지만, 급속도로 이용자가 몰리자 검색 기능을 이용하지 못하는 경우도 많이 생겼다. 검색 기능은 미국산 인공지능 서비스보다도 성능에서 가장 비교우위를 가진 기능이라고 평가받기도 했다.

Janus[편집]

이미지 생성 기능을 갖춘 통합 멀티모달 모델로 소개하고 있다.

2024년 10월 경 Janus-1.3B가 조용히 출시되었으며, 2024년 11월 13일에 JanusFlow-1.3B가 출시, 2025년 1월 27일에 Janus-Pro가 출시되었다.

공개된 벤치데이터에 의하면, 현존하는 이미지 생성 모델중에서 가장 뛰어난 성능을 지닌것으로 평가되고 있다. 다만 이는 이미지를 해석하고 이해하는 능력과, 생성된 이미지가 사용자의 프롬프트를 얼마나 정확하게 반영했는지를 보여주는 지표로, 이 지표가 이미지의 퀄리티(해상도, 디테일, 사실성, 예술성 등)를 반영하지는 않는다. 단, 실제 써본 사람들의 평가는 퀄리티가 좋지 못하다는 평가가 많다.

동영상[편집]

참고자료[편집]

같이 보기[편집]


  질문.png 이 문서는 로고 수정이 필요합니다.  

  검수요청.png검수요청.png 이 딥시크 (기업) 문서는 인공지능 기업에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.