검수요청.png검수요청.png

서밋

위키원
(Summit에서 넘어옴)
이동: 둘러보기, 검색
서밋(summit)

서밋(Summit)은 미국 IBM(아이비엠)이 제작한 최첨단 슈퍼컴퓨터로 미국 오크리지 국립연구소(Oak Ridge National Laboratory)에서 운영하고 있다. 2018년 6월 출시 당시 서밋의 성능 이론치는 187페타플롭스(Petaflops)이며, 린팩(linpack) 벤치마크에서 실측 성능을 122페타플롭스를 기록하여 세계 최고의 컴퓨터가 되었다. 이후 2019년 11월까지 전 세계 슈퍼컴퓨터 성능 1위를 달성했으나, 2020년 6월, 일본 이화학연구소와 후지쓰가 공동개발한 슈퍼컴퓨터 후가쿠의 등장으로 한 순위 밀려 2위가 되었다.

개요[편집]

미국 에너지부의 오크리지 국립연구소는 2014년 IBM 엔비디아(NVIDIA), 멜라녹스(Mellanox)와 325만 달러의 계약을 체결함으로써 슈퍼컴퓨터 서밋과 시에라가 개발되었다. 시에라는 핵무기 시뮬레이션을 위해 설계되었고 서밋은 민간 과학 및 연구를 담당했으며 우주론, 의학, 기후학 등 다양한 분야에 활용 가능했다. 서밋을 수용하기 위해서는 약 2개의 농구코트가 들어갈 공간을 사용했으며 케이블 연결에는 약 136마일(218.8km)의 케이블이 사용됐다. 서밋은 과학자와 연구자에게 에너지, 인공지능, 생명공학 등 다양한 연구 분야의 복잡한 과제들을 해결할 기회를 제공하며 인공지능과 과학, 게노믹스를 이용한 각종 시뮬레이션, 물리학의 뉴트리노의 수명 등을 예측하는 데 사용되었다. 이전 슈퍼컴퓨터인 타이탄(Titan)보다 약 8배 뛰어난 성능을 가졌으며 7년간 미국의 여러 핵심 작업을 지휘했던 타이탄이 은퇴한 후로는 서밋이 이를 대체했다. 타이탄이 세상에 시뮬레이션 가속화에 영감을 불어넣은 것처럼 서밋은 인공지능을 활용하여 시뮬레이션을 통해 세계 과학자들에게 영감을 불어 넣었고 컴퓨터서버, 워크스테이션, 거대한 클라우드 컴퓨팅 시스템에 이르기까지 모든 분야에서 과학자들의 작업 속도를 높이고 있다. 엔비디아 젠슨 황(Jensen Huang) 대표는 "서밋은 새로운 종류의 인공지능 슈퍼컴퓨터로 이 소프트웨어는 사람이 쓸 수 없는 놀라운 소프트웨어를 작성할 수 있다"라고 서밋을 소개했다.[1]

특징[편집]

부품[편집]

서밋의 노드는 2개의 IBM 파워 9 중앙처리장치와 6개의 엔비디아 V100 그래픽카드(NVIDIA V100 GPU), 중앙처리장치 간, 중앙처리장치와 그래픽카드 간 고속 통신을 위한 엔브이링크(NVLink), 0.5테라바이트 이상의 메모리와 효율적인 입출력(I/O)을 위한 대형 버스트 버퍼로 구성되어 있다. 버스트 버퍼는 애플리케이션과 병렬 파일 시스템(PFS) 사이에 위치한 중간 고속 스토리지 계층으로, 애플리케이션에서 생성된 대량의 데이터를 병렬 파일 시스템보다 4~5배 빠른 속도로 흡수하는 동시에 데이터를 백그라운드의 병렬 파일 시스템으로 원활하게 배출한다. 결과적으로 버스트 버퍼는 입출력장치의 처리속도를 촉진 시켜 프로그램이 더 빠른 연산을 수행 할 수 있게 하며 때문에 버스터 버퍼는 높은 입출력장치 처리량, 낮은 액세스 지연시간, 높은 신뢰성과 같은 몇 가지 바람직한 속성을 가진 비휘발성 메모리 장치로 구성된다. 엔브이링크는 이전 타이탄 슈퍼컴퓨터의 그래픽카드가 프시(PCle) 인터페이스에 의해 중앙처리장치 메모리 시스템에 액세스 할 수 있는 속도를 제한하는 점을 개선하고자 개발된 것으로 중앙처리장치 간, 중앙처리장치와 그래픽카드 간의 통신에 엔비디아 엔브이링크 상호연결을 사용한다. 엔브이링크는 모든 프로세서 간에 2개의 링크를 제공하며, 각 링크는 각 방향에서 최대 초당 25 GB/s 대역폭을 제공한다. 이것은 이기종 컴퓨팅 모델 연결을 허용한다. 총 100 GB의 최대 양방향 대역폭을 지원하는 이러한 링크는 서밋에서 가속화된 애플리케이션의 성능에 필수적이다. 또한, 엔브이링크와 함께 제공되는 빠른 데이터 이동과 통합 메모리라는 또 다른 기능이 결합하여 그래픽카드 가속기 프로그래밍을 단순화시킨다.[2]

통합 메모리를 통해 프로그래머는 중앙처리장치와 그래픽카드 메모리를 하나의 메모리 블록으로 취급할 수 있어 프로그래머는 데이터가 어떤 메모리에 있는지 걱정하지 않고 데이터를 조작 할 수 있게 된다. 마지막으로 네트워크 내 컴퓨팅 가속화를 제공하는 프로세스 간 통신 트래픽스토리지 간 통신을 위해 이중 레일 멜러낙스 이디알 인피니밴드(Mellanox EDR InfiniBand) 인터커넥트를 사용한다. 그 때문에 노드 간 초당 200 GB의 대역폭과 통신 프레임워크가 구성되어 높은 데이터 처리량을 제공한다.[1]

리더쉽 컴퓨터[편집]

서밋은 오크리지 국립연구소의 최신 리더쉽 클래스 시스템(컴퓨팅)이며 리더쉽 컴퓨터는 미국 에너지부 과학 연구소(DOE Office of Science)에서 세계에서 가장 강력한 컴퓨팅 시스템을 지칭하기 위해 사용하는 용어이다. 미국 에너지부 과학 연구소는 이러한 슈퍼컴퓨터를 수용하는 전국 고성능 컴퓨팅 시설 포트폴리오를 제공하며 이러한 리더쉽 컴퓨팅 시설은 과학은 중요한 발전을 위한 세계적 수준의 연구를 가능하게 한다. 오크리지 국립연구소의 컴퓨팅 기관(OLCF)은 우선순위가 높은 연구 및 개발 프로젝트에 뛰어난 컴퓨팅 및 데이터 관리 리소스를 제공하여 과학적 발견과 엔지니어링 발전을 가속화한다는 사명으로 2004년에 설립되었다.

전력량[편집]

서밋이 등장하기 전인 2017년 전에는 중국의 슈퍼컴퓨터 약진이 뚜렷했다. 선웨이타이후라이트가 2년 연속 슈퍼컴퓨터 순위 1위를 굳건히 지켰을 뿐 아니라 상위 500위 슈퍼컴퓨터 중 가장 많은 202대가 중국 소유로 집계돼 미국(143대)을 큰 차이로 제쳤다. 이 때문에 서밋의 등장은 미국의 짓밟힌 자존심을 회복한다는 의미가 컸다. 앞선 미국의 대표 슈퍼컴퓨터 타이탄의 이론성능 27페타플롭스로 이는 일반 데스크톱으로 30년간 작업할 분량을 단 1시간에 끝낼 수 있는 성능이다. 서밋은 이보다 약 8배 빠른 성능을 가지고 있다. 이렇게 단기간에 속도 혁신이 가능했던 이유는 슈퍼컴퓨터의 머리 역할을 하는 중앙처리장치를 대신해 그래픽카드(GPU)를 많이 장착한 것이 비결이었다. 2010년 전까지는 슈퍼컴퓨터에 중앙처리장치를 주로 사용했고 각국은 중앙처리장치 성능을 높이는 데 집중했다. 중앙처리장치가 사람의 '머리'라면 코어는 사람의 '뇌'였고, 뇌를 머리에 최대한 많이 달아 계산을 빠르게 하려는 시도가 이어졌다. 선웨이타이후라이트의 경우, 코어가 1,000만 개 정도 장착되었으며 한 대의 중앙처리장치 성능을 높이는 데 한계에 부딪히자 병렬 처리 방법으로 여러 대의 중앙처리장치를 연결하는 경쟁이 격화됐다. 그러나 코어 수가 기하급수적으로 늘어나면서 엄청난 양의 전기가 필요해졌고 자연스럽게 기계 발열 등과 같은 새로운 문제점이 나타났다. 결국 2010년을 넘어가면서부터 중앙처리장치 대안으로 등장한 것이 더 값싸고 효율적인 그래픽카드(GPU)다. 주로 이미지 데이터 처리에 쓰이던 프로세서를 슈퍼컴퓨터에 적용함으로써 범용 계산에 이용하기 시작했다.

슈퍼컴퓨터의 가장 큰 문제 중 하나가 전력 소모였고 서밋은 에너지를 덜 소모하는 그래픽카드(GPU)를 많이 구성하여 성능뿐만 아니라 전력 효율을 높였다. 그래픽카드는 그래픽처럼 조금 단순한 연산을 대량으로 할 수 있어서 계산 속도를 높이는 데 효과가 있었다. 또한 강력한 연산 능력을 발휘하기 위해 중앙처리장치와 그래픽카드를 모두 사용하여 IBM 최신 서버용 중앙처리장치인 `파워 9(Power 9)` 9,216개와 엔비디아가 개발한 '볼타 V100' 기반의 그래픽카드가 2만7648개가 들어갔다. 연산은 그래픽카드가 하고 중앙처리장치는 이런 연산을 통제 및 관리하는 구조다. 그 때문에 총 무게만 340톤(t)에 달하며 서밋이 차지하는 크기는 테니스 코트 두 개와 맞먹게 되었다. 열을 식히기 위해 분당 1만5000리터(ℓ)의 물을 사용하고 정점일 때 전력 소비량은 7,000가구에 전원을 공급할 수 있는 약 15메가와트(MW)에 달하지만, 이전 모델들보다는 전력 효율이 높아진 수치다.[3]

성능[편집]

2020년 6월 기준 성능
구분 내용
제조사 IBM
코어수 2,414,592
메모리 2,801,664 GB
프로세서 IBMPOWER22C3.07 GHz
인터커넥트 DUAL-RAIL MELLANOX EDR INFINIBAND
실측성능 148,600 TFlop/s
이론성능 200,795 TFlop/s
파워 10,096.00 kW (Submitted)
운영체제 RHEL 7.4

슈퍼컴퓨터의 성능은 1초에 실행할 수 있는 연산 명령수, 연산속도를 나타내는 플롭스(Flops)라는 단위를 이용해 표현한다. 다만 슈퍼컴퓨터는 매우 빠른 속도를 자랑하기에 그냥 플롭스를 쓰지는 않는다. 미터의 1,000배인 킬로미터가 있고, 그 1,000배인 메가 미터가 있는 것처럼 플롭스도 1,000배 단위로 킬로, 메가, 기가, 테라(TF), 페타(PF) 순으로 단위가 존재한다. 2020년 기준 슈퍼컴퓨터는 주로 페타플롭스(PFlops)를 단위로 사용하며 이는 1초에 1,000조 연산이 가능한 수치다.[4]

서밋은 총 27,648개의 볼타 텐서 코어(Volta Tensor Core) 그래픽카드를 탑재한 이 거대한 슈퍼컴퓨터로 초당 3엑사(exa) 혹은 30억 회의 계산을 처리할 수 있다. 이는 불과 5년 전에 나온 미국 최초의 슈퍼컴퓨터였던 타이탄보다 무려 100배 이상 빠른 속도이다. 이러한 컴퓨팅 성능의 95%는 엔비디아의 그래픽카드로부터 비롯된다. 엔비디아의 연구팀은 미국 에너지부(DOE)와 11년 넘게 함께 협력하면서 볼타 그래픽카드(Volta GPU) 및 엔브이링크(NVLink) 고속 상호 연결 기술을 포함한 첨단 기술에 관해 연구해 왔으며, 노드 당 하나의 그래픽카드 대신 서밋에서는 6개의 텐서 코어 그래픽카드가 있으며 타이탄보다 10배에 이르는 시뮬레이션 성능을 제공하게 된다.[5]

날자별 성능
날자 순위 시스템 제조사 전체 코어 실측성능(TFlops) 이론성능(TFlops) 파워(kW)
2020년 06월 2
  • IBM 파워 시스템 AC922
  • IBM 파워9 22C 3.07GHz
  • 엔비디아(nVIDIA) 볼타 GV100
  • 듀얼레일 멜라녹스(Dual-rail Mellanox)
    EDR 인피니밴드(EDR Infiniband)
IBM 2,414,592 148,600.0 200,794.9 10,096.00
2019년 11월 1
  • IBM 파워 시스템 AC922
  • IBM 파워9 22C 3.07GHz
  • 엔비디아 볼타 GV100
  • 듀얼레일 멜라녹스 EDR 인피니밴드
IBM 2,414,592 148,600.0 200,794.9 10,096.00
2019년 06월 1
  • IBM 파워 시스템 AC922
  • IBM 파워9 22C 3.07GHz
  • 엔비디아 볼타 GV100
  • 듀얼레일 멜라녹스 EDR 인피니밴드
IBM 2,414,592 148,600.0 200,794.9 10,096.00
2018년 11월 1
  • IBM 파워 시스템 AC922
  • IBM 파워9 22C 3.07GHz
  • 엔비디아 볼타 GV100
  • 듀얼레일 멜라녹스 EDR 인피니밴드
IBM 2,397,824 143,500.0 200,794.9 9,783.00
2018년 06월 1
  • IBM 파워 시스템 AC922
  • IBM 파워9 22C 3.07GHz
  • 엔비디아 볼타 GV100
  • 듀얼레일 멜라녹스 EDR 인피니밴드
IBM 2,282,544 122,300.0 187,659.3 8,805.50

오크리지 국립연구소(ORNL)의 과학자들은 1988년 최초의 기가플롭스(gigaflops)와 테라플롭스(teraflops)를 계산, 2008년에 최초의 페타플롭스(petaflops) 계산, 2018년에는 서밋을 통해 최초의 exaops(엑사급)계산에 참여했다. 서밋은 과학 모델링 및 시뮬레이션 외에도 인공 지능과 과학적 발견의 통합을 위한 최고의 기회를 제공하여 연구자들이 인간 건강, 고에너지 물리학, 물질 발견 등의 문제에 기계 학습과 깊은 학습과 같은 기술을 적용할 수 있도록 해 준다. 또한 서밋을 통해는 2021년까지 광범위한 과학적 용도를 위한 완전한 기능을 갖춘 엑사급 스케일 컴퓨팅 환경을 개발하고 제공한다는 목표에 한 걸음 더 다가갈 수 있도록 해 준다. 서밋이 다양한 분야에 활용될 것을 예상하고, 연구원은 차세대 아키텍처를 위한 애플리케이션을 준비했다. 프로젝트를 선정을 위한 회의 끝에 서밋에서 진행될 예정인 초기 과학 프로젝트는 다음과 같다. 첫 번째로 천체관측, 초신성이라고 알려진 폭발하는 별들은 연구원들에게 보석과 철을 포함해 얼마나 무거운 원소들이 우주를 지배했는지에 관한 단서를 제공한다. 확장성이 뛰어난 플래시 코드는 이러한 과정을 핵 수준에서부터 별의 마지막 순간인 대규모 유체 역학에 이르기까지 다양한 규모로 모델링 한다. 서밋이 제공하는 플래시는 초신성 시나리오를 수천 배 더 시뮬레이션 할 수 있고 과거 프로젝트보다 약 12배 많은 요소를 추적할 수 있어 이전보다 훨씬 더 뛰어난 성능을 발휘할 것이다. 오크리지 국립연구소의 계산 천체 물리학자 브론슨 메서(Bronson Messer)는 "이전의 기계에 비해 최소 100배 더 많은 계산을 수행하며 서밋의 규모만으로도 매우 고해상도 모델을 만들 수 있을 것."이라고 말했다. 두 번째로 에너지 저장을 위한 화합물의 변환과 생산을 포함한 차세대 재료 개발은 물질 행동에 대한 아원자의 이해를 할 수 있을 것이다. 양자 몬테카를로 애플리케이션인 큐엠씨팩(QMCPACK)은 첫 번째 원칙 계산을 사용하여 이러한 상호 작용을 시뮬레이션한다. 지금까지 연구원들은 큐엠씨팩의 높은 연산 비용 때문에 수십 개의 원자만을 시뮬레이션 할 수 있었지만. 서밋은 사용함으로써 수백 개의 원자로 구성된 물질을 지원할 수 있게 된다. 이는 에너지 손실 없이 전기를 전송할 수 있는 보다 실용적인 초전도체를 찾는 데 도움을 주는 발전일 것이다. 오크리지 국립연구소 직원 과학자인 폴 켄트(Paul Kent)는 "서밋의 큰 노드 메모리는 물질과 물리적 현상의 복잡성을 해석하는 데 매우 중요하며, 훨씬 강력한 노드가 시뮬레이션 범위를 확장하는 데 큰 도움이 될 것"이라고 말했다.

세 번째로 암과 관련한 프로젝트가 있다. 암과 싸우는 비결 중 하나는 기존의 건강 데이터를 자동으로 추출, 분석 및 분류하여 유전자, 생물학적 표지, 환경과 같은 질병 요인 사이의 숨겨진 관계를 밝힐 수 있는 도구를 개발하는 것이다. 서밋의 확장된 기계 학습 알고리즘은 텍스트 기반의 보고서와 의료 이미지와 같은 구조화되지 않은 데이터와 결합하여 의료 연구자들에게 일반적으로 임상 시험 환자만을 위해 얻은 세부적인 수준의 미국 암 인구에 대한 포괄적인 시각을 제공하는 데 도움이 될 것이라고 예상했다. 이 암 감시 프로젝트는 실험 계획법과 국립 암 연구소 간의 공동 이니셔티브인 캐디스트리뷰티더(CADistributeder) 분산 학습 환경 또는 캔딜(CANDLE)의 일부이다. 오크리지 국립연구소의 연구원인 지너 투어라시(GinaTourassi)는 "기본적으로 많은 양의 데이터를 사용하여 문서와 추상적인 정보를 읽을 수 있도록 컴퓨터를 훈련하고 서밋은 우리가 시간 효율적인 방법으로 훨씬 더 복잡한 모델을 탐색할 수 있게 해 주므로 가장 효과적인 모델을 식별할 수 있을 것."이라고 말했다. 마지막으로 생물학에 관한 프로젝트에 따르면 유전 및 생물 의학 데이터 세트에 기계 학습과 인공 지능을 적용하면 인간의 건강 및 질병 결과에 대한 이해를 가속할 수 있다고 한다. 서밋에서 인공 지능 기술을 혼합해 연구원은 인간 단백질과 세포 시스템의 기능 및 협력, 진화의 패턴을 파악할 수 있게 된다. 이러한 패턴은 종합적으로 임상 현상, 알츠하이머, 심장 질환, 중독과 같은 질병이 가지는 특징을 관찰할 수 있고, 그에 따른 여러 과정을 시뮬레이션 결과를 가져다줄 수 있다. 오크리지 국립연구소와 미국 보훈부 간의 전략적 제휴 프로젝트를 통해 연구자는 오피오이드(Opioid) 중독과 같은 조건에 기여하는 유전적 요인을 이해하기 위해 임상 및 게놈 데이터를 기계 학습 및 서밋의 고급 아키텍처와 결합하고 있다. 오크리지 국립연구소 계산 생물학자인 댄자콥슨(DanJa cobson)은 '생물학적 시스템으로서 인간의 복잡한 유전 문제에 대해 서밋을 사용하기 전에는 불가능하다고 생각한 일들이 지금은 완전히 새로운 범위의 과학을 가능하게 경험하게 하고 있다.'라고 말했다.[6]

구조[편집]

시스템[편집]

서밋 플로어 평면도

무게가 340톤이 넘는 서밋은 컴퓨트 (compute racks) 256개, 스토리지 랙(storage racks) 40개, 스위칭 디렉터 랙(switching director racks) 18개, 인프라 랙(nfrastructure racks) 4개로 구성된다. 서버는 멜라녹스 아이비 이디알(Mellanox IB EDR) 인터커넥트를 통해 3단계의 비차단 지방 트리 토폴로지로 연결된다. 서밋의 256개의 각 컴퓨팅 랙은 차단되지 않는 지방-트리 상호 연결 토폴로지를 위한 멜라녹스 아이비 이디알과 함께 18개의 컴퓨팅 노드로 구성되며 실제로는 3레벨 지방 트리를 가지런히 잘라낸 것으로 나타난다. 노드 18개의 각 랙에는 디디알4(DDR4) 메모리 9 TiB바이트와 2(HBM)'가 구성되어 잇어 총 10.7테비바이트의 메모리를 가지고 있다. 랙은 최대 59 kW의 전력과 총 864 TF/s의 피크 계산 전력을 가지고 있다.[7]

노드[편집]

서밋계산노드

기본 컴퓨팅 계산 노드는 파워 시스템(Power Systems) 엑셀레이티드 컴퓨팅922(Accelerated Computing 922)로, 이전 코드명은 'Witherspoon'이다. 엑셀레이티드 컴퓨팅992는 19인치 '2U'마운트 케이스로 제공된다. 각 노드에는 2개의 2200와트(W) 전원 공급 장치, 4개의 피씰(PCIe) 4세대 슬롯 및 비엠씨(BMC) 카드가 있다. 노드당 2개의 22코어 파워 9(POWER 9) 프로세서와 각각 8개의 듀얼 인라인 메모리 모듈(DIMM)이 있으며, 서밋 슈퍼컴퓨터의 경우 총 256GB에 8개의 32 GB DDR-2666 듀얼 인라인 메모리 모듈과 소켓 170.7 GB/s의 집계 메모리 대역폭이 있다. 파워 9의 소켓은 3개의 브이100 그래픽카드(V100 GPU)가 있다.

소켓
서밋단일소켓

IBM 파워 9(IBM POWER 9) 프로세서는 기본적으로 엔브이링크(NVLink) 연결이 되어 있기 때문에 중앙처리장치(CPU)에 직접 연결된다. 파워 9 프로세서는 6개의 엔브이링크 2.0 브리크즈(Bricks)가 있으며, 2개의 브리크즈는 세 그룹으로 나뉜다. 엔브이링크 2.0은 신호 속도를 25기가전송(GigaTransfer/s GT/s)으로 떨어트리기 때문에, 2개의 브리크즈은 중앙처리장치와 그래픽카드(GPU) 사이에 초당 100 GB/s의 대역폭을 허용한다. 그 외에도, 입출력용 'x48 PCIe' 4세대 레인이 있다. 볼타(Volta) 그래픽카드(GPU)는 6개의 엔브이링크 2.0 브리크즈를 가지고 있으며, 3개의 그룹으로 나뉜다. 한 그룹은 중앙처리장치에 사용되며 다른 두 그룹은 모든 그래픽카드 간 상호 연결한다. 그래픽카드와 중앙처리장치 간 링크와 마찬가지로 두 그래픽카드 사이의 집계 대역폭도 초당 100 GB/s이다.[7]

풀노드
서밋노드

노드당 소켓이 두 개 있다. 두 개의 파워 9(POWER 9) 프로세서 사이의 통신은 IBM의 엑스(X) 버스를 통해 이루어지며 엑스 버스는 초당 64 GB/s의 양방향 대역폭을 제공하는 4바이트 16 GT/s 링크이다. 노드에는 2개의 'x16', 1개의 'x8', 1개의 'x4' 슬롯으로 구성된 4개의 '피씰 젠 4'(PCLE Gen 4.0) 슬롯이 있다. 'x16' 중 하나는 중앙처리장치 한 개에서 나오고, 다른 하나는 중앙처리장치 두 개에서 나온다. 'x8'은 중앙처리장치 중 하나에서 구성할 수 있으며 마지막 'x4' 슬롯은 두 번째 중앙처리장치에서만 구성할 수 있다. 다양한 입출력(I/O) 애플리케이션에 사용되는 나머지 피씰 레인 노드에는 100 GB/s의 양방향 트래픽을 지원하는 멜라녹스 인피니밴드(Mellanox InfiniBand) 커넥트엑스5(ConnectX5) 엔아이씨(NIC)가 설치되어 있다. 이 카드는 두 프로세서에 'x8' 레인을 직접 연결하는 '피씰 젠 4 x8' 공유 슬롯에 위치한다. 포트당 12.5 GB/s로 중앙처리장치에 대한 'x8' 레인당 16 GB/s의 대역폭이 더 높아 이를 통해 각 중앙처리장치가 인피니밴드(InfiniBand) 카드에 직접 접근할 수 있어 대역폭이 높을수록 병목(bottleneck) 현상을 줄일 수 있다.[7]

각 파워 9 프로세서는 3.07기가헤르츠(GHz)에서 작동하며 2개의 벡터 단정밀 작동의 동시 실행을 지원한다. 즉, 각 코어는 사이클 당 16회의 단일정밀 부동소 운전을 실행할 수 있다. 3.07기가헤르츠에서는 코어당 최고 이론적 성능이 49.12기가플롭스(GFLOPS)에 도달한다. 풀 노드는 중앙처리장치의 최대 성능 1.1테라플롭스와 그래픽카드의 최대 성능 47테라플롭스를 약간 밑도며 각 노드에는 1.6 TB의 '엔브이미 플래시'(NVMe Flash) 어댑터와 '멜라녹스 인피니밴드 이디알 엔아이씨'(Mellanox Infiniband EDR NIC)가 연결되어 있다.[7]

활용[편집]

과학 분야[편집]

2018년, 세계에서 가장 빠른 슈퍼컴퓨터인 서밋은 과학 분야에서 빠르게 명성을 얻었다. 고든 벨 상으로 선정된 6명의 최종 후보자 중 5명이 그들의 작품에 서밋을 사용했다고 발표를 했다. 이에 대해 오크리지 리더십 컴퓨팅 시설(OLCF) 과학부 잭 웰스 국장은 "이 고든 벨의 최종 후보자들은 사용자들이 2019년에 공식적인 할당 프로그램이 시작될 때 서밋에서 해결할 수 있는 도전들에 대한 고무적인 증거이다. 특히, 실험 데이터를 처리하고 분석하거나 특수한 작업을 수행하기 위해 인공 지능 소프트웨어를 훈련하는 등 대량의 데이터를 규모에 맞게 처리하는 시스템의 능력이 특히 중요성을 입증했다."라고 말했다. 서밋을 사용한 최종 후보자들을 설명하는 오크리지 리더십 컴퓨터 시설(OCLF)의 기사의 내용은 유전체학, 지진 시뮬레이션, 기상 이변, 재료과학, 물리학 등 다양한 분야의 내용이 있다. 연산 시스템 생물학자 댄 제이콥슨(DanJacobson)과 오크리지 리더십 컴퓨팅 시설 연산 과학자 웨인 주버트(WayneJoubert)가 이끄는 오크리지 국립연구소 팀은 혼합정밀 산수를 사용하여 엑사스케일 속도를 달성할 수 있는 유전체학 알고리즘을 개발했다. 서밋은 이 팀의 조합 메트릭 애플리케이션을(Combinatorial Metrics application) 초당 26억 6천만 개의 최대 처리량 계산속도 달성했으며 이는 보고된 과학 애플리케이션 중 가장 빠른 속도를 자랑했다. 제이콥슨의 연구는 복잡한 형질에 기여하는 유전자의 숨겨진 네트워크를 밝혀내기 위해 한 집단 내의 유전적 변이를 비교했다.

또한, 제이콥슨 연구팀의 성과 중 하나는 오피오이드(opioid) 중독인데, 이는 2017년 미국에서 4만 9천 명 이상의 사망자가 발생한 사건과 관련이 있다고 밝혀졌다. 이치무라 쓰요시 교수가 이끄는 도쿄대학 연구팀은 인공지능(AI)과 혼합정밀 산수를 적용해 도시 환경에서의 지진 물리 시뮬레이션에 박차를 가했다. 도시가 계속 성장함에 따라 건물과 도시 기반 시설에 미치는 지반 흔들림의 영향에 대한 대비와 개선된 설비가 점점 더 중요해졌기 때문이다. 연구팀은 서밋으로 고든 벨 파이널리스트(Gordon Bell Finalist)였던 2014년 알고리즘을 확장하여 기존의 4배 빠른 속도로 대지진 시 지반과 도시 구조물의 흔들림을 같은 시뮬레이션으로 구성했다. 로렌스 버클리 국립연구소(Lawrence Berkeley National Laboratory) 주도의 공동 연구로, 고해상도 기후 시뮬레이션을 통해 기상이변에 대처할 수 있도록 심층 네트워크를 훈련했다. 버클리대 데이터 과학자 프라바트가 이끄는 연구팀은 인공지능(AI) 소프트웨어를 활용해 앞으로 날씨가 얼마나 변할지 예측한다. 버클리 팀은 서밋의 엔비디아 그래픽카드(NVIDIA GPU)에 내장된 특수 텐서 코어를 규모에 맞게 활용해 지금까지 보고된 것 중 가장 빠른 딥 러닝 학습 알고리즘인 1.13exaops의 최고 성능을 달성했다. 비록 연구팀의 연구는 기후 과학에 적용했지만, 많은 혁신 기술은 다른 심층 학습 애플리케이션에 적용될 수 있다는 것을 보여주었다. 데이터 과학자 로버트 패튼(RobertPatton)이 이끄는 오크리지 국립연구소 팀은 전자 현미경에서 물질의 원자 수준 정보를 자동으로 식별할 수 있는 지능형 소프트웨어를 생산하기 위해 서밋을 통해 심층 학습 기법을 확장했다.

첨단 현미경으로 하루에 수백 개의 이미지를 생성할 수 있으며, 인공 지능이 실시간으로 제공하는 피드백은 원자 수준에서 물질을 생산하는 능력의 과학적 정보를 제공할 수 있다. 4,200개 노드에 걸쳐 확장된 이 팀의 멘디엘(MENNDL)알고리즘은 기계 전체에 걸쳐 예상 성능 167페타플롭스를 기록했고 실측성능은 152.5페타플롭스를 달성했다. 물리학자인 안드레 워커 루드(Andre Walker Loud)와 파블로스 브라나스(Pavlos Vranas)가 이끄는 로렌스 버클리와 로렌스 리버모어 국립연구소의 연구팀은 과학자들이 중성자의 수명을 예측하고 우주에 대한 근본적인 질문에 답할 수 있도록 개선된 알고리즘을 개발했다. 연구팀은 이전 연구를 기반으로 하여 양자중성자를 구성하는 아원자 입자의 기초 물리학을 계산하는 수치적 방법인 격자 양자 역학을 사용했고 또한, 최적화된 그래픽카드(GPU) 소프트웨어 외에도 수십만 개의 작업을 관리할 수 있는 경량 애플리케이션에 구애받지 않는 관리 소프트웨어를 개발했다. 슈퍼컴퓨터 시에라와 서밋은 5분 만에 4,224개 노드에 1,056개의 4개의 노드 연결 작업을 시작할 수 있었고, 오크리지 리더십 컴퓨터 시설의 이전 리더급 시스템인 타이탄에서는 각각 10개와 15개 노드에 대한 기계 간 속도향상을 달성했었다. 해당 성과는 핵물리학자들에게 새로운 물리학에 대한 실험적 연구를 지원하는 데 필요한 연산 능력을 제공했다.[8]

코로나 19[편집]

코로나바이러스 정식 명칭은 'COVID-19'이다. 전 세계에서 코로나 환자를 대상으로 한 슈퍼컴퓨터 기반의 유전자 연구는 이 새로운 코로나바이러스가 어떻게 질병을 유발하는지, 그에 대한 가능한 돌파구를 무엇인지, 이를 치료하기 위한 치료법 등을 제시한다. 유전자 데이터 마이닝 연구는 코로나 환자의 폐에서 공통적인 유전자의 활동 패턴을 밝혀냈는데, 건강한 대조군 집단의 유전자 활동과 비교하면 코로나바이러스의 핵심 무기로 보이는 메커니즘이 밝혀졌다. 저널 이라이프(eLife)에 실린 제이콥슨(Jacobson) 그룹의 새 논문에서 이 메커니즘이 자세히 소개되었다. 보통 건강한 신체는 적은 양의 브래디키닌(Bradykinin)을 생성하여 혈관을 확장하고 더 투과성 있게 만든다. 즉, 일반적으로 혈압을 낮춘다. 그러나 코로나 환자의 폐액 샘플은 지속해서 브래디키닌을 생산하는 유전자의 과다 발현과 더불어 브래디키닌을 억제하거나 분해할 수 있는 유전자를 과소 발현한다고 제이콥슨은 밝혔고 이러한 발견에 의해 코로나 환자의 몸에 브래디키닌이 과다하게 축적되어 있다는 점이 치명적인 결과를 초래할 수 있다고 예측하고 있다. 실제로 과도한 수치의 브래디키닌은 마른기침, 근통, 피로, 메스꺼움, 구토, 설사, 거식증, 두통, 인지 기능 저하, 부정맥, 갑작스러운 심장사 등으로 이어질 수 있다. 이 모든 것은 코로나바이러스의 다양한 발현 특징과 관련되어 있다. 브래디키닌 유전자의 발견은 결국 오크리지 국립연구소의 슈퍼컴퓨터 서밋(summit)과 레아(Rhea)에게 제공되었고 레아는 이 샘플을 4만 개의 유전자와 비교하면서 약 1만 7천 개의 유전자 샘플이 나타내는 데이터 세트로 나눴다. 2020년 6월 기준 세계에서 두 번째로 빠른 슈퍼컴퓨터인 서밋은 이 데이터 세트에서 약 25억 개의 상관관계 계산을 실행했다. 일반적인 컴퓨터 또는 클러스터에서 몇 개월이 걸릴 계산 시간이지만 서밋은 이러한 계산을 단 1주일 만에 끝냈다. 서밋과 같은 슈퍼컴퓨터의 활약에 힘입어 제이콥슨 연구팀의 논문에서는 코로나바이러스의 '브래디키닌 폭풍' 문제를 해결하기 위해 개발된 10가지의 치료법을 강조하고 있다. 잠재적 치료법으로는 이카티반트, 다나졸, 스타노졸롤, 에칼란티드, 베리네르트, 신리즈, 해가르다 등의 화합물이 있는데, 이 모든 것이 환자의 브래디키닌 수치를 감소시킬 것으로 예측되는 효과가 있다. 심지어 코로나 환자에게서 관찰된 비타민 D의 결핍에 대해서도 향후 코로나 치료에 관한 단서가 될 수 있다고 전했다.[9]

슈퍼컴퓨터 순위[편집]

2018년 6월 미국의 슈퍼컴퓨터 서밋은 500순위에 사용되는 벤치마크인 고성능 린팩에서 122.3페타플롭스의 성능으로 1위를 차지했다. 그전까지 1위를 차지했던 중국의 슈퍼컴퓨터 선웨이타이후라이트의 성능은 93페타플롭스로 29페타플롭스 앞선 성능이였다. 또한, 2013년 6월 미국의 슈퍼컴퓨터 타이탄이 당시 등장한 중국의 슈퍼컴퓨터 텐허2호에 1위 자리를 내준 뒤 5년 만에 중국의 슈퍼컴퓨터에서 1위를 자리를 탈환하는 역할을 했다. 이후 서밋은 2018년 11월, 2019년 6월 총 두 차례를 걸쳐 코어 수 향상 및 148페타플롭스의 실측 성능향상과 이론 성능 모두 업그레이드를 했지만 끝내 2020년 6월에 등장한 일본 이화학연구소의 슈퍼컴퓨터 후가쿠에게 밀려 2위로 떨어졌다. 당시 후가쿠의 실측 성능은 486페타플롭스로 서밋의 성능보다 약 3.2배 좋은 수치이다.[10]


2020년 8월 기준 슈퍼컴퓨터 TOP10
순위 이름 최고성능 제조사, 국가 프로세서 운영체제
1 후가쿠(Fugaku) 415.5 Fujitsu, 일본 A64FX 48C 2.2GHz Red Hat Enterprise Linux
2 서밋(Summit) 148.6 IBM, 미국 IBM POWER9 22C 3.07GHz, NVIDIA VOLTA GV100 RHEL 7.4
3 시에라(Sierra) 94.6 IBM, 미국 IBM POWER9 22C 3.1GHz, NVIDIA VOLTA GV100 Red Hat Enterprise Linux
4 선웨이 타이후라이트
(Sunway TaihuLight)
93.01 NRCPC, 중국 Sunway SW26010 260C 1.45GHz Sunway RaiseOS 2.0.5
5 톈허-2A(Tianhe-2A) 61.44 NUDT, 중국 Intel Xeon E5-2692v2 12C 2.2GHz, MATRIX-2000 Kylin Linux
6 HPC5 35.45 Dell EMC, 이탈리아 Xeon Gold 6252 24C 2.1GHz, NVIDIA Tesla V100, CentOS Linux 7
7 셀린(Selene) 27.58 Nvidia, 미국 AMD EPYC 7742 64C 2.25GHz, NVIDIA A100, Ubuntu 18.04.01
8 프론테라(Frontera) 23.51 Dell EMC, 미국 Xeon Platinum 8280 28C 2.7GHz CentOS Linux 7
9 마크로니-100(Marconi-100) 21,640 IBM, 이탈리아 IBM POWER9 16C 3GHz, Nvidia Volta V100, RHEL 7.6
10 Piz Daint 21.23 Cray/HPE, 스위스 Xeon E5-2690v3 12C 2.6GHz, NVIDIA Tesla P100, Cray Linux Environment
'최고성능' 단위는 페타플롭스(Pflops)이다.
2018년 6월 기준 슈퍼컴퓨터 TOP10
순위 이름 최고성능 제조사, 국가 프로세서 운영체제
1 서밋(summit) 122.3 IBM, 미국 IBM POWER9 22C 3.07GHz, NVIDIA VOLTA GV100 RHEL 7.4
2 선웨이타이후라이트
(Sunway TaihuLight)
93.01 NRCPC, 중국 Sunway SW26010 260C 1.45GHz Sunway RaiseOS 2.0.5
3 시에라(Sierra) 71.61 IBM, 미국 IBM POWER9 22C 3.1GHz, NVIDIA Volta GV100 Red Hat Enterprise Linux
4 톈허-2A(Tianhe-2A) 61.44 NUDT, 중국 Intel Xeon E5-2692v2 12C 2.2GHz, MATRIX-2000 Kylin Linux
5 에이비씨엘(ABCI) 19.88 Fujitsu, 일본 Xeon Gold 6148 20C 2.4GHz, NVIDIA TESLA V100 SXM2 Linux
6 피즈 다인트(Piz Daint) 19.59 Cray/HPE, 스위스 Xeon E5-2690v3 12C 2.6GHz, NVIDIA Tesla P100, Cray Linux Environment
7 타이탄(Titan) 17,59 Cray/HPE, 미국 Opteron 6274 16C 2.2GHz, NVIDIA K20X Cray Linux Environment
8 세쿼이아(Sequoia) 17,17 IBM, 미국 Power BQC 16C 1.6GHz Linux
9 트리니티(Trinity) 14.13 IBM, 미국 Intel Xeon Phi 7250 68C 1.4GHz Cray Linux Environment
10 코리(Cori) 14,014 Cray/HPE, 미국 Intel Xeon Phi 7250 68C 1.4GHz Cray Linux Environment
'최고성능' 단위는 페타플롭스(Pflops)이다.

전망[편집]

2019년 3월, 서밋을 통해 세계에서 가장 빠른 슈퍼컴퓨터 타이틀을 되찾은 미국이 인텔(Intel)의 주도하에 오는 2021년 안으로 초당 100경 회의 연산이 가능한 엑사급 슈퍼컴퓨터인 오로라를 도입하겠다고 밝혔다. 2020년 기준 미국에서 가장 빠른 슈퍼컴퓨터는 오크리지 국립연구소에 있는 서밋이다. 서밋은 2018년 6월에 가동을 시작하였으며 최대 연산 속도는 207페타플롭스의 초당 20경 7,000조를 기록했다. 오로라는 몇 년 이내에 그보다 5~7배 더 빠른 성능을 나타낼 것으로 예상되며, 미국 에너지부는 5억 달러를 투자하여 시카고 인근의 아르곤 국립연구소에 오로라를 설치할 예정이다. 미국 에너지부의 발표에는 상세한 일정이 나타나 있지 않지만, 인텔은 보도 자료를 통해 차세대 제온 프로세서(Xeon processor)와 차세대 인텔 옵테인 DC 퍼시스턴트 메모리, 아직 발표되지 않은 'Xe 그래픽카드', ' One API' 소프트웨어 등이 장착될 예정이다. 미국이 발표한 엑사스케일 슈퍼컴퓨터인 오로라에는 2020년 최신 슈퍼컴퓨터인 서밋이나 시에라가 사용하고 있는 것과 같은 하이브리드 프로세서 접근방식이 사용되는데, 엔비디아(NVIDIA)나 AMD(암드)와 같은 그래픽카드 외부 전문업체를 활용하기보다 인텔에서 자체 제조한 칩을 사용하게 되었기에 고성능 컴퓨팅과 인공지능의 융합기술에 그래픽카드(GPU)를 활용하는 추세에서 미국은 인텔의 기술이 뒤처지지 않기를 바라고 있다.[11]

각주[편집]

  1. 1.0 1.1 Summit (supercomputer) wikipedia - https://en.wikipedia.org/wiki/Summit_(supercomputer)
  2. 오크리지 국립연구소 공식 홈페이지 - https://www.ornl.gov/
  3. 김윤진 기자 , 〈(Science &) 지구최강 AI 슈퍼컴퓨터 전쟁 불붙었다〉, 《매일경제》, 2018-06-15
  4. IBS, 〈가장 똑똑한 컴퓨터는 무슨 일을 할까〉, 《네이버 블로그》, 2019-05-02
  5. NVIDIA KOREA, 〈세계에서 가장 빠른 슈퍼컴퓨터로 가속화되는 컴퓨팅 – 서밋〉, 《엔비디아》, 2018-06-12
  6. Morgan L McCorkle, 〈ORNL Launches Summit Supercomputer〉, 《오크리지 국립연구소》, 2018-06-08
  7. 7.0 7.1 7.2 7.3 Summit (OLCF-4) - Supercomputers WikiChip - https://en.wikichip.org/wiki/supercomputers/summit#History
  8. John Russell , 〈Summit Supercomputer is Already Making its Mark on Science〉, 《에이치피씨와이어》, 2018-09-20
  9. Mark Anderson , 〈Has the Summit Supercomputer Cracked COVID's Code?〉, 《전기전자기술자협회 스펙트럼》, 2020-08-02
  10. 탑500 공식 홈페이지 - https://top500.org/
  11. 임채능 기자 , 〈인텔은 세계에서 가장 강력한 슈퍼컴퓨터 개발에 착수했다.〉, 《퓨처타임즈》, 2019-11-28

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 서밋 문서는 컴퓨터에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.