셀레네
셀레네(Selene)는 미국 엔비디아(NVIDIA)가 개발한 슈퍼컴퓨터이다. 셀린이라고도 한다. 엔비디아는 암페어 GPU(Ampere GPU) 아키텍처를 공개하면서 전체 성능에서 세계 7위를 차지한 셀레네라는 새로운 슈퍼컴퓨터를 발표했다. 셀레네는 현재 미국에서 가장 빠른 산업 시스템이며, 지금까지 만들어진 두 번째로 에너지 효율적인 시스템을 가지고 있다.[1] 2020년 11월에 슈퍼컴퓨터 랭킹 5위를 차지했다.[2]
개요
셀레네는 현재 미국에서 가장 빠른 산업 시스템으로 지금까지 만들어진 모든 슈퍼컴퓨터 중 두 번째로 에너지 효율적인 시스템이다. 셀레네는 공냉식을 사용하며, 일반적인 슈퍼컴퓨터를 설치하는데 일반적으로 필요로 하는 9-12개월의 시간 프레임에 비하여 압도적으로 적은 3주 만에 표준 데이터 센터에 셀레네를 설치, 건설했다. 이러한 빠른 설치는 AMD CPU, A100 GPU 및 멜러낙스(Mellanox) HDDR 네트워킹을 수용하는 엔비디아의 플러그 앤 플레이 DGX 시스템을 사용했기에 가능했다. 이러한 시도를 따라 프로리다 대학은 셀레네의 제작과 설치 등을 담당한 엔비디아에 문의하여 DGX A100 플랫폼을 기반으로 구축된 슈퍼컴퓨터를 구매했다고 발표했다. 엔비디아의 셀레네 슈퍼컴퓨터는 엔비디아의 하드웨어 및 소프트웨어 엔지니어에게 샌드박스를 제공하고, 엔비디아 팀이 데이터 센터의 모범 사례와 혁신에 대한 경험을 제공하는 바탕이 되었다.[1]
역사
엔비디아는 2015년에 슈퍼컴퓨터 수준에 맞는 새로운 시스템을 개발하는 것을 시작했다. 엔비디아의 원래 디자인에 따르면 슈퍼컴퓨터는 자체적으로 AI 모델을 구현할 수 있을 만큼 강력했는데, 엔디바아의 슈퍼컴퓨터가 구축하고 구현할 수 있어야 했던 모델 중에서 자동차 모델을 언급할 수 있는데, 딥러닝 분야에서 일하는 거의 모든 연구자들에게 서비스를 제공해야만 했다. 엔비디아는 여러 세대의 DGX Pod를 생산한 후 모듈식 및 확장 가능한 구성 요소로 시스템을 생산하는 데 있어 더욱 중요한 정보들을 얻을 수 있었다.[3] 셀레네 슈퍼컴퓨터는 엔비디아의 DGX를 기반한 첫 번째 슈퍼컴퓨터에 대한 도전은 아니다. 2017년 볼타 GPU 출시에서 첫 번째로 새턴 V(Saturn V)가 있다. 새턴 V와 셀레네는 잠재 고객에게 요구 사항을 충족하는지 확인시키고, 고성능 인프라의 Tier-1 공급 업체로서 엔비디아에 대한 확신을 심어줄 수 있다.[1] 그 뒤로 바로 바이러스인 코로나19의 발생으로 슈퍼컴퓨터를 구축하는 과정이 이전보다 더욱 어려워졌다. 엔비디아는 전체적으로 운영을 발전시키는데 새로운 도전을 직면하고 도전하고 있다. 그렇기 때문에 셀레네는 4세대 DGX SuperPOD 시리즈 컴퓨터 생산이 어려워졌다. 또한 노동자 수를 줄이고 제한과 격리를 부과하는 것 때문에 더욱 상황은 복잡하게 되었다. 그러나 엔비디아는 듀오 팀을 편성하고 3주 반 만에 셀레네 슈퍼컴퓨터를 설치하고 생산할 수 있었다. [3]
특징
셀레네 성능[2] 제조사 NVIDIA 코어수 555,520 메모리 1,120,000 GB 프로세서 AMD EPYC 7742 64C 2.25GHz 인터커넥트 Mellanox HDR Infiniband 실측성능 63,460 TFlop/s 이론성능 79,215 TFlop/s 파워 2,646.00 kW (Submitted) 운영체제 Ubuntu 20.04.1 LTS
성능
셀레네는 최대 1개의 AI exaFLOPs와 27 개 이상의 HPM petaFLOPs를 제공한다. 셀레네는 에너지 효율적인 슈퍼컴퓨터 2위로 선정되었다. 와트 당 20 기가 플롭을 초과하고, 총 2,240 개의 A100 GPU와 35,840 개의 프로세서 코어에 대해 DGX A100 시스템 중 280개를 사용한다.[4] 셀레네는 높은 전력 효율을 보여주며, 그린 500 리스트에서 2위를 차지했다. 그리고 전 세계 상위 500대의 슈퍼컴퓨터 중 20기가 플롭/와트의 장볍을 깬 유일한 상위 100대의 시스템 중 하나이다. 이 시스템은 또한 엔비디아의 GPU를 사용하는 이탈리아의 에너지 기업 에니(Eni)의 시스템에 이어 두 번째로 강력한 산업용 슈퍼컴퓨터이다. 이러한 에너지 사용 측면에서 보아도 셀레네는 엔비디아 GPU를 사용하지 않는 시스템과 비교하여 6.8배 효율적이다. 성능과 에너지 효율은 엔비디아 A100 GPU의 3세대 텐서 코어가 시뮬레이션을 위한 기존 64 비트 연산속도를 높이고 AI 정밀 작업을 낮췄기 때문이다. 셀레네는 구축까지 4주가 채 걸리지 않은 시스템이다.[5]
제작 속도
셀레네는 제작을 의뢰를 받고 데이터 센터에 구축하기까지 대략 9-12개월이 걸리는 다른 슈퍼컴퓨터들과 달리 3주 반 만에 데이터 센터에 슈퍼컴퓨터 셀레네를 구축했다. 이러한 일이 가능했던 이유는 엔지니어들은 엔비디아의 모듈식 레퍼런스 아키텍처인 엔비디아 DGX 슈퍼 POD를 사용해 셀린을 빠르게 조립할 수 있었다. 엔비디아 DGX 슈퍼 POD는 현대적인 데이터 센터를 위한 강력하면서도 유연한 빌딩블록인 엔비디아 DGX A100 시스템을 기반으로 하며, DGX A100은 엔비디아 멜라 녹스 HDR 인피니밴드 네트워킹을 통해 6U 서버에 8개의 A100 GPU를 패키징 하는 유연한 시스템으로, 고성능 컴퓨팅(HPC), 데이터 애널리스틱, AI 훈련 및 추론을 가속화하도록 설계되었다.[5]
활용
셀레네가 설치된 이유는 코로나19 바이러스에 대한 바른 대응과 연구를 진행하기 위하여 제작 설치된 것라고 할 수 있다. 이러한 설치 이유는 SuperPOD를 사용하여 아르곤 국립 연구소(Argonne National Labs)와 같은 비즈니스 파트너가 새로운 질병을 연구하는 과정을 도울 수 있도록 하기 위함이라고 한다.[3] 아직 크게 활용되지는 못했다.
각주
- ↑ 1.0 1.1 1.2 〈NVIDIA Provides More Details On Selene Supercomputer〉, 《MOOR》
- ↑ 2.0 2.1 〈SELENE - NVIDIA DGX A100, AMD EPYC 7742 64C 2.25GHZ, NVIDIA A100, MELLANOX HDR INFINIBAND〉, 《TOP500》
- ↑ 3.0 3.1 3.2 〈The story of making Nvidia Selene supercomputer is one of the top 10 supercomputers in the world〉, 《News-i》
- ↑ 〈NVIDIA Selene Supercomputer Delivers 1 exaFLOPs for AI and 27 petaFLOPs Regular Computing〉, 《NEWS BREAK》
- ↑ 5.0 5.1 〈전세계 상위 10대 슈퍼컴퓨터 중 8대가 엔비디아로 가속화〉, 《NVIDIA》, 2020-06-23
참고자료
- Karl Freund, Patrick Moorhead, 〈NVIDIA Provides More Details On Selene Supercomputer〉, 《MOOR》
- TOP500, 〈SELENE - NVIDIA DGX A100, AMD EPYC 7742 64C 2.25GHZ, NVIDIA A100, MELLANOX HDR INFINIBAND〉, 《TOP500》
- News-i, 〈The story of making Nvidia Selene supercomputer is one of the top 10 supercomputers in the world〉, 《News-i》
- NEWS BREAK, 〈NVIDIA Selene Supercomputer Delivers 1 exaFLOPs for AI and 27 petaFLOPs Regular Computing〉, 《NEWS BREAK》
- NVIDIA KOREA, 〈전세계 상위 10대 슈퍼컴퓨터 중 8대가 엔비디아로 가속화〉, 《NVIDIA》, 2020-06-23
같이 보기