HBM
HBM은 고대역폭 메모리(High Bandwidth Memory)의 약어로 삼성전자, AMD, SK하이닉스의 3D 스택 방식의 DRAM을 위한 고성능 RAM 인터페이스이다. 고성능 그래픽스 가속기와 네트워크 장치와 결합하기 위해 사용된다. HBM을 채용한 최초 장치는 AMD 피지 GPU이다.
고대역 메모리는 JEDEC에 의해 2013년 10월 산업 표준으로 채택되었다. 2세대 HBM2는 2016년 1월 JEDEC에 의해 수용되었다.
목차
개요[편집]
HBM은 3D 스택형 메모리 기술을 기반으로 한 고속 컴퓨터 메모리 인터페이스이다. CPU 또는 GPU와 같은 처리 장치와 연결되어 빠른 데이터 전송을 가능하게 한다. 고해상도 그래픽, 데이터 센터, 인공지능, 기계학습 등의 응용 분야에서는 대량의 데이터 처리와 고속 데이터 전송이 필요하다. 이에 대한 요구를 충족시키기 위해 HBM이 등장하게 되었다.
HBM 메모리는 여러 개의 실리콘 메모리 칩을 수직으로 적층시킴으로써 메모리 용량을 크게 늘리고, 정보 전달 거리를 줄여 데이터 전송 속도를 대폭 향상시킨다. 이는 데이터의 효율적인 이동을 가능하게 하며, 메모리와 처리 장치 간의 병목 현상을 최소화한다. HBM의 대역폭은 기존 DDR 메모리 기술과 비교해 훨씬 높아 다양한 데이터 집약적 작업에서 매우 유용하며, 그래픽 처리, 과학 및 공학 시뮬레이션, 빅 데이터 분석 등의 분야에서 뛰어난 성능을 발휘한다.
삼성을 비롯한 다양한 기업과 제조업체들은 이미 HBM을 상용 제품에 적용하고 있다. 삼성은 HBM 기술을 선도적으로 개발하고 있으며, 삼성의 시장 점유율이 높다는 점을 감안하면 HBM의 상용화가 상당히 진행되었다고 볼 수 있다. 또한 그래픽 카드 업계에서도 AMD를 비롯한 다른 업체들이 HBM을 활용하여 우수한 성능을 제공하는 제품을 출시하고 있다.
기술[편집]
HBM은 DDR4 또는 GDDR5보다 상당히 작은 폼 팩터를 갖추면서 전기를 덜 사용하는 고대역을 달성한다. 최대 8개의 DRAM 다이를 적층함으로써 완성되며, 여기에는 메모리 컨트롤러를 갖춘 선택적 베이스 다이(base die)를 포함하는데, 이는 실리콘관통전극(TSV)과 마이크로범프(microbump)에 의해 상호 연결된다. HBM 기술은 마이크론 테크놀로지가 개발한 하이브리드 메모리 큐브 인터페이스와 원리가 비슷하지만 호환되지는 않는다.
HBM 메모리 버스는 DDR4나 GDDR5 등 다른 DRAM 메모리에 비해 매우 넓은 편이다. 4개의 DRAM 다이스(4-Hi)의 HBM 스택은 총 8개 채널과 총 1024비트 너비에 대해 각 다이 당 128비트 채널을 2개 갖추고 있다. 그러므로 4개의 4-Hi HBM 스택을 갖춘 그래픽 카드/GPU는 4096비트 너비의 메모리 버스를 갖게 되는 셈이다. GDDR 메모리의 버스 너비는 512비트 메모리 인터페이스를 갖춘 그래픽 카드의 경우 16채널에 32비트이다. HBM은 패키지 당 최대 4GB를 지원한다.
DDR4, GDDR5 대비 메모리에 대한 많은 수의 연결로 인해 GPU(또는 다른 프로세서)에 대한 새로운 HBM 메모리 연결 방식이 필요했다. AMD와 엔비디아는 모두 인터포저(interposer)라는 이름의 실리콘 칩을 사용하여 메모리와 GPU를 연결한다. 이 인터포저는 메모리와 프로세서가 물리적으로 가깝게 위치시키는 것을 요구함으로써 메모리 경로를 감소시킨다는 장점이 있다. (많은 수의 IO 단자를 가지는 HBM의 경우 그보다 적은 IO단자를 가진 PCB와 직접 연결하기 어렵기 때문에, HBM과 PCB사이에 IO단자 수를 변환해서 신호를 분배하는 인터포저를 사용하는 것이다.) 그러나 반도체 장치 제조는 인쇄 회로 기판 제조에 비해 상당히 더 비싼 편이므로 최종 제품에 가격이 증가된다. 당연히 이전에 DRAM칩과 PCB만 사용했던 것을 인터포저라는 고급장치까지 추가로 사용해야 하므로 비용이 증가되는 것이다.
인터페이스[편집]
- HBM 2
- HBM 3
- HBM 4
동작 원리[편집]
HBM 메모리는 3D 스택형 메모리로 구성되어 있다. 이는 여러 개의 메모리 칩을 수직으로 적층시키는 형태를 가지고 있다. 이러한 구조를 통해 HBM은 대역폭과 전송 속도를 크게 향상시킬 수 있다.
HBM의 동작 원리는 다음과 같다. 먼저, 메모리 칩들은 적층된 형태로 시스템 보드 상에 배치된다. 각각의 메모리 칩은 전용 통신 채널을 통해 서로 연결되어 있다. 이 연결은 TSV(Through-Silicon Via)라는 기술을 사용하여 이루어진다. TSV는 실리콘 칩 안으로 구멍을 뚫고, 그 구멍을 통해 전기 신호와 데이터를 전송하는 기능을 제공한다. 실리콘 칩 내부의 다양한 층들을 연결하고 통신할 수 있게 함으로써 칩의 성능과 효율성을 크게 향상시킨다.
HBM은 TSV 기술을 활용하여 데이터를 수직 방향으로 메모리 층을 통해 전송함으로써 데이터 전송 거리를 최소화하고 대역폭을 크게 확보할 수 있다. 이를 통해 HBM은 뛰어난 성능을 제공한다. 더불어, HBM은 각각의 메모리 칩에 독립적인 데이터 버스를 사용한다. 이는 병렬적인 데이터 전송을 가능하게 하여 전체적인 처리량을 증가시킨다.
이렇게 수직으로 적층된 메모리 칩과 TSV 기술을 통해 HBM 메모리는 뛰어난 대역폭과 빠른 전송 속도를 제공한다. 이는 고성능 그래픽 처리, 데이터 센터에서의 대규모 데이터 처리, 인공지능과 기계 학습 분야에서의 고속 데이터 전송 등 다양한 응용 분야에서 큰 이점을 제공한다.
장점[편집]
HBM 메모리는 대역폭이 높고, 전력 효율성이 좋으며, 공간을 절약하고 신뢰성이 높다는 다양한 장점을 가지고 있어 다양한 분야에서 활용될 것으로 기대된다.
- 대역폭이 높음 : 매우 높은 대역폭을 제공합니다. 메모리 칩들이 수직으로 적층되고 TSV 기술을 사용하기 때문에 데이터 전송 속도가 매우 빠르다. 이는 고성능 컴퓨팅이나 그래픽 처리 등 대량의 데이터 처리에 이점을 제공한다.
- 낮은 전력 소비 : 높은 성능을 제공하면서도 상대적으로 적은 전력을 소비한다. 이는 전력 효율적인 시스템 설계와 에너지 절약에 도움을 준다.
- 공간 효율성 : 기존 메모리 기술에 비해 적은 공간을 차지한다. 여러 개의 메모리 칩을 수직으로 적층시키는 구조로 인해 시스템 보드의 공간을 절약할 수 있다. 이는 작은 크기의 디바이스나 고밀도 시스템에 이점을 제공한다.
- 높은 신뢰성 : 메모리 칩들이 수직으로 적층되어 있어 충격이나 진동에 대해 더욱 견고하게 구성되어 있다. 이는 신뢰성이 요구되는 환경에서 안정적인 성능을 보장한다.
단점[편집]
그러나 HBM 메모리는 아래와 같은 단점들도 가지고 있다. 이러한 단점들은 지속적인 기술 발전과 혁신을 통해 극복될 수 있을 것으로 기대된다.
- 높은 비용 : 고성능과 탁월한 기술을 갖춘 혁신적인 기술이기 때문에 비용이 비교적 높을 수 있다. 따라서 일부 저가 제품에는 HBM이 적용되지 않을 수 있다.
- 제조 과정의 복잡성 : 메모리 칩들을 수직으로 적층시키는 3D 구조로 구성되어 있다. 이는 제조 과정이 복잡하고 기술적인 도전을 요구할 수 있다. 이로 인해 생산량이 제한될 수 있니다.
- 확장성 문제 : 현재 제품에 적용되는 범위가 제한적일 수 있습니다. 특히, 일부 시스템에서 메모리 용량을 증가시키기 위해서는 추가적인 메모리 칩을 적층시켜야 하는데, 이는 기존 시스템의 확장성에 제약을 가질 수 있다.
역사[편집]
고대역 메모리의 개발은 2008년 컴퓨터 메모리의 전력 사용량과 폼 팩터를 증가시키는 문제를 해결하고자 AMD에서 시작되었다.
대한민국의 SK하이닉스가 최초로 개발하고 양산하여 2013년에 발표한 적층형 메모리 규격이다.
기존의 GDDR 계열 SGRAM을 대체하고 보다 고대역폭의 메모리 성능을 달성하기 위해 제안되었으며, 2013년에 반도체 표준협회인 JEDEC에 의해 채택되었다. 메모리 다이를 적층하여 실리콘을 관통하는 통로(TSV)를 통해 주 프로세서와 통신을 한다는 것으로, 이를 위해서 직접 인쇄 회로 기판 위에 올려지는 GDDR 계열 SGRAM과는 달리 인터포저라는 중간 단계를 필요로 한다.
GDDR의 경우 32개의 핀을 구리배선으로 연결하면 되므로 따로 미세공정이 필요 없었다. 그러나 HBM은 1024개나 되는 미세한 핀을 연결해야 하기 때문에 그대로 기판에 붙일 수 없다. 설령 그대로 붙인다고 하더라도 1024개나 되는 배선을 기판에 구현하여 GPU에 연결하는 것도 만만치 않은 일이라, 중간에 인터포저를 추가하여 여기에 GPU와 HBM을 가깝게 배치해서 연결하자는 아이디어가 나왔다. 2012년에 이종간 패키징이 가능한 TSMC CoWoS가 개발되고, 2014년에 AMD와 SK하이닉스가 협력하여 TSV(Through Silicon Via) HBM 제품 개발에 성공하면서, 이후 본격적으로 HBM을 활용한 제품이 나오게 되었다.
한때 GDDR에 비해서 뚜렷하게 우세하지 못한 성능으로 인해 계륵 취급을 받은 적도 있었다. 초기 HBM 1세대가 개발되었을 때, 그래픽카드에 HBM 4개(4096bit)를 배치한 것과 GDDR 12개(384bit)를 배치한 것을 비교하면, 대역폭 및 용량 차이가 그리 크지 않은데 가격은 비쌌기 때문이다. 한편으로는 그래픽 메모리를 대용량으로 필요할 만한 게임도 없었고, 대학 또는 기업의 인공지능 랩에서나 쓰이는 정도라 일반 GDDR에 비해 수요가 적었다. 이런 이유로 2019년 삼성전자에서는 시장성이 없다고 판단하고 일시적으로 사업을 철수한 적도 있었다.
그러나 시간이 흘러 성능 개선이 이루어지면서, GDDR과 HBM간의 기술 격차가 점점 크게 벌어지는 상황이다. 특히 GDDR의 경우 단층에 따른 구조적 한계로 개선이 더딘 반면, HBM의 경우 메모리 다이만 잘 쌓으면 용량과 대역폭이 배로 증가하니 상대적으로 기술 발전이 빠른 편이다. 거기에 매개변수가 많아 메모리를 많이 쓸 수 밖에 없는 GPT나 Stable Diffusion과 같은 트랜스포머 기반 인공지능 분야에서 수요가 급증했는데, 이들을 제대로 활용하려면 사실상 HBM 사용이 강제된다. 용량도 중요하지만 많은 모델 데이터들을 빠른 시간내 처리하기 위해선 메모리 대역폭도 중요하기 때문이다.
근본적인 구조의 차이 때문에 GDDR과 비교를 하더라도 대역폭 면에서는 HBM이 월등하게 우수하다. 삼성은 스택당 최대 8-Hi, 최대 3.2 GT/s, 410 GB/s, 총 16 GB를 지원하는 플래시볼트 HBM2E를 2020년 2월에 양산했다. SK하이닉스도 스택당 최대 8-Hi, 최대 3.6 GT/s, 460 GB/s, 총 16 GB를 지원하는 HBM2E를 개발하여 2020년 7월 대량 생산에 돌입했다고 한다. 그리고 2020년 11월 16일, NVIDIA가 3.2 Gbps와 총 2 TB/s 대역폭을 지니는 HBM2E로 업그레이드된 A100 80 GB 연산 카드를 발표했다.
2021 ~ 2022년[편집]
2021년에 SK하이닉스의 HBM3 개발 소식이 발표된 후, 2022년 1월 27일에 HBM3의 JEDEC 표준 사양이 발표되었다. 스택당 최대 819 GB/s로 2개의 스택으로만 구성해도 약 1.6 TB/s가 되는데, GDDR6X SGRAM 21 Gbps 사양이어야 384-bit 구성시 1 TB/s를 겨우 돌파하므로, HBM3가 탑재된 제품의 투입 시기가 늦어지지 않는다면 당분간 대역폭 우위를 차지할 수 있을 것이다.
2019년에 개발을 일시 철수했던 삼성전자는 뒤늦게 4세대 HBM 개발을 시작하였고, 2022년에 HBM3 '아이스볼트(Icebolt)'를 개발하였다. 그러나 SK하이닉스보다 1년 늦게 개발된 탓인지 엔비디아에 납품은 어려운 상황이다. 트렌트포스측에서는 삼성전자가 HBM3를 2023년 말에서 2024년 1월 사이에 양산할 것으로 전망하고 있다.
2023년[편집]
HBM 개발을 위한 SK하이닉스와 삼성전자의 경쟁이 가속화 되는 가운데, 하이닉스에서 엔비디아 AI가속기 H100에 HBM3를 공급함으로써 삼성전자를 완전히 누르고 독주시대를 연것으로 평가된다. 이에 반해 삼성전자는 2019년 HBM 사업이 사업성이 없다고 오판한 나머지 삼성전자의 치명적인 흑역사의 한페이지를 장식하게 된다.
2023년 기준 메모리반도체 시장에서 HBM이 차지하는 비중은 1% 미만이지만 매출은 10%에 달할 정도로 고부가가치 메모리 중 하나로 자리잡았다. 인공지능 칩의 가파른 수요 증가로 인해 이에 걸맞은 처리속도에 대한 수요도 덩달아 증가하며 호조세를 맞고 있다. 2023년에는 해당 분야에서 하이닉스와 삼성전자가 각각 53%, 38%로서 도합 90% 수준의 점유율을 기록하고 있고 나머지 10%는 마이크론이 차지하고 있다. 특히 최신 HBM3의 경우 2024년 기준 SK하이닉스가 90%를 차지할 정도로 거의 독주하고 있다. 범용 인공지능 칩 시장의 80% 가량을 차지하고 있는 엔비디아가 하이닉스와의 협력을 통해 자사 GPU에 제품을 결합하여 판매하기 때문에 시장점유율 면에서 상당히 유리한 위치를 차지하고 있다.
2023년 8월, SK하이닉스에서 HBM3E 개발에 성공하였다.
2023년 5월, 삼성전자의 차세대 HBM에 HBM3P '스노우볼트'라는 명칭을 붙일 것으로 알려졌다. 동년 9월에는 엔비디아에 HBM3를 공급하기로 합의했다는 소식이 들려오기도 하였다. 그러나 HBM3 샘플을 받아본 엔비디아에서 수율 문제를 우려하여, 최종 계약에는 이르지 못하고 조건부 가계약을 맺은 것으로 알려졌다. 특히 엔비디아 측에선 차세대 HBM 메모리 명칭을 'HBM3E'로 정했으나, 삼성전자가 붙인 'HBM3P'라는 명칭을 바꿔달라고 요구한 것으로 알려졌다.
2023년 10월, 삼성전자에서 일명 '샤인볼트(Shinebolt)'라는 HBM3E의 개발에 성공하였다고 발표하였다.
2023년 11월, 엔비디아는 HBM3E가 탑재된 H200과 B100을 2024년 2분기에 출시한다고 발표하였다. AMD와 인텔도 각각 HBM3가 탑재된 MI350과 가우디3를 출시한다.
2023년 HBM 시장 전체 규모는 40억 달러로 추정하고 있고, 2024년에는 120억달러로 작년 대비 3배 늘어날 것으로 예상하고 있다. 하이닉스의 2023년 HBM 매출은 20억달러 수준이다.
2024년[편집]
2월, SK하이닉스에서 16단 HBM3E 기술을 첫 공개할 것으로 알려졌다. 16단 48GB에 1.28TB/s의 대역폭을 처리할 수 있는 것으로 알려졌다.
2월 27일, 마이크론은 HBM3E의 양산을 개시한다고 밝혔다. 2분기에 출시하는 엔비디아 H200에 탑재된다고 하며, 경쟁사보다 30% 전력 효율이 우수하다고 밝혔다. 다만 해당 시점에서 공급 예정이라는 사실만 밝힐 뿐, 확정 공급은 아닌 듯.
3월 19일, SK하이닉스에서 HBM3E 8단을 세계 최초로 양산하여 3월 말 고객사에게 납품한다고 밝혔다. 마이크론보다 먼저 납품을 시작한다고 하며, H200에 탑재된다고 한다.
5월 23일, SK하이닉스에서는 HBM3E의 수율이 80%에 육박 한다고 파이낸셜타임스와의 인터뷰에서 밝혔다. 통상 수율은 영업 기밀에 속하기 때문에 공개하지 않으나, 이례적으로 공개한 만큼 HBM에 자신감이 있는듯 하다.
반면, 삼성전자가 HBM에 대한 엔비디아의 테스트를 통과하지 못했다는 소식이 다음날(5월 24일) 로이터 통신에 의해 보도되었다. HBM3와 HBM3E 칩에 대해 엔비디아의 요구 사항을 충족시키지 못하면서 테스트 실패 결과가 4월에 나왔다고 덧붙였다. 삼성전자측에서는 최종 테스트가 결정된 것이 아니고 순조롭게 진행 중이라며 즉각 반박하였으나, 주가는 외국인들의 실망 매물이 쏟아지면서 3% 하락하였다.
6월 27일, 마이크론은 실적발표에서 2025년도 HBM3E 생산물량이 완판되었다고 밝혔다. 다만 그럼에도 불구하고 주가는 떨어졌는데, 예상하는 다음 분기 가이던스가 낮았기 때문이다. 마이크론의 HBM 수율이 잘 나오지 않는 것인지 CAPA가 부족한 것인지는 몰라도 생각보다 HBM에서 큰 수익이 나오지 않는 듯 하다. 업계에 따르면 엔비디아향 HBM3E 8단의 초도 물량이 일부 반려되는 등 HBM 생산 안정화에 어려움을 겪고 있다고 한다.
7월 24일, 삼성전자의 HBM3가 엔비디아의 퀄테스트를 처음 통과했다고 로이터 통신이 보도하였다. 다만 HBM3E는 기준치를 충족하지 못하였다고 한다. 또한 삼성이 납품하는 HBM3 물량 대부분이 2024년 7월 기준 엔비디아가 주력으로 밀고 있는 H100이 아닌 H20에만 사용되는 것으로 알려졌다. H20은 중국 수출을 위한 제품으로 H100보다 컴퓨팅 성능이 1/5 수준이라고 한다.
8월 7일, 삼성전자의 HBM3E 8단이 엔비디아 퀄테스트를 통과했다고 로이터 통신이 보도하였다. 이에 대해 삼성전자 측에서는 사실과 다르며, 아직 퀄테스트를 진행하고 있다고 밝혔다.
JEDEC 표준 규격[편집]
규격 총 채널 구성과 스택당 다이 구성
스택당 최대 용량 (GB)
스택당 버스 폭
전압(V) 클럭 (비트레이트)
채널당 I/O 데이터 전송률
스택당 대역폭 (GB/s)
개발 표준화 적용 HBM 8 채널 × 128-bit × 4-Hi 4 1024-bit 1.3 500 MHz (1 Gbps)
1 GT/s 128 2013년 2013년 2015년 HBM2 8 채널 × 128-bit × 8-Hi 8 1024-bit 1.2 1000 MHz (2 Gbps)
2 GT/s 256 2015년 2016년 2016년 HBM2E 8 채널 × 128-bit × 12-Hi 24 1024-bit 1.2 1200 MHz (2.4 Gbps)
2.5 GT/s 307 2019년 2018년 2020년 HBM3 16 채널 × 64-bit × 16-Hi 64 1024-bit 1.1 3200 MHz (6.4 Gbps)
6.4 GT/s 819 2021년 2022년 2023년 HBM3E 2023년 (미정) (미정) HBM4 2026년
참고자료[편집]
- 〈고대역 메모리〉, 《위키백과》
- "HBM", 《나무위키》
- 위써치, 〈HBM 소개 - SK하이닉스〉, 《네이버 블로그》, 2023-08-03
- 윌리, 〈HBM 이란?:: 고대역폭 초고속 메모리의 구조와 동작 원리〉, 《네이버 블로그》, 2023-07-03
같이 보기[편집]