pillar

HBM3E 완전 해부: 12단 적층과 1.15TB/s가 AI 가속기 메모리 공급망을 재편하는 이유

HBM4 로드맵 발표가 이어지지만 2024-2026년 AI 데이터센터에 실제 설치된 메모리는 HBM3E다. 8단에서 12단으로, 819GB/s에서 1.15TB/s로 진화한 이 기술의 실체와, SK Hynix가 이 경쟁에서 구조적으로 앞서 있는 이유를 해부한다.

Chase Na - Semiconductor Design Engineer

03 6월 2026 · 15 min read ·

Photo by Muhammad Faiz Zulkeflee on Unsplash

왜 지금 HBM3E인가 — AI 가속기 메모리의 현재

HBM4 로드맵 뉴스가 잇따르지만, 실제로 데이터센터 랙에 설치되어 LLM 훈련과 추론을 처리하고 있는 것은 HBM3E다. NVIDIA H200 SXM(141GB, 4.8TB/s), Blackwell B200(192GB, 8.0TB/s), AMD MI325X(256GB) 모두 HBM3E를 채택하고 있다. 2026년 기준으로 AI 가속기용 HBM 출하량의 절반 이상을 HBM3E가 차지할 것으로 업계는 추정한다.

SK하이닉스 12단 HBM3E 공식 제품 사진 — SK하이닉스 12단 HBM3E. 글에서 다루는 12단 적층 제품을 정확히 보여주는 공식 사진이다 · 출처: SK hynix Newsroom

AI 모델이 메모리 대역폭에 극도로 민감한 근본 이유는 Transformer attention 메커니즘에 있다. 시퀀스 길이가 늘어날수록 key-value cache 크기가 기하급수적으로 증가하고, 각 추론 스텝마다 이 cache 전체를 메모리에서 읽고 써야 한다. 결과적으로 대형 언어 모델 추론은 FLOP(연산량) 대비 메모리 접근량이 압도적으로 많은 memory-bound 특성을 갖는다. GPU의 TFLOPS 수치가 아무리 높아도 메모리 대역폭이 뒷받침되지 않으면 실제 토큰 생성 속도가 나오지 않는 이유다. HBM3E의 대역폭 향상이 GPU utilization에 직결되는 이유가 여기에 있다.

HBM 세대별 대역폭 진화를 보면 속도가 얼마나 빠른지 알 수 있다: HBM2E(~461GB/s) → HBM3(~819GB/s) → HBM3E(~1.15TB/s, SK Hynix 발표 기준). 약 4년 만에 2.5배 이상이 증가했으며, 이는 단순 공정 미세화가 아니라 적층 수 증가와 핀 속도 향상이 동시에 기여한 결과다. HBM4가 상용화되기 전까지 HBM3E는 AI 인프라의 실질적 메모리 표준으로 자리를 지킬 것이다.

기술의 실체 — 12-hi 구조, 핀 속도, 인터페이스

HBM3E의 기술적 실체는 세 축으로 정리된다: (1) 12단(12-hi) DRAM 적층, (2) 핀당 데이터 속도 향상, (3) 강화된 on-die ECC와 전원 도메인 설계.

12-hi 적층 구조: HBM3가 최대 8단이었던 것과 달리, HBM3E는 DRAM die 12개를 수직으로 쌓는다. 최하단의 Base die(Logic die)에는 PHY 회로, 메모리 컨트롤러, ECC 엔진, 전력 관리 로직이 집적된다. 그 위에 DRAM die 12개가 TSV(Through-Silicon Via)로 연결되며, 각 다이는 TSV를 통해 데이터와 전원을 전달받는다. 다이당 용량 구성에 따라 스택 총 용량이 결정된다: 2GB(16Gb) die × 12 = 24GB, 3GB(24Gb) die × 12 = 36GB. 고용량 구성인 36GB 스택이 고밀도 AI 가속기에 주로 쓰인다.

핀 속도와 인터페이스 폭: HBM은 DDR(Double Data Rate) 방식으로 클럭의 상승·하강 에지 양쪽에서 데이터를 전송한다. JEDEC JESD238 계열 스펙을 기반으로, HBM3E는 HBM3 대비 핀 속도를 높여 스택당 최대 ~1.15TB/s를 달성한다(SK Hynix 공개 발표 기준). 인터페이스 폭은 1024-bit(채널 8개 × 채널당 128-bit)로 HBM3와 동일하게 유지된다. 물리적 footprint를 바꾸지 않으면서 대역폭만 끌어올릴 수 있는 이 구조가 HBM 아키텍처의 핵심 강점이다. SoC와의 연결도 2.5D interposer 위 micro-bump 방식으로 동일하다.

On-die ECC와 전원 도메인: HBM3E는 die 내부에 ECC 로직을 내장해 소프트 에러(soft error rate, SER)를 전기적으로 보정한다. 12단 적층에서는 방사선 입자에 의한 비트 반전 누적 확률이 높아지므로, on-die ECC의 역할이 HBM3보다 중요해졌다. 아울러 Base die에서 12개 DRAM die 전체로 전원을 공급하는 VDD 도메인 설계도 복잡해진다. 적층 높이가 커질수록 전원 라인의 IR drop이 증가해 상단 다이에서의 전압 마진이 달라지며, 이를 보정하기 위한 전력 관리 회로 설계가 Base die 면적과 소비전력에 영향을 준다.

왜 어려운가 — 수율·열·신호 무결성의 삼각 딜레마

12-hi 전환은 숫자 하나를 바꾸는 것이 아니다. 세 가지 공학적 장벽이 동시에 높아진다.

(1) 수율 — KGD 선별의 경제학

수율은 각 층의 양품 확률을 곱한 값에 수렴한다. 단순화하여 개별 DRAM die 수율을 97%로 가정하면 8-hi 누적 수율은 약 78%, 12-hi는 약 69%가 된다. 실제 손실은 여기에 bonding 공정 수율, TSV 형성 수율, 적층 후 번인 테스트에서 추가로 발생하기 때문에 단순 계산보다 낮아질 수 있다.

이 문제를 해결하는 핵심 접근이 Known Good Die(KGD) 선별이다. 각 DRAM die를 적층하기 전 웨이퍼 단계 또는 다이 단계에서 테스트해 불량 다이를 사전에 제거하면, 완성 스택의 수율 손실을 대폭 줄일 수 있다. KGD 선별에는 고속 ATE(Automated Test Equipment)와 웨이퍼 레벨 테스트 장비가 필요하며, 이 선별 공정 비용이 HBM 원가의 상당 비중을 차지한다. KGD 선별 체계를 내재화하고 처리량을 충분히 확보한 제조사가 12-hi 수율 경쟁에서 구조적으로 유리한 이유다.

(2) 열관리 — 적층 방향 열저항의 누적

실리콘의 열전도율은 약 150W/m·K로 높지만, 적층 사이를 채우는 underfill 에폭시나 bonding film 소재는 1~3W/m·K 수준으로 낮다. 12-hi 구조에서 최상단 DRAM die의 열은 하단 방향으로 11개 층을 통과해야 방출된다. 이 과정에서 적층 방향 열저항이 누적되어 상단 다이와 하단 다이 간 온도 차가 수십 ℃에 이를 수 있다.

온도 차는 단순한 신뢰성 문제가 아니라 즉각적인 성능 문제다. DRAM 셀의 refresh 주기와 타이밍 마진은 온도에 민감하게 변화하기 때문에, 스택 내 온도 불균일이 에러율 증가와 동작 주파수 제한으로 이어진다. Base die의 PHY·컨트롤러 회로가 하단부 열을 가중시키고, DRAM die는 상단으로 갈수록 냉각이 어려워지는 비대칭 열 프로파일이 시스템 레벨 열 설계를 복잡하게 만든다.

(3) 신호 무결성 — 고속 핀과 TSV 기생 성분

HBM3E의 높아진 핀 속도에서 TSV와 micro-bump의 기생 인덕턴스·커패시턴스가 신호 품질에 미치는 영향이 커진다. 12-hi에서는 TSV가 더 긴 종횡비(aspect ratio)를 가져야 하므로, 기생 저항과 커패시턴스도 증가한다. 일반 고속 SerDes와 달리 HBM PHY는 전력 예산이 극도로 제한되어 채널 등화(equalization)를 충분히 투입하기 어렵다. 이를 보완하기 위해 CoWoS 등 interposer 설계에서 HBM 스택과 SoC 간 거리를 수십~수백 μm 수준으로 최소화해 기생 성분 자체를 줄이는 접근이 주류다. CoWoS 패키지 내 RDL(Redistribution Layer) 길이와 via 설계가 HBM3E 성능에 직접 영향을 미치는 이유가 여기에 있으며, 메모리 제조사와 패키지 하우스 간 긴밀한 공동 설계가 필수가 됐다.

누가 잘하고 있나 — SK Hynix·Samsung·Micron 삼파전

SK Hynix: 업계에서 HBM3E 최초 양산·납품 제조사로 평가받는다. NVIDIA H200, Blackwell GB200·B200 등 주요 AI 가속기에 공급하고 있으며, 공개 보도 기반 업계 추정치로 2024~2025년 HBM 시장 점유율 50% 이상을 유지하고 있다. 경쟁 우위의 핵심으로는 12-hi KGD 선별 체계의 조기 확립, TSMC CoWoS 패키징과의 안정적 협업 구도, TSV 공정 내재화 수준이 꼽힌다. SK Hynix는 HBM3E 양산과 병행해 HBM4 개발도 진행하고 있어, 세대 전환 타이밍에서도 선행 포지션을 유지하고 있다는 평가다.

Samsung: HBM3E 개발 자체는 완료했으나, 공개 보도에 따르면 주요 고객의 품질 검증 단계에서 수율 문제로 공급이 지연됐다는 보도가 있었다. 2025년 이후 수율 개선 작업과 함께 공급 정상화를 추진 중이라는 보도가 이어지고 있다. Samsung이 보유한 구조적 강점 — 자체 파운드리와 메모리 사업부가 통합된 IDM 체계 — 은 HBM 다이와 Base die의 공동 최적화 측면에서 이론적 이점을 제공하지만, 현재 HBM 경쟁에서는 이 강점이 충분히 발휘되지 못하고 있다는 외부 평가가 많다. HBM4 세대에서의 역전이 Samsung 전략의 핵심 방향으로 인식되고 있다.

Micron: 2024년부터 HBM3E 공급을 시작하며 AI 가속기 공급망에 진입했다. Micron의 강점은 1α(1-alpha) 및 1β DRAM 공정을 HBM die에 빠르게 적용하는 전환 속도와, 아이다호 팹 기반의 미국 내 제조 포지션이다. 절대 점유율은 SK Hynix에 크게 뒤지지만, 3사 경쟁 구도 확립 자체가 주요 고객사의 협상력 측면에서 의미가 있다. CHIPS Act 지원과 미국 정부의 AI 공급망 다변화 압력이 Micron의 HBM 점유율 확대를 구조적으로 지원하는 요인으로 작용한다.

Korea 시각 — SK Hynix 주도권의 구조와 Samsung 반격의 조건

SK Hynix의 HBM 주도권이 시장 타이밍의 운이 아니라 구조적 투자의 결과라는 시각이 지배적이다. 2013년 전후부터 HBM 개발에 집중 투자하면서, TSV 공정 내재화, KGD 선별 체계 구축, interposer 업체 협력 생태계 형성, TSMC CoWoS 패키징과의 장기 협업까지 일관된 방향으로 역량을 쌓았다. 이 중 어느 하나만으로는 부족하며, 세 축이 동시에 작동해야 12-hi 수율이 경쟁력 있는 수준에 도달한다.

Samsung이 HBM에서 뒤처진 원인에 대한 외부 분석은 여러 갈래다. 가장 많이 거론되는 설명은, DDR5·LPDDR5X 등 범용 DRAM 물량 기반이 커서 HBM 전용 라인 투자가 상대적으로 늦었다는 것이다. HBM은 일반 DRAM과 달리 TSV 드릴·필, 특수 bonding film, KGD 테스트 장비, 열관리용 소재 등 별도 공정 체계를 요구하는데, 이 체계를 새로 구축하는 데 예상보다 많은 시간이 걸렸다는 분석이 설득력을 얻는다. Samsung이 HBM4 세대에서 역전을 노리는 핵심 조건은 12-hi 이상 적층에서의 KGD 수율 안정화와 자체 또는 협력 파운드리 기반 CoWoS 동등 패키징 체계 확보로 볼 수 있다.

국내 소재·장비 생태계 시각에서 HBM 수요 증가는 복합적 신호다. TSV 드릴 장비, bonding film, KGD 고속 테스터, 웨이퍼 본더, 적층용 underfill 소재 수요가 함께 늘어나는 구조다. 다만 핵심 장비 분야에서는 일본(Disco, TEL 등)·미국(KLA, Applied Materials 등) 의존도가 여전히 높아, 국내 장비 생태계의 HBM 공정 진입이 중요한 과제로 남아 있다. 반면 패키지 기판 분야에서는 국내 업체들이 HBM 관련 수요 증가의 수혜를 직접적으로 받는 구조다.

Watch Points — 6-12개월 내 체크포인트

Samsung HBM3E 공급 정상화 여부: 2026년 상반기~중반 NVIDIA 등 주요 고객 공급망 진입이 확인되면 HBM 시장 점유율 지형이 변한다. SK Hynix의 과점 구조가 완화되면 단가 하락이 앞당겨질 수 있으며, 이는 AI 가속기 원가 구조에도 영향을 준다.
HBM3E 단가 하락 속도 vs HBM4 전환 타이밍: HBM4 양산이 본격화하면 HBM3E는 가격 경쟁 국면으로 전환된다. AI 가속기 수요가 HBM4로 이동하는 속도와 HBM3E 증산 물량이 교차하는 시점이 공급사 마진에 직결되는 핵심 변수다.
JEDEC HBM4 스펙 확정과 초도 샘플: HBM4는 16Gbps 이상 핀 속도, Base die 로직 고도화, Hybrid Bonding 기반 적층을 목표로 개발 중이다. JEDEC 최종 스펙 확정 시점과 SK Hynix·Samsung의 HBM4 초도 제품 발표가 HBM3E 수명 주기를 결정한다.
AI 추론 워크로드 메모리 요구 변화: Mixture-of-Experts(MoE) 구조 확산이나 소형 모델 분산 추론이 늘면 대역폭보다 절대 용량이 우선시되는 워크로드 비중이 커진다. 이 경우 HBM3E 36GB 구성의 가성비가 다시 부각될 수 있다.
Micron HBM 점유율 추이: CHIPS Act 지원과 미국 정부 AI 공급망 다변화 압력이 Micron의 HBM3E·HBM4 점유율 확대를 가속할 가능성이 있다. 3사 실질 점유율 변화는 HBM 공급 구조 재편의 신호로 해석할 수 있다.

개념 정리 — HBM3 vs HBM3E 핵심 차이

두 세대를 혼동하기 쉬운 독자를 위해 핵심 차이를 정리한다. HBM3는 최대 8단(8-hi) 적층이고, HBM3E는 최대 12단(12-hi)을 지원한다. 핀당 데이터 속도는 HBM3E가 HBM3 대비 높으며, 그 결과 스택당 대역폭이 ~819GB/s에서 최대 ~1.15TB/s(제조사 공개 발표 기준)로 향상됐다. 인터페이스 폭(1024-bit)과 2.5D interposer 기반 연결 방식은 두 세대 모두 동일하다.

'3E'의 'E'는 Enhanced를 의미하며, HBM2E가 HBM2의 개선판인 것과 동일한 명명 패턴이다. HBM4는 이와 달리 완전히 새로운 세대로, Base die 아키텍처 변경과 Hybrid Bonding 기반 적층 전환이라는 더 큰 구조 변화를 수반한다. 현재(2026년 기준) 양산 주력은 HBM3E이고, HBM4는 초도 양산 단계에 진입하는 시점으로 업계는 보고 있다. 설계자 입장에서는 HBM3E와 HBM4의 패드 배치 및 전기 특성 차이를 SoC 설계 단계부터 고려해야 한다.

공유하기 토론 참여

이 글이 어떤 도움을 줬나요? 공개 숫자 없이 품질 개선 신호로만 사용합니다.

HBM3E 완전 해부: 12단 적층과 1.15TB/s가 AI 가속기 메모리 공급망을 재편하는 이유

Chase Na - Semiconductor Design Engineer

왜 지금 HBM3E인가 — AI 가속기 메모리의 현재

기술의 실체 — 12-hi 구조, 핀 속도, 인터페이스

왜 어려운가 — 수율·열·신호 무결성의 삼각 딜레마

누가 잘하고 있나 — SK Hynix·Samsung·Micron 삼파전

Korea 시각 — SK Hynix 주도권의 구조와 Samsung 반격의 조건

Watch Points — 6-12개월 내 체크포인트

개념 정리 — HBM3 vs HBM3E 핵심 차이

오류나 추가 설명이 필요한가요?

비공개 제보 보내기

현장에서는 어떻게 보고 계신가요?

매일, 중요한 신호만.

이런 기술 콘텐츠가 필요하신가요?

내 읽기 보관함

왜 지금 HBM3E인가 — AI 가속기 메모리의 현재

기술의 실체 — 12-hi 구조, 핀 속도, 인터페이스

왜 어려운가 — 수율·열·신호 무결성의 삼각 딜레마

누가 잘하고 있나 — SK Hynix·Samsung·Micron 삼파전

Korea 시각 — SK Hynix 주도권의 구조와 Samsung 반격의 조건

Watch Points — 6-12개월 내 체크포인트

개념 정리 — HBM3 vs HBM3E 핵심 차이

글 참여 도구

오류나 추가 설명이 필요한가요?

매일, 중요한 신호만.

이런 기술 콘텐츠가 필요하신가요?

다음 읽기

Daily Silicon: 반도체 수출 180.6%: TSMC 2nm, EDA 원가

PCIe 8.0: 256 GT/s가 서버 보드 설계를 다시 쓰는 이유

팀 가이드: Formal Verification — 시뮬레이션이 못 잡는 corner를 수학으로 증명한다