왜 지금 HBM4인가
JEDEC은 2025년 봄 HBM4 정식 스펙을 공개했다. 단순히 다음 세대 메모리가 발표된 것이 아니라, AI 가속기 로드맵 전체의 박자를 바꾸는 사건이다. Nvidia가 2026년 이후로 예고한 Rubin 세대, AMD MI400 시리즈, 그리고 다수의 클라우드 ASIC 신제품들이 첫 채택 후보로 거론된다.
HBM3E가 본격 양산되는 2025년 한복판에 차세대 윤곽이 이렇게 빨리 잡힌 데에는 두 가지 이유가 있다. 첫째, AI 가속기의 메모리 대역폭 요구가 기존 HBM 로드맵의 페이스를 추월했다. 모델 파라미터와 토큰 처리량이 늘면서 GPU 다이당 4-6 스택을 박아도 BW가 부족하다는 평가가 이어진다. 둘째, 메모리 3사 중 누가 베이스 다이 커스터마이즈 게임을 먼저 잡느냐가 향후 마진을 결정한다. SK하이닉스가 분기 영업이익률 70%대를 기록한 배경도 결국 HBM 프리미엄 가격이고, HBM4는 그 프리미엄을 한 단계 더 끌어올릴 후보다.
또 하나 주목할 점은 HBM4가 메모리 표준이면서 동시에 로직 파운드리 표준이 됐다는 점이다. 베이스 다이를 TSMC 같은 로직 공정에 맡기는 옵션이 처음부터 명문화되면서, 메모리 3사 경쟁이 메모리 셀 공정에서 끝나지 않고 파운드리 협력 구도로 확장됐다.
기술의 실체 — 2048비트와 새 베이스 다이
HBM4 스펙의 핵심 변화는 단순하다: I/O 폭을 1024비트에서 2048비트로 두 배 늘렸다. 핀당 속도는 초기 양산 기준 6.4 Gbps 수준에서 출발해 후속 grade에서 8 Gbps 이상까지 끌어올린다는 것이 공개된 로드맵이다. 산수로 풀면 2048 × 6.4 / 8 = 1.6 TB/s, 8 Gbps에서는 2 TB/s를 넘는다. 스택 1개가 HBM3E (그레이드에 따라 약 1.2 TB/s대) 대비 30-70% 많은 대역폭을 낸다.
스택 높이는 4-Hi부터 16-Hi까지 다양하게 정의된다. 단일 다이 24Gb 또는 32Gb 기준으로 12-Hi에서 36-48GB, 16-Hi에서 64GB 수준의 스택이 가능하다. 12-Hi 36GB 스택 4개만 박아도 144GB로, Nvidia H200이 141GB로 진입했던 영역을 차세대 가속기가 베이스라인으로 잡고 시작한다는 뜻이다.
전기 설계상 가장 큰 변화는 베이스 다이다. HBM3까지는 메모리 회사가 자체 DRAM 변형 공정으로 베이스 다이를 만들었지만, HBM4부터는 TSMC 같은 로직 공정에 베이스 다이를 외주하는 옵션이 표준화됐다. 보도 기준으로 SK하이닉스는 프리미엄 HBM4에 한해 TSMC 선단 노드 베이스 다이를 쓰는 협력을 공식화했다. 베이스 다이 안에는 PHY, 컨트롤러, RAS, 그리고 일부 고객 SoC와 맞물리는 커스텀 로직이 들어간다. HBM이 사실상 작은 SoC가 된 셈이다.
왜 어려운가 — 라우팅, 발열, 스택 yield
HBM4의 어려움을 한 줄로 줄이면 "2048비트를 뽑되 열을 못 빼는" 문제다. 세 가지 측면을 보자.
인터포저 라우팅: 2048비트가 GPU/ASIC 다이 측면 한 변으로 모두 빠져나와야 한다. 기존 CoWoS-S 실리콘 인터포저의 RDL pitch에서 이를 라우팅하려면 다이 한 변을 길게 늘리거나 인터포저 면적을 키워야 하는데, 어느 쪽도 reticle limit과 맞물려 빠르게 한계에 부딪힌다. 업계가 CoWoS-L (RDL + Local Silicon Interconnect) 같은 하이브리드 인터포저로 이동하는 흐름은 본질적으로 이 라우팅 압박을 덜기 위한 것이다.
Thermal: 공개된 자료에 따르면 HBM3 풀 스택 전력은 한 자리수 후반 W대였고, HBM4는 12-Hi 풀 스택 기준 보도상 15-20W대로 올라간다. GPU 다이 측면 4-6개 스택을 박으면 패키지 내부 메모리 측 발열만 100W에 근접한다. 베이스 다이가 로직 선단 공정으로 더 빨라진 만큼 self-heating도 늘어, 스택 상단의 가장 뜨거운 die가 갖는 thermal margin이 좁아진다. 결과적으로 패키지 후면 cold plate, micro-fluidic 같은 advanced cooling 옵션이 진지하게 논의된다.
Stack yield와 KGSD: 16-Hi 스택의 yield는 단일 die yield의 16승 패널티를 받는다. 단일 die yield가 99%여도 16-Hi 풀 스택 통과율은 약 85%로 떨어진다. Repair 셀과 ECC가 더 강해지지만, 그만큼 베이스 다이 면적과 검사 시간도 늘어난다. KGSD (Known Good Stack Die)를 잡는 후공정 테스트 비용이 HBM4에서 한 단계 더 비싸지는 이유다.
누가 잘하고 있나 — 메모리 3사의 그림이 다르다
SK하이닉스는 HBM3E 8/12-Hi에서 Nvidia 메인 공급사로 자리잡은 모멘텀을 HBM4로 잇는다. 보도된 양산 일정상 2025년 말 샘플, 2026년 본격 ramp가 거론된다. 베이스 다이를 TSMC에 맡기는 결정으로 자사 디자인 리소스를 코어 셀과 패키징 쪽에 집중하고 있고, 옴디아 등 시장조사 자료가 2026년 HBM 점유율을 SK하이닉스 우위로 점치는 배경도 이 결정과 연결된다.
Samsung은 HBM3E 12-Hi 검증 시점이 보도상 한 박자 밀린 상태다. HBM4에서는 이걸 만회하기 위해 베이스 다이를 자사 파운드리로 만들 수 있다는 점을 카드로 쓴다. 자사 4nm/3nm GAA 라인을 베이스 다이에 활용하면 외주 비용 없이 차별화가 가능하다는 시나리오다. 다만 고객사가 "라이벌 메모리 + 라이벌 파운드리"에 동시에 의존하기 싫어하는 정치 변수가 있고, 자사 파운드리의 선단 노드 yield가 받쳐줘야 한다는 전제 조건이 깔린다.
Micron은 HBM3E에서 한 박자 늦었지만 12-Hi 인증 진입은 빨랐다는 평가다. HBM4도 2026년 양산을 목표로 잡았고, 보도상 첫 캐파는 SK·삼성 대비 작다. 미국 대형 클라우드의 source diversification 명분으로 일정 비율은 확보하지만, 베이스 다이 커스터마이즈에서 TSMC와의 협력 깊이가 향후 점유율을 좌우할 가능성이 크다.
Korea 시각 — 마진 이전과 패키징 병목
한국 메모리 산업에서 HBM4는 단순한 차세대가 아니다. 다음 두 가지 구조 변수에 직결된다.
파운드리 의존도의 역설: 고부가 HBM4 베이스 다이 캐파를 SK하이닉스가 TSMC에서 산다는 것은, HBM 마진의 일부가 메모리 회사에서 파운드리로 이전된다는 뜻이다. 동시에 삼성 입장에서는 "자사 메모리 + 자사 파운드리"를 묶을 수 있는 유일한 회사라는 카드가 생긴다. 그러나 고객 (Nvidia, AMD, 클라우드 ASIC 팀)이 이 묶음을 받아들일 정치적 의지가 있는지, 그리고 자사 파운드리의 선단 노드 성숙도가 받쳐주는지가 별개의 문제다.
패키징 캐파의 새 병목: HBM4 스택 한 개당 인터포저 면적이 늘어나고, CoWoS-L 슬롯도 더 필요하다. 2025-2026년 CoWoS-L 캐파가 부족한 상황에서 HBM4 시점이 겹치면, GPU 출하의 진짜 병목이 메모리 다이가 아니라 패키징이 된다. 한국 안에서 OSAT (Amkor 한국 사업장 등)와 SK 자체 hybrid bonding 캐파가 어디까지 받쳐줄지가 매출 천장을 결정한다.
엔지니어 인력 시각에서는 SI/PI/Thermal, DRAM 설계, 그리고 베이스 다이를 다루는 SoC 설계자 모두에게 채용 신호가 강한 분야다. 특히 베이스 다이는 메모리 회사 안에서 SoC/로직 설계 경험자를 새로 뽑는 영역이다. 기존 DRAM 회로 백그라운드만으로는 PHY와 RAS 로직, 그리고 고객 SoC와 직결되는 사이드밴드 설계를 모두 커버하기 어렵다.
Watch points — 6-12개월 안에 봐야 할 5가지
- JEDEC HBM4 후속 errata와 추가 grade 발표: 8 Gbps+ 핀 속도 grade의 양산 인증이 언제 떨어지는지가 1.6 → 2.0 TB/s 전환 시점을 결정한다.
- SK하이닉스 HBM4 12-Hi 양산 진입: 보도상 2025년 말~2026년 상반기. 첫 출하 고객사가 어디인지, 그리고 base die TSMC 노드가 N5인지 N12인지 두 단계 중 어느 쪽이 mainstream으로 가는지가 포인트.
- Samsung HBM4 베이스 다이 자체 양산 확정: 자사 파운드리 채택 비율과 외부 (TSMC) 병행 여부. 자사 파운드리 단독 노선이면 위험·보상 모두 큰 베팅이다.
- Nvidia Rubin / AMD MI400 시리즈의 HBM4 채택 stack 수와 capacity: 가속기 1개당 6스택 이상이 굳어지면 패키징 캐파 압력이 한 단계 더 올라간다.
- HBM4 ASP: HBM3E 대비 +30-50% 프리미엄 보도가 실제 계약가에 반영되는 첫 분기. 메모리 3사 영업이익률이 한 번 더 점프하는지를 결정짓는 숫자다.
FAQ — 자주 나오는 질문
Q. HBM4와 HBM3E는 호환되나요?
같은 형태의 스택 패키지처럼 보이지만 스펙이 완전히 별개입니다. I/O 폭이 1024 → 2048비트로 변하기 때문에 컨트롤러·PHY·인터포저 RDL을 모두 새로 설계해야 합니다. HBM3E용 GPU 패키지에 HBM4 스택을 그대로 얹는 식의 호환은 불가능합니다.
Q. HBM4가 나오면 HBM3E는 사라지나요?
아닙니다. HBM4는 비싸고 패키징 캐파가 제한되므로, 최상위 AI 가속기 우선 채택 후 HBM3E가 한동안 mainstream으로 병행됩니다. HBM3 → HBM3E 전환과 비슷한 양상이 예상되며, HBM3E 자체도 9.6 Gbps grade까지 수명을 늘려가는 추세입니다.
Q. 베이스 다이를 TSMC가 만든다는 건 무슨 의미인가요?
HBM 스택 맨 아래 깔리는 logic die를 메모리 회사 자체 라인 대신 TSMC 로직 공정에 외주한다는 뜻입니다. 더 빠른 PHY, 더 정교한 RAS, 그리고 고객 SoC와 직결되는 커스텀 로직을 베이스 다이 안에 집어넣을 수 있어, HBM이 메모리 + 작은 SoC의 결합 형태가 됩니다.
Q. HBM4E는 또 따로 나오나요?
HBM3 → HBM3E 사례처럼 HBM4도 후속 속도 grade 또는 마이너 개정판이 "HBM4E" 형태로 등장할 가능성이 업계에서 거론됩니다. 다만 정식 명칭과 공개 시점은 JEDEC 후속 발표를 기다려야 합니다.