Row Hammer란? DDR5 PRAC·RFM으로 막아내는 DRAM 셀 간섭의 backbone

Row Hammer는 2014년 학계에 처음 공개된 후 10년 넘게 DRAM 미세화의 그림자를 따라다녀 왔다. DDR5 세대에서 JEDEC이 PRAC을 spec으로 끌어들이면서 다시 메인스트림 이슈로 부상했고, AI 서버처럼 메모리 utilization이 극단으로 올라가는 환경에서 셀 한 row에 가해지는 activation 스트레스를 어떻게 row 단위로 카운트하고 막을 것인가가 1c/1d 노드 양산 안전성을 좌우한다.

Row Hammer란? DDR5 PRAC·RFM으로 막아내는 DRAM 셀 간섭의 backbone
Photo by BoliviaInteligente on Unsplash

왜 지금 Row Hammer를 다시 보는가

Small electronic components are arranged on a blue surface.
Photo by Fotografia Lui Vlad on Unsplash

Row Hammer는 2014년 Carnegie Mellon의 Yoongu Kim 그룹이 Flipping Bits in Memory Without Accessing Them 논문으로 학계에 던진 이후 10년 넘게 DRAM 산업의 그림자를 따라다녀 온 신뢰성 문제다. 처음에는 학술 PoC와 일부 보안 익스플로잇(Project Zero의 Rowhammer.js, Drammer) 수준에 머물렀지만, 미세화가 진행되며 셀 capacitor의 retention 마진이 좁아져 mitigation 없이는 양산 신뢰성을 유지하기 어려운 단계로 넘어 왔다.

2024년 JEDEC이 DDR5 spec 확장에 PRAC (Per-Row Activation Counting)을 도입하기로 합의하면서 분위기가 달라졌다. 이전까지 DDR4 시절 도입된 TRR(Target Row Refresh)이 사실상 표준이었으나 비공개 휴리스틱이라 학계 attack에 반복적으로 무너졌고, DDR5의 RFM·DRFM도 컨트롤러-DRAM 협력 모델일 뿐 row 단위 카운팅은 아니었다. PRAC은 DRAM 내부에서 row별 activation 카운터를 직접 운용한다는 점에서 한 세대를 넘는 변화다.

맥락이 바뀐 또 다른 축은 워크로드다. AI 학습·추론 서버는 동일 텐서 영역을 반복 access하는 패턴, 대형 KV cache의 hot region 접근, 극단적 메모리 utilization을 가져온다. 정상 워크로드인데도 한 row가 비정상에 가까운 빈도로 두드려지는 상황이 늘었고, hyperscaler 입장에서 mitigation은 보안이자 동시에 RAS(Reliability·Availability·Serviceability) 보장 문제가 되었다.

Row Hammer 메커니즘과 공격 변종

a close up of a wheat plant in a field
Photo by Rk kuva on Unsplash

DRAM 셀은 1T1C 구조 — 트랜지스터 하나와 storage capacitor 하나로 비트를 저장한다. Activate(ACT) 명령이 들어오면 wordline이 high로 올라가며 row 전체 셀이 sense amplifier에 연결되고, 셀 전하가 bitline에 옮겨진 뒤 다시 restore된다. 이 과정에서 wordline의 전기적 스트레스가 인접 row 셀에 capacitive coupling과 hot carrier 효과로 누설을 유도한다.

같은 row를 반복적으로 activate하면 인접(그리고 한 칸 떨어진) row 셀의 retention 시간이 정상 refresh interval(tREFI ≈ 7.8μs) 안에 못 버틸 정도로 짧아진다. 결국 다음 refresh 전에 비트가 0→1 또는 1→0으로 뒤집힌다. 두드리는 쪽이 aggressor row, 영향받는 쪽이 victim row다.

공격 패턴도 진화해 왔다. 가장 단순한 single-sided에서 시작해 double-sided(victim 위·아래를 동시에 두드려 효과 증폭), many-sided(TRR의 sampler를 회피하는 분산 패턴), Half-Double(2-row 떨어진 곳에 간접 영향을 누적시키는 변종)로 mitigation을 우회하는 기법이 학계에서 꾸준히 발표됐다. 공개된 학계 측정치에 따르면 hammer count threshold는 DDR3 시대 약 100,000 activation 수준에서 시작해 최신 노드 일부 device에서는 수천 단위까지 떨어진 사례가 인용된다.

방어책의 진화 — TRR에서 PRAC까지

black and white computer motherboard
Photo by Denny Müller on Unsplash

방어책은 세대를 거치며 layer가 늘었다. DDR4 TRR(Target Row Refresh)은 가장 먼저 양산화된 mitigation이지만 알고리즘이 제조사 비공개였다. 결과적으로 ETH Zurich의 TRRespass(2020), Blacksmith(2021) 같은 fuzzing 기반 연구가 거의 모든 상용 DDR4 device에서 TRR을 우회하는 패턴을 찾아냈다.

DDR5는 두 가지 메커니즘을 추가했다.

  • RFM (Refresh Management) — DRAM이 일정량 이상 activation을 누적하면 컨트롤러에 ALERT를 보내고, 컨트롤러는 RFM 명령으로 추가 refresh 시간을 양보한다.
  • DRFM (Directed RFM) — 컨트롤러가 의심되는 row 주소를 지정해 refresh 명령을 내린다. 컨트롤러 추적 부담이 크지만 정밀도가 높다.

2024년 JEDEC 합의로 윤곽이 잡힌 PRAC (Per-Row Activation Counting)은 한 단계 더 들어갔다. DRAM die 내부에 row별 activation 카운터를 두고, 일정 threshold에 도달하면 ALERT 비트 또는 back-off 신호로 컨트롤러에 알려 mitigation refresh를 강제한다. 휴리스틱 sampling에 의존하던 TRR과 달리 row 하나하나가 실제 카운트된다는 점에서 우회 표면이 크게 줄었다.

한편 ECC는 보조 역할이다. on-die ECC(DDR5 표준)는 row 내 single-bit error 정도까지 정정 가능하지만 row hammer가 만드는 다비트·다row 동시 flip에는 한계가 명확하다. 시스템 ECC(DIMM 단위, ChipKill 류)와 결합해야 비로소 실용적 안전 마진이 나온다.

왜 막기 어려운가 — die area·throughput의 딜레마

a computer screen with a bar chart on it
Photo by 1981 Digital on Unsplash

PRAC이 옳은 방향이라는 데에는 큰 이견이 없지만 양산 관점의 trade-off는 만만치 않다.

첫째, die area cost. 한 row당 한 카운터를 둔다고 가정하면 수십 Gb 다이의 row 수가 수억 단위다. 카운터 폭이 8~16 bit여도 SRAM·latch로 별도 구현하면 array 영역이 잠식된다. 실제 구현은 카운터를 array fragment 단위로 묶거나, spare row·reserved cell에 저장하는 압축 방식, 일부 row만 sampling하는 hybrid 등 변종이 거론된다.

둘째, refresh overhead. threshold가 낮을수록 안전하지만 mitigation refresh가 잦아지면 정상 워크로드의 throughput이 깎인다. 1c·1d 노드로 갈수록 threshold 자체가 낮아져 같은 안전 마진을 위해 mitigation 빈도가 더 올라간다. AI 서버처럼 메모리 bandwidth가 critical path인 환경에서 이는 직접 성능 영향으로 나타난다.

셋째, 정상 워크로드와 공격 패턴 구분의 어려움. 학습 중 모델이 특정 텐서 영역을 hot loop로 두드리면 PRAC 관점에서는 공격과 구분되지 않는다. False alert이 늘면 latency 마진이 깎이고, threshold를 높이면 실제 공격에 노출된다. JEDEC도 정확한 threshold·counter 폭을 단일 값으로 강제하지 않고 device·node별로 협상하는 방향으로 알려져 있다.

넷째, 컨트롤러 협력 모델. ALERT을 받아도 컨트롤러가 적절한 시점에 refresh 슬롯을 양보해야 의미가 있다. AMD·Intel·ARM 모두 컨트롤러 IP에 PRAC 처리 로직을 넣어야 하므로 양산은 DRAM 단독으로 풀리지 않는다.

누가 어떻게 다루고 있나

black and red audio mixer
Photo by Jorge Ramirez on Unsplash

양산 시장은 세 메이저 DRAM 벤더와 두 컨트롤러 진영의 협력 구도로 정리된다.

Samsung·SK hynix·Micron 셋 모두 DDR5 후기 device부터 RFM·DRFM·PRAC을 단계적으로 지원하는 방향이 공개 자료·JEDEC 회의 자료에 드러난다. Samsung은 1b·1c 노드 양산을 진행하며 PRAC을 본격적으로 끌어들이는 흐름으로 보도되고 있고, SK hynix는 AI 서버 RDIMM·MRDIMM 라인업에서 hyperscaler 요구에 맞춰 mitigation 검증을 강화하는 모습이다. Micron은 미국 데이터센터 RAS 표준 요구를 일찍부터 받아온 만큼 시스템 ECC·DRFM 조합에 익숙하다.

컨트롤러 측은 AMD EPYC, Intel Xeon SP, ARM Neoverse·Grace, NVIDIA Grace가 핵심이다. AMD·Intel은 BIOS·UEFI에서 RFM threshold·ALERT 정책을 부분 노출하는 사례가 보고되고, ARM은 컨트롤러 IP 차원에서 RFM·PRAC 지원이 명시되어 있다. NVIDIA Grace는 LPDDR5X 기반인데, mobile 계열 DRAM에도 mitigation 적용 의무가 강화되는 추세다.

학계의 압력도 무시할 수 없다. ETH Zurich(Onur Mutlu 그룹)는 매년 새 attack을 공개하면서 mitigation의 한계를 검증해 왔고, 최근에는 PRAC 변종을 우회하는 시나리오 논문도 등장했다. mitigation이 정착하면 attack도 다음 단계로 넘어가는 cat-and-mouse 구도가 RAS의 일상이 되었다.

Korea 시각 — 1c·1d 미세화와 PRAC의 의미

a city street lined with tall buildings and a yellow bus
Photo by KS KYUNG on Unsplash

한국 DRAM 양강에게 Row Hammer mitigation은 비용이자 동시에 미세화 정당화의 카드다.

비용 면에서는 PRAC counter·DRFM 로직이 die area를 잡아먹고 검증 비용이 늘어난다. 1c·1d로 가면서 threshold가 떨어지면 같은 안전 마진을 위해 더 정교한 mitigation을 die에 박아 넣어야 한다. 단가에 직접 반영되긴 어렵지만 RAS 보장이 따라오지 않으면 hyperscaler qualification 자체가 흔들린다.

반대로 강점도 있다. 한국 양강은 HBM 양산을 통해 on-die ECC, 시스템 ECC, 모니터링 신호와의 통합 경험을 누적해 왔다. HBM3·HBM3E 세대에서 ECC 메타데이터 처리, refresh 정책 최적화를 hyperscaler와 함께 다듬어 왔고 이 노하우가 RDIMM·MRDIMM·LPDDR5X 라인으로도 흐른다. PRAC 양산 안정성은 거꾸로 미세화 신뢰성을 입증하는 demonstration 효과가 있다.

구조적 약점은 컨트롤러 진영에서 한국 SoC가 차지하는 비중이 작다는 점이다. 메모리 mitigation의 절반은 컨트롤러 정책이고, 정책 결정은 AMD·Intel·ARM이 주도한다. 표준 형성 발언권은 제한적이며, 메모리 양강이 JEDEC·OCP를 통한 영향력을 더 적극 활용해야 한다는 평가가 업계에서 반복적으로 나온다.

Watch points — 6~12개월 milestone

a close up of a green light in a server
Photo by Tyler on Unsplash

향후 6-12개월 사이 주목할 milestone 다섯 가지를 추려본다.

  • JEDEC DDR5 PRAC spec 후속 업데이트 — counter 폭, threshold 범위, ALERT 시그널링의 세부 확정. DDR6 초안에서 PRAC이 base spec으로 올라갈지 여부도 관전 포인트다.
  • 1c DDR5 양산 device의 PRAC 비중 — Samsung·SK hynix가 hyperscaler에 전달하는 PRAC-enabled SKU 비중과 성능 영향이 RAS 평판을 좌우한다.
  • AMD·Intel 차세대 서버 CPU의 ALERT 처리 latency — Zen 6 및 Xeon 후속 세대 메모리 컨트롤러가 PRAC ALERT 처리에 얼마나 cycle을 양보하는지가 throughput penalty의 실측 base가 된다.
  • HBM4 세대의 row hammer 명세 — TSV·hybrid bonding 구조 위에서 row hammer가 어떤 형태로 나타나는지, HBM4 spec이 요구하는 mitigation 수준이 AI 서버 RAS의 핵심 변수다.
  • 학계의 PRAC bypass 논문 — ETH 그룹 등이 PRAC 변종 limit을 어디까지 밀어내는지가 다음 세대 mitigation 설계를 미리 보여준다.

개념 정리 — 자주 헷갈리는 포인트

green and yellow labeled box
Photo by Brian Wangenheim on Unsplash

마지막으로 실무에서 자주 헷갈리는 개념 몇 가지를 정리한다.

  • Row Hammer vs Row Press — Row Hammer는 ACT-PRE를 빠르게 반복하는 패턴, Row Press는 wordline을 길게 열어두는(긴 ACT 유지) 패턴으로 인접 retention을 흔든다. mitigation 표면이 달라 PRAC은 주로 hammer 쪽을 카운팅한다.
  • TRR vs RFM vs PRAC — TRR은 DRAM 내부 휴리스틱, RFM은 컨트롤러-DRAM 협력 명령, PRAC은 row 단위 카운팅이다. 세대가 거듭될수록 추적 정밀도가 올라가고 우회 표면이 줄어든다.
  • ECC로 막을 수 있는가 — 부분적으로만 가능하다. on-die ECC는 single-bit, 시스템 ECC·ChipKill은 다비트까지 일정 패턴 정정이 되지만, row hammer의 다비트·다row 동시 flip을 모두 잡지는 못한다. ECC는 PRAC·RFM과 layered defense를 이뤄야 한다.

Enjoyed this article?

Get deep-dive semiconductor analysis and career insights delivered weekly. Free forever — no paywall, no upsell. Funded by sponsorships with a strict editorial firewall (Editorial Standards).

Work with me

Consulting · Collaboration · Support

Paid 1:1 technical consulting, speaker invitations, collaboration proposals, or just want to say thanks — all welcome.

View options →
VLSI Korea Free forever · No paywall · Weekly semiconductor insights from practicing engineers
Support