PIM(Processing-in-Memory)이란? HBM 다음을 노리는 메모리 안의 연산 엔진

GPU 옆에 HBM을 12-Hi, 16-Hi로 쌓아올려도 결국 데이터는 좁은 통로를 왕복해야 한다. PIM(Processing-in-Memory)은 메모리 셀에서 읽은 데이터를 바깥으로 내보내지 않고 그 자리에서 계산해 'memory wall'을 우회한다. Samsung HBM-PIM, SK Hynix AiM의 구조부터 SW 스택의 약한 고리, JEDEC 표준화 동향까지 정리했다.

PIM(Processing-in-Memory)이란? HBM 다음을 노리는 메모리 안의 연산 엔진
Photo by Taylor Vick on Unsplash

왜 지금 PIM인가 — Memory wall이 사이클 카운트로 보이기 시작했다

chart, treemap chart
Photo by Ben Wicks on Unsplash

GPU 옆에 HBM을 12-Hi, 16-Hi로 쌓아올려도 결국 데이터는 GPU와 메모리 사이의 좁은 인터페이스를 왕복해야 한다. 트랜스포머 추론에서 KV 캐시가 모델 크기·시퀀스 길이에 비례해 GB 단위로 부풀어오르고, embedding lookup·MoE 라우팅·attention의 softmax 같은 메모리 바운드 연산이 늘어나면서, 학계가 30년 넘게 떠들어온 memory wall이 실제 사이클 카운트와 와트수로 보이기 시작했다.

HBM3E·HBM4가 인터페이스 폭을 1024→2048비트로 두 배 늘려도, 단위 GB당 핀 수와 채널당 전력은 패키지·전원 측면의 한계를 향해 간다. PIM(Processing-in-Memory)은 이 통로 자체를 줄이자는 발상이다 — 연산을 메모리 다이 안에서 처리하고, GPU에는 결과 벡터만 돌려준다. 공개된 분석 자료에서 데이터 이동 1비트당 에너지가 부동소수점 연산 1비트당 에너지의 수십 배라는 점이 반복적으로 인용되는데, 이게 PIM의 가장 단단한 정량적 근거다.

PIM의 실체 — 어디에 컴퓨트를 박는가

a small green box
Photo by muxin alkayis on Unsplash

PIM은 DRAM 안 또는 가까이에 작은 연산 유닛을 심어, 메모리 셀에서 읽은 데이터를 바깥으로 내보내지 않고 그 자리에서 계산한다. 구현 위치는 크게 세 갈래다.

  • 뱅크 내부 PIM — DRAM 뱅크 안에 산술 로직을 직접 넣는 방식. Samsung HBM-PIM(Aquabolt-XL)이 대표적으로, 각 뱅크 옆에 FP16 multiply-add 유닛을 두고 GEMV(general matrix-vector multiply) 같은 메모리 바운드 연산을 처리한다.
  • Base die / logic die 통합 — HBM의 베이스 다이에 가속기를 넣는 방식. HBM4 세대에서 커스텀 베이스 다이가 본격 옵션이 되면서 이 길이 열렸다. 베이스 다이는 로직 공정으로 만들 수 있어 트랜지스터 밀도·성능 측면에서 셀 다이보다 자유롭다.
  • 모듈/카드 레벨 near-memory — DIMM이나 PCIe/CXL 카드 단에 별도 PIM 칩을 붙이는 방식. SK Hynix AiM의 GDDR6-AiM, UPMEM의 DDR4-PIM, Samsung CXL-PNM이 여기에 해당한다.

핵심 spec으로 보면, 공개된 ISSCC 보고 기준 Samsung HBM-PIM은 동일 HBM2 대역폭에서 GEMV 처리량이 약 2배, 전력당 성능이 약 70% 개선되었다고 보고되었다. 단, 모든 워크로드가 아니라 메모리 바운드 커널 한정이다 — 컴퓨트 바운드인 일반 GEMM에는 효과가 거의 없다.

왜 어려운가 — 진짜 병목은 시스템 레벨에 있다

a close up of a green object on a white surface
Photo by Google DeepMind on Unsplash

PIM의 진짜 어려움은 실리콘이 아니라 시스템 레벨에 있다.

첫째, 프로세스 미스매치. DRAM은 capacitor 형성에 최적화된 공정으로, 로직 트랜지스터의 성능·밀도가 같은 노드의 logic 공정보다 한참 낮다. DRAM 뱅크 안에 복잡한 ALU를 넣을수록 셀 면적을 잡아먹어 메모리 용량이 줄고, 단위 GB당 가격이 올라간다. 그래서 뱅크 내부 PIM은 의도적으로 simple in-place compute만 넣고, 복잡한 연산은 base die로 빼는 구조가 자리잡고 있다.

둘째, 프로그래밍 모델. 기존 GPU/CPU 코드는 'load → compute → store'를 가정하는데, PIM은 'in-place 연산'이라는 근본적으로 다른 패러다임이다. CUDA·PyTorch·HuggingFace 어디에도 PIM primitive가 native로 들어있지 않고, 컴파일러가 자동으로 어떤 커널을 PIM에 오프로드할지 결정하는 것은 현재 세대 SW 스택의 가장 약한 고리다. 벤더 자체 SDK는 있지만 PyTorch backend 수준까지 매끄럽게 통합된 사례는 아직 적다.

셋째, thermal·power delivery. HBM은 이미 열적으로 빡빡한데, base die 또는 cell die에 추가 컴퓨트를 넣으면 hot spot 관리와 IR drop이 더 어려워진다. 12-Hi 스택에서 가장 안쪽 다이의 열을 빼는 문제가 PIM 통합으로 한 단계 더 까다로워진다.

넷째, 표준화. JEDEC가 PIM 인터페이스를 표준화하지 않으면 벤더 lock-in이 되어 하이퍼스케일러가 채택을 꺼린다 — 결국 산업 채택의 가장 큰 외부 변수다.

누가 잘하고 있나 — 한국 메모리 양사가 끌고 가는 분야

Black electronic device with a central glass tube.
Photo by Egor Komarov on Unsplash

공개된 자료 기준으로 PIM 분야는 한국 메모리 양사가 사실상 산업적 로드맵을 끌고 있다.

Samsung은 2021년 ISSCC에서 HBM2 기반 Aquabolt-XL을 발표하며 PIM 시제품을 상용 HBM 폼팩터에 처음 통합했고, 이후 LPDDR-PIM, AXDIMM, CXL-PNM(Processing-Near-Memory) 시리즈로 라인업을 넓혔다. SK Hynix는 GDDR6-AiM(Accelerator-in-Memory)을 2022년 공개하고 LLM 추론용 카드(AiMX) 형태로 시연했으며, HBM4 세대에서 베이스 다이 커스터마이즈와 PIM을 결합하는 방향이 보도되었다.

미국 쪽에서는 Micron이 양 사 대비 PIM 공개 활동이 적은 편이고, 스타트업 UPMEM(프랑스)은 DDR4-PIM을 데이터센터 RAG·analytics 용도로 양산 공급해 의미있는 production 레퍼런스를 가진 거의 유일한 비메모리 양사 PIM 사례다. 학계에서는 Carnegie Mellon·ETH Zürich·서울대·KAIST 등이 PIM 컴파일러·시뮬레이터(Ramulator-PIM, MultiPIM) 분야에서 활발하다.

객관적 차이의 핵심은 '뒤에 받쳐주는 메모리 양산 캐파'다 — PIM은 메모리 셀 공정을 손대는 일이라 fabless가 따라하기 가장 어려운 분야이고, 양산까지 가려면 cell 공정과 PIM 로직을 함께 튜닝할 수 있는 라인이 필요하다.

Korea 시각 — 카드는 좋은데, SW 인력 갭이 약점

한국 입장에서 PIM은 교과서적으로 좋은 카드다. DRAM 공정 know-how가 산업 진입 장벽 그 자체이고, HBM이라는 고부가 제품에 PIM을 붙이면 로직 가까운 영역에서 추가 가치를 가져올 수 있다. 메모리·로직 마진 격차가 커질수록 메모리 회사가 로직 영토를 침범하는 인센티브는 더 강해진다.

다만 구조적 약점도 분명하다. 한국 메모리 회사는 SoC·컴파일러 SW 인력이 NVIDIA·Google 대비 절대적으로 적고, PIM이 의미를 가지려면 결국 PyTorch backend·MLIR pass·TensorRT plugin 수준까지 SW가 따라가야 한다. 보도 기반으로는 JEDEC PIM 표준화 논의를 한국 양사가 주도하고 있고, 하이퍼스케일러(특히 메타·MS)가 메모리 코스트 압박 속에 PIM PoC 의향을 보내는 중이라는 산업 보도가 이어지고 있다.

단기적으로는 LLM 추론 쪽 sweet spot — GEMV-heavy decoder, KV 캐시 attention, MoE expert routing — 에서 먼저 의미있는 채택이 일어날 가능성이 가장 높다. 학습이 아니라 추론 워크로드, 그것도 batch size가 작아 메모리 바운드가 두드러지는 구간이 PIM의 진짜 시장이다.

Watch points — 6-12개월 안에 볼 마일스톤

man in white dress shirt holding green vegetable
Photo by ThisisEngineering on Unsplash
  • JEDEC 표준화 — HBM4 PIM extension, LPDDR-PIM 같은 PIM-related 인터페이스에 대한 공식 spec이 공개되는지. 표준 없이는 하이퍼스케일러 양산 채택이 어렵다.
  • HBM4 세대 PIM 변종 발표 — Samsung·SK Hynix가 HBM4 기반 PIM 제품을 공식 발표하는지, 그리고 어느 GPU/ASIC 벤더와 co-design을 공개하는지.
  • 오픈소스 ML 프레임워크 통합 — PyTorch, vLLM, TensorRT-LLM 같은 추론 스택에 PIM 백엔드 PR이 들어오는지. 이게 들어오면 ecosystem flip의 신호다.
  • 하이퍼스케일러 ASIC 로드맵 언급 — 메타·MS·구글·AWS의 자체 가속기 로드맵에 PIM 인터페이스가 명시되는지.
  • Measured silicon 발표 추세 — ISSCC, HotChips, MICRO, ASPLOS 발표에서 시뮬레이션이 아닌 실측 silicon 결과가 늘어나는지. 이게 ecosystem 성숙도의 가장 정직한 척도다.

개념 정리 — 자주 헷갈리는 용어들

A close up of a building with a red light
Photo by Logan Voss on Unsplash

마지막으로 PIM 주변에서 자주 섞여 쓰이는 용어 몇 개를 정리한다.

  • PIM vs PNM — PIM(Processing-in-Memory)은 메모리 다이 자체에 컴퓨트를 넣는 것이고, PNM(Processing-Near-Memory)은 메모리 옆 별도 칩 또는 base die에 컴퓨트를 두는 것이다. 산업적으로 둘이 겹쳐 쓰이지만, 셀 공정을 건드리는지 여부가 기술적·경제적 비용을 가장 크게 가른다.
  • PIM vs CXL 메모리 expander — CXL은 풀링·계층화 문제를 푸는 인터커넥트이고, PIM은 데이터 이동 자체를 줄이는 컴퓨트 토폴로지다. 둘은 경쟁이 아니라 보완재로, CXL-attached PIM 카드 같은 형태로 결합될 가능성이 크다.
  • PIM은 GPU 대체가 아니다 — 메모리 바운드 커널 한정 가속이고, 컴퓨트 바운드인 학습 GEMM은 여전히 GPU/ASIC의 영역이다. PIM의 ROI는 'GPU를 줄인다'가 아니라 'GPU 사이클을 더 높은 가치 작업에 쓰게 한다'는 쪽으로 봐야 옳다.

Enjoyed this article?

Get deep-dive semiconductor analysis and career insights delivered weekly. Free forever — no paywall, no upsell. Funded by sponsorships with a strict editorial firewall (Editorial Standards).

Work with me

Consulting · Collaboration · Support

Paid 1:1 technical consulting, speaker invitations, collaboration proposals, or just want to say thanks — all welcome.

View options →
VLSI Korea Free forever · No paywall · Weekly semiconductor insights from practicing engineers
Support