왜 지금 PCIe 6.0이 중요한가
AI 서버 한 노드 안에서 빠른 데이터 이동은 결국 모두 PCIe 위에 올라간다. GPU 가속기, CXL 메모리 풀, NVMe SSD, 스마트 NIC — 이 모두가 한 호스트에 붙는 통로가 PCIe다. PCIe 5.0 (32 GT/s)이 2022-2023년부터 서버 메인스트림에 들어왔지만, 한 장에 1kW 가까이 쓰는 H100·B200·MI300 같은 가속기 시대에서 x16 한 줄의 단방향 64 GB/s는 이미 좁다. 한 노드에 8장의 GPU와 수십 TB의 CXL 메모리, 그리고 PCIe SSD까지 올리려고 보면 호스트 쪽이 IO 병목이 된다.
PCIe 6.0은 이 병목을 풀어주는 카드다. 64 GT/s 라인 속도로 x16 단방향 128 GB/s — Gen5의 정확히 두 배다. 그리고 CXL 3.0이 PCIe 6.0 PHY를 그대로 가져다 쓴다. 메모리 풀링, shared memory, peer-to-peer 같은 코히어런트 패브릭의 실용화는 PCIe 6.0의 보급 속도에 정확히 묶여있다는 의미다.
PCI-SIG가 PCIe 6.0 base specification을 2022년 1월에 finalize 했고, 첫 상용 CPU·가속기·retimer가 2025-2026년에 본격적으로 모습을 드러내는 구간이다. AI 인프라가 '노드 안 패브릭'의 한계를 어떻게 넘는지는 향후 2-3년 동안 Gen6 보급이 얼마나 빨리 깔리느냐로 거의 정해진다.
PCIe 6.0의 실체 — 64GT/s, PAM-4, FLIT, FEC
PCIe 6.0은 PCIe 역사에서 처음으로 신호 변조 방식을 바꾼 세대다. Gen1부터 Gen5까지는 매번 라인 속도를 두 배씩 끌어올리면서도 NRZ (2-level) 하나로만 갔다. Gen6부터는 PAM-4 (4-level pulse amplitude modulation)로 전환한다. 같은 baud rate 32 Gbaud에서 1 UI당 2비트를 담아 실효 비트레이트를 두 배로 끌어올리는 방식이다. 대신 4 레벨을 같은 진폭 안에 넣어야 하므로 vertical eye margin은 NRZ 대비 약 1/3로 줄어든다.
PHY만 바뀐 게 아니다. Transaction layer도 새로 짰다. 기존 가변 길이 TLP (Transaction Layer Packet)를 고정 256바이트 FLIT (Flow Control Unit)로 갈아끼웠다. FLIT mode는 PCIe 6.0부터 항상 켜져있는 mandatory 모드다. 가변 길이 패킷의 헤더 오버헤드를 줄이고, FEC와 retry 단위를 단순화하기 위한 선택이다.
가장 큰 변화는 FEC (Forward Error Correction)의 도입이다. PCIe 5.0까지는 CRC + retry만으로 신뢰성을 유지했지만, PAM-4의 raw BER이 NRZ 대비 한참 나쁘기 때문에 raw error를 한번 걸러줄 channel coding이 필요해졌다. Spec은 3-way interleaved Reed-Solomon 코드를 채택했고, FLIT 당 약 2ns 수준의 추가 latency를 가진다. CRC + retry와 FEC를 결합한 hybrid scheme이라서 가벼운 에러는 FEC가 silently 회복해 주고 큰 burst error만 retry로 넘긴다.
- 64 GT/s — Gen5 대비 2배의 라인 속도
- PAM-4 — 4-level signaling, 1 UI당 2비트
- FLIT mode — 고정 256B 단위, mandatory
- FEC — 3-way interleaved Reed-Solomon, +~2ns
- BER target — pre-FEC 1e-6, post-FEC 1e-12
- Backward compat — Gen1~Gen6, link training에서 협상
설계 타깃은 pre-FEC BER 1e-6, post-FEC effective BER 1e-12 수준이다. raw channel은 100만 비트에 한 번 에러를 내도 되지만, FEC가 그것을 1조 비트에 한 번 수준까지 회복시킨다. Gen1~Gen6 backward compatibility는 유지되며, link training 단계에서 양쪽이 지원 가능한 최대 속도로 협상해 내려간다.
왜 어려운가 — PAM-4 신호 무결성·FEC latency·Retimer 부담
PCIe 6.0의 설계 부담은 PAM-4 자체보다 'PAM-4를 일반 PC 보드 채널에 태우는 일'에서 온다. 64 GT/s × PAM-4의 조합은 eye margin이 1/3로 줄어들고, ISI (intersymbol interference)와 crosstalk가 더 가혹해지는 환경을 의미한다. 일반 FR-4 보드 재질에서 2-3인치를 넘어가면 신호가 살아남기 힘들어진다.
대응책은 두 가지다. 첫째는 RX 쪽 DSP 강화. CTLE (Continuous Time Linear Equalizer)와 DFE (Decision Feedback Equalizer)의 탭 수를 늘리거나, ADC + DSP 기반의 fully digital RX로 갈아끼우는 방향이 IP 업체들 사이에서 자리잡고 있다. 둘째는 retimer 배치. 보드 trace가 길어지면 retimer를 중간에 끼워 신호를 한번 복원해야 한다. Gen5까지는 retimer가 옵션이었던 구간이 Gen6부터는 거의 필수가 되는 영역이 늘어난다.
채널 길이 budget도 줄어든다. PCIe 5.0의 일반적인 trace 한계가 retimer 없이 7-8인치 수준이었다면, PCIe 6.0에서는 retimer 없이 3-4인치를 보장하기도 어려운 케이스가 흔하다. 슬롯형 add-in card 환경, 그리고 backplane을 거치는 시스템 환경에서는 retimer가 2단까지 들어가는 설계가 데이터센터에서 점차 표준화되고 있다.
전력도 만만치 않다. 64 GT/s SerDes 송수신, DSP 기반 RX, retimer까지 다 켜면 PCIe link 1개당 동적 power가 Gen5 대비 눈에 띄게 늘어난다. 한 CPU가 80~96 lane을 노출해야 하는 서버 환경에서, 이 power 누적이 SoC의 thermal 설계와 패키지 power delivery에 직접 영향을 준다.
EDA 측면도 새 부담이다. PAM-4의 eye, bath-tub curve, FEC 효과를 사전에 검증해야 하므로 IBIS-AMI 시뮬레이션 모델, 통계적 채널 분석, end-to-end BER 시뮬레이션 인프라가 같이 따라와야 한다. 실측에서도 PAM-4 BERT와 oscilloscope의 사양이 한 단계 올라가는 만큼 lab capex도 같이 올라간다.
누가 잘하고 있나 — IP·CPU·Retimer 지형
PHY·IP 영역에서는 Synopsys DesignWare, Cadence, Alphawave Semi, Rambus가 핵심 플레이어다. Alphawave는 high-speed SerDes 전문으로 PAM-4 IP 경험이 많고, Synopsys·Cadence는 controller-PHY 일체형 솔루션을 다양한 노드에서 제공한다. 7nm·5nm·3nm 노드별로 production-quality PCIe 6.0 IP가 갖춰지는 시점은 회사·노드마다 다르며, foundry의 PDK qualification 일정과도 묶여있다.
CPU·가속기 쪽에서는 Intel Granite Rapids가 PCIe 6.0 지원을 발표한 첫 메인스트림 x86 서버 CPU다. AMD는 Turin 후속 EPYC에서 PCIe 6.0 채용 로드맵이 공개되어 있다. Nvidia는 Blackwell 세대까지는 PCIe 5.0이며 그 다음 세대에서 Gen6 채용 가능성이 높다는 게 업계 관측이다 (공식 발표가 아니라 보도 기반).
Retimer 시장은 Astera Labs의 Aries 시리즈가 사실상 reference 역할을 한다. PCIe 5.0 retimer로 데이터센터 OEM의 디자인 윈을 광범위하게 가져갔고, Gen6 retimer도 가장 빠른 양산 일정으로 진입하고 있다. Montage Technology, Microchip도 retimer·re-driver 라인업으로 경쟁한다. Switch fabric은 Microchip Switchtec, Broadcom PEX 라인이 PCIe 6.0으로 진화 중이다.
Validation 장비는 Keysight, Anritsu, Tektronix가 PAM-4 BERT·oscilloscope·PCIe 6.0 compliance tool에서 경쟁한다. PCI-SIG의 compliance 워크샵 일정이 IP·SoC 양산 일정을 사실상 정해 주는 구조라서, 이 워크샵에서 PHY가 통과하는 시점이 곧 그 회사의 Gen6 entry 시점이 된다.
Korea 시각 — 받아쓰는 IP, 가져갈 SSD·CXL 모듈, 비어있는 retimer
한국 시각에서 PCIe 6.0은 '직접 만드는 것'보다 '잘 받아쓰는 것'의 영역에 가깝다. 국내 CPU·GPU 회사가 PCIe controller·PHY를 처음부터 자체 개발하는 사례는 거의 없다. 대부분 IP 라이선스로 가져온다. Samsung Foundry는 SF4·SF3 노드에서 PCIe IP의 qualification을 진행하고 있고, 파운드리 고객사가 PCIe 6.0 IP를 빠르게 가져다 쓸 수 있는 IP ecosystem이 갖춰지는 게 경쟁력 포인트다.
SSD 영역은 한국이 가장 직접적인 영향을 받는다. Samsung·SK hynix·Solidigm 모두 PCIe Gen5 SSD를 양산하고 있고, Gen6 SSD 컨트롤러는 2026-2027년 시점이 유력한 양산 구간이다. NAND 자체의 throughput 한계 때문에 single drive가 Gen6 대역폭을 다 쓰진 못하더라도, AI 학습용 high-IOPS 스토리지에서 lane 수를 줄이거나 namespace partitioning으로 효율을 높이는 설계가 차별화 포인트가 된다.
CXL 측면에서는 삼성·SK hynix가 CXL 2.0 (PCIe 5.0 PHY) 기반 Type-3 메모리 expander를 이미 발표해 두었다. CXL 3.0 (PCIe 6.0 PHY) 모듈은 양사 모두 다음 단계로 두고 있으며, 메모리 풀링·shared memory·peer-to-peer 같은 CXL 3.0의 기능을 실 사용 가능 단계로 끌어올리는 시점이 곧 한국 메모리 회사의 새 매출 채널이 된다.
AI 가속기 영역 — Rebellions·FuriosaAI 같은 국내 AI 칩 스타트업의 차세대 제품에서 host interface로 PCIe 6.0이 채택되는 시점도 관전 포인트다. 현 세대는 대부분 Gen5 기반이며, Gen6 적용은 IP 라이선스 비용·검증 부담·타깃 시장의 host CPU 보급 속도와 균형을 맞춰야 하는 결정이다.
반면 retimer·re-driver 같은 신호 인프라 칩 영역은 국내 fabless가 거의 비어있다. Astera Labs를 정확히 대체할 한국 회사가 없는 만큼, AI 서버 한 노드를 풀스택으로 구성하려면 이런 신호 chain의 외산 의존은 그대로 남는다. 시스템 종합 설계 역량을 한 단계 끌어올리려는 KAIST·서울대·ETRI 라인업이 이 빈자리를 어디까지 채울 수 있을지가 중기 관전 포인트다.
Watch points — 6-12개월 내 봐야 할 milestone
- 2026 하반기 — Intel Granite Rapids 후속 (Clearwater Forest·Diamond Rapids)에서 PCIe 6.0 lane 수와 retimer 의존도 공식 공개
- 2026-2027 — AMD Turin 후속·MI400 라인업의 PCIe 6.0 lane 구성, CXL 3.0 지원 발표
- 2026-2027 — Astera Labs Aries 6 retimer 양산 ramp, 데이터센터 OEM 디자인 윈 수
- 2027 — 첫 production CXL 3.0 시스템 발표 — 메모리 풀링이 실제 매출 사례로 등장하는 시점
- 진행 중 — PCI-SIG의 PCIe 7.0 (128 GT/s) base spec finalization과 modulation 결정 (PAM-4 유지 vs PAM-6 검토)
- 2026-2027 — Samsung·SK hynix Gen6 SSD 컨트롤러 양산 시점, CXL 3.0 메모리 모듈 발표
- 지속 관찰 — 한국 서버 OEM (Naver·KT·삼성SDS)의 Gen6 GPU 서버 도입 타이밍
FAQ — 자주 헷갈리는 포인트
Q. PCIe 6.0이 5.0 대비 latency가 좋아진다는데 사실인가?
비트 전송 자체는 두 배 빠르므로 large payload의 전송 시간은 줄어든다. 다만 FEC가 새로 들어가서 link layer에 약 2ns 정도의 추가 latency가 붙는다. Net으로는 워크로드에 따라 비슷하거나 약간 좋아지는 정도다.
Q. CXL 3.0 = PCIe 6.0인가?
같진 않다. CXL 3.0은 PCIe 6.0의 PHY를 그대로 가져다 쓰고, 그 위에 CXL.io · CXL.cache · CXL.mem 프로토콜을 얹는다. 즉 PCIe 6.0의 보급이 CXL 3.0의 보급 조건이 된다.
Q. PAM-4라서 raw BER이 나빠지는데 왜 더 신뢰성 있게 동작하나?
FEC + CRC + retry의 3중 구조로 effective BER을 1e-12 수준까지 회복시키기 때문이다. raw channel은 1e-6 수준의 에러를 허용한다.
Q. PCIe 6.0 카드를 PCIe 5.0 슬롯에 꽂으면 어떻게 되나?
Link training 단계에서 양쪽 모두 가능한 최대 속도로 협상되어 PCIe 5.0으로 동작한다. PAM-4도 자동으로 꺼지고 NRZ로 떨어진다.