The milestone of one million tokens per second is crossed, and the multi-node scale follows almost linearly. AMD pushes its MI355X beyond the simple throughput record with reproducible scores among partners.
AMD Instinct MI355X et MLPerf 6.0 : chiffres clés et périmètre
Engraved in 3 nm, AMD Instinct MI355X GPUs (CDNA 4 architecture) total 185 billion transistors, support FP4/FP6 and carry up to 288 GB of HBM3E. Up to 10 PFLOPS in FP4/FP6, capacity of up to 520 billion parameters on a single GPU and UBB8 node in aircooling or DLC: the platform is designed for large-scale inference.
In MLPerf Inference 6.0, AMD exceeds 1 million tokens/s on Llama 2 70B (Server and Offline) and GPT-OSS-120B (Offline) via multi-node deployments in MI355X. Partners reproduce scores at ±4% (sometimes ±1 %), covering four Instinct generations: MI300X, MI325X, MI350X and MI355X.
Performance, scale and model coverage
Generation vs generation: on Llama 2 70B Server, a MI355X reaches 100 282 tokens/s, or 3.1x the throughput previously submitted on MI325X. The gains come from the CDNAÂ 4Â + ROCm couple, the calculation density, the FP4/FP6 formats and the HBM3E.
Compétitivité simple nœud Llama 2 70B : par rapport à NVIDIA B200, la plateforme MI355X égalise en Offline, délivre 97 % en Server et 119 % en Interactive. Face à B300 : 93 % en Server, 92 % en Offline et 104 % en Interactive.
GPT-OSS-120B (première intégration MLPerf) : 111 % of B200 en Offline et 115 % en Server sur un nœud MI355X. Contre B300, 91 % en Offline et 82 % en Server.
Texte‑vers‑vidéo Wan‑2.2‑t2v (Single Stream, soumission Open mais conforme Closed) : 93 % de B200 et 87 % de B300 en officiel. Post-deadline (non vérifié MLCommons) : 108 % de B200 et parité B300 en Single Stream, 111 %/88 % en Offline.
Scalabilité multinœud Llama 2 70B : de 1 à 11 nœuds, proche de la linéarité. À 11 nœuds/87 MI355X : 1 042 110 tokens/s (Offline), 1 016 380 tokens/s (Server) et 785 522 tokens/s (Interactive). Efficacité : 93 % (Offline), 93 % (Server), 98 % (Interactive).
Scalability multinœud GPT‒OSS‒120B : à 12 nœuds/94 MI355X : 1 031 070 tokens/s (Offline) and 900 054 tokens/s (Server), with 92 % and 93 % of efficiency respectively. Deuxième modèle au‒delà de 1 million de tokens/s en multinœud.
Écosystème, hétérogénéité et ROCm
Nine partners submit on Instinct: Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro, Red Hat. MI355X partner results stick to ±4% of AMD figures, including on new loads, a guarantee of field reproducibility.
Première soumission hétérogène 3 GPU (MI300X + MI325X + MI355X, Dell + MangoBoost) : 141 521 tokens/s (Llama 2 70B Server) et 151 843 tokens/s (Offline). Particularité : MI355X aux USA (Dell), MI300X/MI325X en Corée, démontrant une orchestration inter‑géographies.
ROCm drives FP4 execution, GPU communications for multi-node scale, dynamic distribution in heterogeneous environments and rapid activation of models (Llama, Wan, GPT – OSS). The result: performance, scalability and flexibility across the entire portfolio Instinct.
Roadmap: MI300X (2023) laid the GenAI foundation, MI325X (2024) increased compute and HBM3E, the MI350 series including MI355X (2025) adds FP4/FP6 and more model capacity for inference. In 2026, AMD plans the MI400 under CDNAÂ 5 and the Helios rack-scale solution.
The approach combines a tangible jump in throughput and an increase in software maturity. Parity or near parity in single nodes, linearity in clusters and multi-OEM reproducibility reinforce the credibility of a serious alternative to high-volume LLM and multimodal deployments, with a particular interest in reducing the cost per token via efficiency of scale.
Source : TechPowerUp




