Pour servir un LLM quantizé en production, trois familles de formats reviennent sans cesse : GGUF (llama.cpp), FP8 (vLLM, natif Blackwell/Hopper) et NVFP4 (vLLM, 4 bits). Ce n’est pas un « benchmark de l’année » : c’est le retour d’expérience de notre choix réel pour un nœud always-on, et surtout le raisonnement derrière.
Les trois formats
GGUF — la portabilité (llama.cpp)
GGUF est le format de llama.cpp. Sa force, c’est qu’il tourne presque partout : CPU pur, ROCm (AMD), Vulkan, Metal (Mac), avec offload CPU possible. Quantizations Q4_K_M, Q5_K_M, Q8… Simple à déployer, idéal sur du matériel hétérogène ou consumer. Contrepartie : à l’échelle, le débit plafonne (dequant côté CPU, moins optimal que les kernels GPU dédiés). Voir notre guide LLM local en production.
FP8 — le format data-center (vLLM)
Le FP8 (8 bits) bénéficie d’un support matériel natif sur Hopper et Blackwell. Sur GPU à mémoire dédiée, il offre un excellent compromis qualité/débit. Son talon d’Achille chez nous : sur la mémoire unifiée du GB10, il a fui (allocateur + workspace d’attention), au point qu’on l’a abandonné sur cette plateforme. Un échec spécifique à l’UMA, pas une condamnation du FP8.
NVFP4 — le 4 bits qui a gagné (vLLM + Marlin)
NVFP4 est le format 4 bits de NVIDIA, servi par vLLM avec les kernels Marlin. Sur Blackwell, il combine empreinte mémoire réduite et débit élevé. C’est le format que nous avons promu en production le 2 juin 2026, avec décodage spéculatif multi-token (MTP) et cache KV en FP8. À rapprocher de notre benchmark de quantization 4.75 bits.
Tableau comparatif (notre contexte Blackwell)
| Critère | GGUF | FP8 | NVFP4 |
|---|---|---|---|
| Portabilité matérielle | ✅ Très large | ➖ Hopper/Blackwell | ➖ Blackwell |
| Débit à l’échelle | ➖ Plafonne | ✅ Élevé (mém. dédiée) | ✅ Le meilleur (Blackwell) |
| Empreinte mémoire | ✅ Faible | ➖ Plus lourde | ✅ Faible |
| Stabilité sur mémoire unifiée | ✅ OK | ❌ Fuite (chez nous) | ✅ Stable |
| Facilité de déploiement | ✅ Simple | ➖ vLLM | ➖ vLLM |
| Terrain de prédilection | Consumer / hétérogène | Data-center mém. dédiée | Blackwell à l’échelle |
Comment on a choisi
Notre contexte : un nœud GB10 (Blackwell, mémoire unifiée), always-on, volume soutenu. Trois essais en parallèle :
- GGUF : fonctionnait, mais le débit plafonnait pour notre charge.
- FP8 : fuyait sur la mémoire unifiée — abandonné après cinq tentatives. Voir notre retour d’expérience GB10.
- NVFP4 : tenait le budget mémoire, restait stable, et délivrait le meilleur débit.
« Le meilleur format » n’existe pas
Notre verdict NVFP4 vaut pour notre matériel Blackwell à l’échelle. Ailleurs, la réponse change :
- Matériel consumer ou hétérogène (laptops, anciennes cartes, Mac) → GGUF reste le défaut pragmatique.
- Data-center à mémoire dédiée (Hopper/Blackwell) → FP8 brille.
- Blackwell à l’échelle, volume soutenu → NVFP4.
Le bon format est une fonction de votre matériel, de votre échelle et de votre compétence ops, pas une vérité universelle. Et il se valide sur un banc figé, avec votre modèle et votre charge réelle — voir notre benchmark LLM. C’est ce qui sépare une décision d’infrastructure défendable d’une intuition de format.