Talki Academy
Guide9 min de lecture

NVFP4 vs FP8 vs GGUF : quel format de quantization en production

Retour d'expérience : les 3 formats de service d'un LLM quantizé (GGUF/llama.cpp, FP8/vLLM, NVFP4/vLLM) comparés sur portabilité, débit, mémoire, stabilité. Pourquoi on a promu NVFP4 en prod sur Blackwell (GB10) le 02/06/2026, et quand GGUF ou FP8 restent le bon choix.

Par Talki Academy·Mis a jour le 4 juin 2026

Pour servir un LLM quantizé en production, trois familles de formats reviennent sans cesse : GGUF (llama.cpp), FP8 (vLLM, natif Blackwell/Hopper) et NVFP4 (vLLM, 4 bits). Ce n’est pas un « benchmark de l’année » : c’est le retour d’expérience de notre choix réel pour un nœud always-on, et surtout le raisonnement derrière.

Les trois formats

GGUF — la portabilité (llama.cpp)

GGUF est le format de llama.cpp. Sa force, c’est qu’il tourne presque partout : CPU pur, ROCm (AMD), Vulkan, Metal (Mac), avec offload CPU possible. Quantizations Q4_K_M, Q5_K_M, Q8… Simple à déployer, idéal sur du matériel hétérogène ou consumer. Contrepartie : à l’échelle, le débit plafonne (dequant côté CPU, moins optimal que les kernels GPU dédiés). Voir notre guide LLM local en production.

FP8 — le format data-center (vLLM)

Le FP8 (8 bits) bénéficie d’un support matériel natif sur Hopper et Blackwell. Sur GPU à mémoire dédiée, il offre un excellent compromis qualité/débit. Son talon d’Achille chez nous : sur la mémoire unifiée du GB10, il a fui (allocateur + workspace d’attention), au point qu’on l’a abandonné sur cette plateforme. Un échec spécifique à l’UMA, pas une condamnation du FP8.

NVFP4 — le 4 bits qui a gagné (vLLM + Marlin)

NVFP4 est le format 4 bits de NVIDIA, servi par vLLM avec les kernels Marlin. Sur Blackwell, il combine empreinte mémoire réduite et débit élevé. C’est le format que nous avons promu en production le 2 juin 2026, avec décodage spéculatif multi-token (MTP) et cache KV en FP8. À rapprocher de notre benchmark de quantization 4.75 bits.

Tableau comparatif (notre contexte Blackwell)

CritèreGGUFFP8NVFP4
Portabilité matérielle✅ Très large➖ Hopper/Blackwell➖ Blackwell
Débit à l’échelle➖ Plafonne✅ Élevé (mém. dédiée)✅ Le meilleur (Blackwell)
Empreinte mémoire✅ Faible➖ Plus lourde✅ Faible
Stabilité sur mémoire unifiée✅ OK❌ Fuite (chez nous)✅ Stable
Facilité de déploiement✅ Simple➖ vLLM➖ vLLM
Terrain de prédilectionConsumer / hétérogèneData-center mém. dédiéeBlackwell à l’échelle

Comment on a choisi

Notre contexte : un nœud GB10 (Blackwell, mémoire unifiée), always-on, volume soutenu. Trois essais en parallèle :

  • GGUF : fonctionnait, mais le débit plafonnait pour notre charge.
  • FP8 : fuyait sur la mémoire unifiée — abandonné après cinq tentatives. Voir notre retour d’expérience GB10.
  • NVFP4 : tenait le budget mémoire, restait stable, et délivrait le meilleur débit.
Config de production retenue (NVFP4, vLLM) : - quantization : NVFP4 (4 bits, kernels Marlin) - décodage spéculatif : MTP, n=3 - cache KV : FP8 - longueur de contexte max : 262144 - rollback prêt : bascule BF16 désactivée, réactivable Promu en production : 2026-06-02

« Le meilleur format » n’existe pas

Notre verdict NVFP4 vaut pour notre matériel Blackwell à l’échelle. Ailleurs, la réponse change :

  • Matériel consumer ou hétérogène (laptops, anciennes cartes, Mac) → GGUF reste le défaut pragmatique.
  • Data-center à mémoire dédiée (Hopper/Blackwell) → FP8 brille.
  • Blackwell à l’échelle, volume soutenu → NVFP4.

Le bon format est une fonction de votre matériel, de votre échelle et de votre compétence ops, pas une vérité universelle. Et il se valide sur un banc figé, avec votre modèle et votre charge réelle — voir notre benchmark LLM. C’est ce qui sépare une décision d’infrastructure défendable d’une intuition de format.

Formez votre equipe a l'IA

Nos formations sont financables OPCO — reste a charge potentiel : 0€.

Voir les formationsVerifier eligibilite OPCO