NVFP4, FP8, GGUF : c’est quoi la différence en une phrase ?

GGUF est le format de llama.cpp : très portable (CPU, ROCm, Vulkan, Metal), idéal pour du matériel hétérogène ou consumer. FP8 est un format 8 bits servi par vLLM avec support matériel natif sur Hopper/Blackwell à mémoire dédiée. NVFP4 est le format 4 bits de NVIDIA servi par vLLM avec les kernels Marlin : meilleur débit et empreinte mémoire réduite sur Blackwell. Aucun n’est « le meilleur » dans l’absolu — ça dépend du matériel, de l’échelle et de vos compétences ops.

Pourquoi avoir choisi NVFP4 en production ?

Sur notre nœud always-on (GB10, Blackwell, mémoire unifiée), à volume soutenu, NVFP4 a gagné sur trois critères simultanés : il tient dans le budget mémoire, il reste stable dans la durée, et il délivre le meilleur débit (encore amélioré par le décodage spéculatif multi-token). Le FP8 fuyait sur cette mémoire unifiée ; le GGUF marchait mais plafonnait en débit. NVFP4 a été promu le 2 juin 2026.

GGUF est-il dépassé ?

Pas du tout. GGUF reste le choix par défaut le plus pragmatique sur du matériel hétérogène ou consumer : il tourne là où vLLM ne tourne pas (CPU pur, anciennes cartes, Metal sur Mac), et il est simple à déployer. Notre verdict NVFP4 vaut pour notre matériel Blackwell à l’échelle — pas pour un laptop ou une RTX d’il y a deux générations, où GGUF est souvent le bon outil.

Quand le FP8 est-il le bon choix ?

Sur du Blackwell ou Hopper à mémoire dédiée (data-center), le FP8 offre un excellent compromis qualité/débit avec un support matériel natif. Notre échec FP8 était spécifique à la mémoire unifiée du GB10 (une fuite via l’allocateur et le workspace d’attention), pas une condamnation du FP8 en général.

Comment décider sans se tromper ?

Mesurez sur un banc figé, avec votre modèle, votre matériel et votre charge réelle. Les fiches techniques et les benchmarks génériques ne prédisent pas le comportement sur votre mémoire, vos versions et votre profil de requêtes. La bonne décision d’infrastructure vient d’une mesure reproductible, pas d’une intuition de format.

NVFP4 vs FP8 vs GGUF : quel format pour servir un LLM en prod

Pour servir un LLM quantizé en production, trois familles de formats reviennent sans cesse : GGUF (llama.cpp), FP8 (vLLM, natif Blackwell/Hopper) et NVFP4 (vLLM, 4 bits). Ce n’est pas un « benchmark de l’année » : c’est le retour d’expérience de notre choix réel pour un nœud always-on, et surtout le raisonnement derrière.

Les trois formats

GGUF — la portabilité (llama.cpp)

GGUF est le format de llama.cpp. Sa force, c’est qu’il tourne presque partout : CPU pur, ROCm (AMD), Vulkan, Metal (Mac), avec offload CPU possible. Quantizations Q4_K_M, Q5_K_M, Q8… Simple à déployer, idéal sur du matériel hétérogène ou consumer. Contrepartie : à l’échelle, le débit plafonne (dequant côté CPU, moins optimal que les kernels GPU dédiés). Voir notre guide LLM local en production.

FP8 — le format data-center (vLLM)

Le FP8 (8 bits) bénéficie d’un support matériel natif sur Hopper et Blackwell. Sur GPU à mémoire dédiée, il offre un excellent compromis qualité/débit. Son talon d’Achille chez nous : sur la mémoire unifiée du GB10, il a fui (allocateur + workspace d’attention), au point qu’on l’a abandonné sur cette plateforme. Un échec spécifique à l’UMA, pas une condamnation du FP8.

NVFP4 — le 4 bits qui a gagné (vLLM + Marlin)

NVFP4 est le format 4 bits de NVIDIA, servi par vLLM avec les kernels Marlin. Sur Blackwell, il combine empreinte mémoire réduite et débit élevé. C’est le format que nous avons promu en production le 2 juin 2026, avec décodage spéculatif multi-token (MTP) et cache KV en FP8. À rapprocher de notre benchmark de quantization 4.75 bits.

Tableau comparatif (notre contexte Blackwell)

Critère	GGUF	FP8	NVFP4
Portabilité matérielle	✅ Très large	➖ Hopper/Blackwell	➖ Blackwell
Débit à l’échelle	➖ Plafonne	✅ Élevé (mém. dédiée)	✅ Le meilleur (Blackwell)
Empreinte mémoire	✅ Faible	➖ Plus lourde	✅ Faible
Stabilité sur mémoire unifiée	✅ OK	❌ Fuite (chez nous)	✅ Stable
Facilité de déploiement	✅ Simple	➖ vLLM	➖ vLLM
Terrain de prédilection	Consumer / hétérogène	Data-center mém. dédiée	Blackwell à l’échelle

Comment on a choisi

Notre contexte : un nœud GB10 (Blackwell, mémoire unifiée), always-on, volume soutenu. Trois essais en parallèle :

GGUF : fonctionnait, mais le débit plafonnait pour notre charge.
FP8 : fuyait sur la mémoire unifiée — abandonné après cinq tentatives. Voir notre retour d’expérience GB10.
NVFP4 : tenait le budget mémoire, restait stable, et délivrait le meilleur débit.

Config de production retenue (NVFP4, vLLM) :
  - quantization : NVFP4 (4 bits, kernels Marlin)
  - décodage spéculatif : MTP, n=3
  - cache KV : FP8
  - longueur de contexte max : 262144
  - rollback prêt : bascule BF16 désactivée, réactivable

Promu en production : 2026-06-02

« Le meilleur format » n’existe pas

Notre verdict NVFP4 vaut pour notre matériel Blackwell à l’échelle. Ailleurs, la réponse change :

Matériel consumer ou hétérogène (laptops, anciennes cartes, Mac) → GGUF reste le défaut pragmatique.
Data-center à mémoire dédiée (Hopper/Blackwell) → FP8 brille.
Blackwell à l’échelle, volume soutenu → NVFP4.

Le bon format est une fonction de votre matériel, de votre échelle et de votre compétence ops, pas une vérité universelle. Et il se valide sur un banc figé, avec votre modèle et votre charge réelle — voir notre benchmark LLM. C’est ce qui sépare une décision d’infrastructure défendable d’une intuition de format.

NVFP4 vs FP8 vs GGUF : quel format de quantization en production