Talki Academy
Avancé

Optimisation de l'Inférence et du Serving LLM2 jours

Formation L300 — Avancé. Servir un LLM en production coûte cher et reste lent si l'on ne comprend pas ce qui se passe sous le capot. Cette formation technique démonte la mécanique de l'inférence — pourquoi elle est limitée par la mémoire, comment le KV-cache grossit, où part réellement la VRAM — puis vous outille pour l'optimiser : quantization (GPTQ, AWQ, GGUF, FP8), batching continu et PagedAttention avec vLLM, décodage spéculatif, Mixture-of-Experts et gestion du long contexte (RoPE/YaRN). Vous repartez avec des benchmarks reproductibles et une méthode de choix de framework de serving.

Inclus dans l'abonnement — 9,99 €/mois sans engagement
2 jours
14h de formation
4 modules
Max 12 participants
InférencevLLMQuantizationPerformance
Abonnement plateforme
9,99 €/mois
Donne acces a toutes les formationsde la plateforme · Sans engagement
Prochaine session : Sur demande
S’abonner — 9,99 €/mois
Acces illimite a toutes les formations
Nouveaux contenus chaque mois
Resiliable a tout moment

AI Act : la formation IA devient obligatoire avant le 2 aout 2026

Anticipez la mise en conformite de votre entreprise. Voir nos formations

Ce que vous allez construire et apprendre

Des competences immediatement applicables dans votre contexte professionnel

  • Expliquer pourquoi l'inférence LLM est limitée par la bande passante mémoire (memory-bound)
  • Calculer la VRAM requise (poids + KV-cache) et anticiper l'impact de la longueur de contexte
  • Choisir et appliquer une méthode de quantization (GPTQ, AWQ, GGUF, FP8) selon l'arbitrage qualité/vitesse
  • Mettre en place un serving haute performance avec batching continu et PagedAttention (vLLM)
  • Évaluer le gain du décodage spéculatif et comprendre l'intérêt des architectures Mixture-of-Experts
  • Benchmarker rigoureusement un déploiement : TTFT, tokens/seconde, throughput sous charge

Programme detaille

4 modules · 14h de formation intensive

01Économie de l'inférence : VRAM, attention et KV-cache
3h30
  • Pourquoi l'inférence est memory-bound : bande passante mémoire vs puissance de calcul
  • Le mécanisme d'attention et le KV-cache : ce qui est stocké et pourquoi il grossit avec le contexte
  • Calcul de la VRAM : poids du modèle + KV-cache (formule et tableau de référence)
  • Mesurer ce qui compte : TTFT (time-to-first-token), TPS (tokens/seconde), throughput
  • Atelier : estimer la VRAM et la latence d'un modèle 7B/13B selon la longueur de contexte
02Quantization : réduire la taille sans casser la qualité
3h30
  • Formats : INT8, INT4, FP8, NF4 — quantifier les poids et/ou les activations
  • Méthodes : GPTQ, AWQ, GGUF (llama.cpp), bitsandbytes — différences et cas d'usage
  • Arbitrage qualité / taille / vitesse et sensibilité selon l'architecture du modèle
  • Atelier : quantifier un modèle, mesurer la dégradation de qualité et le gain de VRAM/latence
03Serving haute performance : batching continu et PagedAttention
3h30
  • Batching continu (continuous batching) vs batching statique : pourquoi le throughput est multiplié
  • PagedAttention et la gestion mémoire du KV-cache dans vLLM
  • Choisir son framework : vLLM, TGI, SGLang, llama.cpp — forces et compromis
  • Atelier : déployer un modèle avec vLLM et benchmarker le throughput sous charge concurrente
04Techniques avancées : décodage spéculatif, MoE et long contexte
3h30
  • Décodage spéculatif : un petit modèle « draft » propose plusieurs tokens vérifiés en une étape
  • Mixture-of-Experts (MoE) : activation sparse et pourquoi cela passe à l'échelle
  • FlashAttention : optimiser l'empreinte mémoire du calcul d'attention
  • Long contexte : RoPE, YaRN et le coût réel d'un contexte étendu
  • Atelier : activer le décodage spéculatif et mesurer le gain de latence end-to-end

Programme détaillé par demi-journée

4 demi-journées · 14h de formation

01
Demi-journée 1 — Économie de l'inférence : VRAM, attention et KV-cache
Objectif : Diagnostiquer où partent la VRAM et la latence d'un LLM en inférence et mesurer les bonnes métriques
3h30
  • Inférence memory-bound : pourquoi la bande passante mémoire, et non la puissance de calcul brute, est le facteur limitant
  • Phases prefill et decode : pourquoi le premier token (TTFT) et les suivants (TPS) n'ont pas le même profil
  • Le KV-cache : ce qui est stocké à chaque token, et pourquoi sa taille croît linéairement avec le contexte et le batch
  • Formule de VRAM : poids du modèle (taille × précision) + KV-cache — tableau de référence par taille de modèle
  • Métriques de production : TTFT, TPS, throughput (requêtes/seconde) et leur lien avec l'expérience utilisateur
Cas pratiqueAtelier : pour un modèle 7B et un 13B, estimer la VRAM requise et la latence attendue à 2k, 8k et 32k tokens de contexte. Vérifier les estimations sur GPU et comparer aux mesures réelles.
Evaluation : Quiz d'ancrage (10 questions) : identifier le goulot d'étranglement (mémoire, calcul, KV-cache) d'un scénario d'inférence donné
02
Demi-journée 2 — Quantization : réduire la taille sans casser la qualité
Objectif : Choisir et appliquer une méthode de quantization adaptée à un modèle et à des contraintes de production
3h30
  • Précisions : FP16, INT8, FP8, INT4, NF4 — ce que l'on perd et ce que l'on gagne
  • Quantifier les poids vs les activations : impact sur la qualité et la compatibilité matérielle
  • Méthodes : GPTQ et AWQ (post-training, orientés GPU), GGUF (llama.cpp, CPU/GPU), bitsandbytes
  • Sensibilité par architecture : pourquoi un même schéma de quantization ne dégrade pas tous les modèles de la même manière
  • Méthode d'évaluation : mesurer la dégradation avec une suite de tests représentative, pas seulement la perplexité
Cas pratiqueAtelier : quantifier un même modèle en INT4 (GPTQ/AWQ) et en GGUF, puis comparer qualité (suite de tests), empreinte VRAM et latence. Décider du meilleur compromis pour un cas de production donné.
Evaluation : Quiz d'ancrage (10 questions) : choisir le format et la méthode de quantization selon les contraintes (VRAM, qualité, matériel)
03
Demi-journée 3 — Serving haute performance : batching continu et PagedAttention
Objectif : Déployer un modèle avec un framework de serving haute performance et benchmarker son throughput sous charge
3h30
  • Batching statique vs batching continu (continuous batching) : pourquoi le second multiplie le throughput en charge réelle
  • PagedAttention : gérer le KV-cache comme de la mémoire paginée pour éviter la fragmentation (vLLM)
  • Panorama des frameworks : vLLM, Text Generation Inference (TGI), SGLang, llama.cpp — critères de choix
  • Compatibilité API OpenAI, streaming, et intégration avec une passerelle (gateway)
  • Méthodologie de benchmark : charge concurrente, percentiles de latence (p50/p95), throughput soutenu
Cas pratiqueAtelier : déployer un modèle avec vLLM, exposer une API compatible OpenAI, puis benchmarker le throughput et les latences p50/p95 sous charge concurrente croissante. Comparer à un serving naïf.
Evaluation : Quiz d'ancrage (10 questions) : choisir le framework de serving et la configuration de batching adaptés à un profil de charge
04
Demi-journée 4 — Techniques avancées : décodage spéculatif, MoE et long contexte
Objectif : Évaluer les techniques d'accélération avancées et la gestion du long contexte pour un cas d'usage concret
3h30
  • Décodage spéculatif : un modèle « draft » propose plusieurs tokens, vérifiés en une seule passe du grand modèle — conditions de gain réel
  • Mixture-of-Experts (MoE) : activation sparse des experts, intérêt en throughput et limites en VRAM
  • FlashAttention : réduire l'empreinte mémoire et accélérer le calcul d'attention
  • Long contexte : RoPE, extrapolation par YaRN, et le coût (VRAM, latence) d'un contexte étendu
  • Synthèse : assembler quantization + batching + accélération en une stratégie de serving cohérente
Cas pratiqueProjet de synthèse : optimiser le serving d'un modèle de bout en bout (quantization + vLLM + décodage spéculatif) et documenter les gains mesurés (VRAM, TTFT, TPS, coût par million de tokens) dans un mini-rapport reproductible.
Evaluation : Quiz final récapitulatif (15 questions) : valider l'ensemble — diagnostic, quantization, serving, accélération

Public cible et prérequis

Ce programme est fait pour vous si vous êtes

  • Développeurs et ML engineers servant des LLM en production
  • Tech leads et architectes évaluant les coûts d'inférence et le choix d'infrastructure
  • Ingénieurs plateforme / MLOps responsables du déploiement de modèles
  • Équipes en souveraineté/on-premise cherchant à maximiser un parc GPU limité

Prérequis détaillés

Niveau : Expertise
  • Maîtriser Python à un niveau intermédiaire et être à l'aise en ligne de commande Linux
  • Comprendre l'architecture Transformer et le fonctionnement général d'un LLM (formation L100 recommandée)
  • Avoir déjà déployé ou appelé un LLM (API ou local) au moins une fois

Modalités pédagogiques et moyens

Approche pédagogique

  • Formation structurée autour du transfert de compétences opérationnelles
  • Apprentissage par la pratique : chaque concept est suivi d'un benchmark ou d'un atelier appliqué
  • Apprentissage collaboratif : échanges entre pairs développeurs et ingénieurs MLOps
  • Parcours progressif en 4 demi-journées avec montée en compétence graduelle
  • Alternance théorie (30%) / pratique sur GPU (70%)

Moyens et ressources fournis

  • Plateforme e-learning Talki Academy avec accès post-formation (6 mois)
  • GPU cloud fournis pour toute la durée de la formation (quota suffisant pour tous les ateliers)
  • Environnement sandbox préconfiguré : vLLM, llama.cpp, outils de quantization (GPTQ/AWQ/GGUF)
  • Support de cours PDF téléchargeable avec exemples de code et formules de dimensionnement
  • Dépôt GitHub privé avec les notebooks de benchmark et les configurations de serving

Évaluation et suivi

Modalités d'évaluation

  • Auto-positionnement en amont de la formation (questionnaire technique en ligne)
  • Quiz d'évaluation à la fin de chaque module (4 quiz, seuil de réussite : 70%)
  • Cas pratique fil rouge : optimiser le serving d'un modèle et documenter les gains mesurés
  • Auto-évaluation des compétences acquises en fin de formation
  • Évaluation à froid à 60 jours : questionnaire de transfert des acquis en situation de travail

Accompagnement

Assistance technique et pédagogique joignable entre 9h et 18h (jours ouvrés) par email à support@talki-academy.fr. Réponse sous 24h ouvrées. Accès au forum communautaire des apprenants.

Accessibilité

Formation accessible aux personnes en situation de handicap. Contactez-nous à accessibilite@talki-academy.fr pour étudier les adaptations nécessaires (supports, rythme, outils).

Parcours apprenant avant et après la formation

Avant la formation

Engagement apprenant

En amont de la formation : connectez-vous à votre espace apprenant pour compléter le questionnaire de positionnement et configurer votre accès GPU. Votre formateur recevra vos objectifs de progression personnalisés.

Après la formation

Transfert de compétences

À l'issue de la formation : accédez à vos ressources, auto-évaluez vos compétences acquises et retrouvez votre dépôt GitHub avec les notebooks de benchmark. Un point de suivi individuel est proposé à J+30.

Pour qui est cette formation ?

Profils vises

Développeurs
Avancé14h · 12 personnes max

Prerequis

  • Python niveau intermédiaire et aisance en ligne de commande Linux
  • Notions sur l'architecture Transformer et le fonctionnement d'un LLM (formation L100 'Comprendre les LLM de A à Z' recommandée)
  • Avoir déjà déployé ou appelé un LLM (API ou local) au moins une fois

Modalites

Format
Présentiel ou distanciel — groupe de 6 à 12 personnes
Duree
2 jours (14h)
Prochaine session
Sur demande
Certification
Attestation de formation + accès au dépôt de code et aux notebooks de benchmark

Financement

Reste à charge potentiel : 0€

Nos formations sont éligibles à la prise en charge OPCO dans le cadre du plan de développement des compétences. Selon votre OPCO (ATLAS, OPCO2i, AFDAS, AKTO...), la formation peut être financée à 100%.

  • Nous gérons les démarches administratives OPCO
  • Convention de formation et programme fournis
  • Attestation officielle en fin de formation
  • Déductible en charges pour votre entreprise
Prochaine session : Sur demande

Optimisation de l'Inférence et du Serving LLM

Abonnement plateforme
9,99 €/mois
Acces a toutes les formations de la plateforme
Pas par formation · Sans engagement, resiliable a tout moment
  • 2 jours intensifs
  • 12 participants max
  • Livrables production-ready
  • Support post-formation 30 jours

* Dans le cadre du plan de développement des compétences. Consultez votre OPCO.

Prochaine session disponible

Session en Sur demande. Places limitees a 12 participants.

Optimisation de l'Inférence et du Serving LLM
Sur demande · 2 jours· Inclus dans l'abonnement
S’abonner — 9,99 €/moisDemander un devis
Solutions Entreprises & Grands Groupes

Besoin d'un accompagnement sur mesure ?

Au-delà de la formation, notre agence accompagne les entreprises (TPE, PME, Grands Comptes) dans l'audit, le design et le déploiement d'infrastructures IA souveraines (Local LLM, SLM, Edge).

Réserver un Audit IADécouvrir nos services Agence

Financement OPCO

Vérifiez votre éligibilité OPCO en 30 secondes

Nous vérifions votre éligibilité et vous rappelons sous 24h avec les démarches complètes. La formation peut être intégralement prise en charge.

Aidez-nous à mieux vous orienter (optionnel)

Conformément au RGPD, vos données sont traitées uniquement pour la gestion de votre demande et l'envoi d'informations si vous y consentez. Vous pouvez vous désabonner à tout moment via le lien présent dans chaque email. Plus d'infos : Politique de confidentialité