Avancé

Optimisation de l'Inférence et du Serving LLM — 2 jours

Formation L300 — Avancé. Servir un LLM en production coûte cher et reste lent si l'on ne comprend pas ce qui se passe sous le capot. Cette formation technique démonte la mécanique de l'inférence — pourquoi elle est limitée par la mémoire, comment le KV-cache grossit, où part réellement la VRAM — puis vous outille pour l'optimiser : quantization (GPTQ, AWQ, GGUF, FP8), batching continu et PagedAttention avec vLLM, décodage spéculatif, Mixture-of-Experts et gestion du long contexte (RoPE/YaRN). Vous repartez avec des benchmarks reproductibles et une méthode de choix de framework de serving.

✓Inclus dans l'abonnement — 9,99 €/mois sans engagement

S’abonner — 9,99 €/mois

2 jours

14h de formation

4 modules

Max 12 participants

InférencevLLMQuantizationPerformance

Abonnement plateforme

9,99 €/mois

Donne acces a toutes les formationsde la plateforme · Sans engagement

Prochaine session : Sur demande

S’abonner — 9,99 €/mois

✓Acces illimite a toutes les formations

✓Nouveaux contenus chaque mois

✓Resiliable a tout moment

AI Act : la formation IA devient obligatoire avant le 2 aout 2026

Anticipez la mise en conformite de votre entreprise. Voir nos formations

Ce que vous allez construire et apprendre

Des competences immediatement applicables dans votre contexte professionnel

✓Expliquer pourquoi l'inférence LLM est limitée par la bande passante mémoire (memory-bound)
✓Calculer la VRAM requise (poids + KV-cache) et anticiper l'impact de la longueur de contexte
✓Choisir et appliquer une méthode de quantization (GPTQ, AWQ, GGUF, FP8) selon l'arbitrage qualité/vitesse
✓Mettre en place un serving haute performance avec batching continu et PagedAttention (vLLM)
✓Évaluer le gain du décodage spéculatif et comprendre l'intérêt des architectures Mixture-of-Experts
✓Benchmarker rigoureusement un déploiement : TTFT, tokens/seconde, throughput sous charge

Programme detaille

4 modules · 14h de formation intensive

01Économie de l'inférence : VRAM, attention et KV-cache

3h30

●Pourquoi l'inférence est memory-bound : bande passante mémoire vs puissance de calcul
●Le mécanisme d'attention et le KV-cache : ce qui est stocké et pourquoi il grossit avec le contexte
●Calcul de la VRAM : poids du modèle + KV-cache (formule et tableau de référence)
●Mesurer ce qui compte : TTFT (time-to-first-token), TPS (tokens/seconde), throughput
●Atelier : estimer la VRAM et la latence d'un modèle 7B/13B selon la longueur de contexte

02Quantization : réduire la taille sans casser la qualité

3h30

●Formats : INT8, INT4, FP8, NF4 — quantifier les poids et/ou les activations
●Méthodes : GPTQ, AWQ, GGUF (llama.cpp), bitsandbytes — différences et cas d'usage
●Arbitrage qualité / taille / vitesse et sensibilité selon l'architecture du modèle
●Atelier : quantifier un modèle, mesurer la dégradation de qualité et le gain de VRAM/latence

03Serving haute performance : batching continu et PagedAttention

3h30

●Batching continu (continuous batching) vs batching statique : pourquoi le throughput est multiplié
●PagedAttention et la gestion mémoire du KV-cache dans vLLM
●Choisir son framework : vLLM, TGI, SGLang, llama.cpp — forces et compromis
●Atelier : déployer un modèle avec vLLM et benchmarker le throughput sous charge concurrente

04Techniques avancées : décodage spéculatif, MoE et long contexte

3h30

●Décodage spéculatif : un petit modèle « draft » propose plusieurs tokens vérifiés en une étape
●Mixture-of-Experts (MoE) : activation sparse et pourquoi cela passe à l'échelle
●FlashAttention : optimiser l'empreinte mémoire du calcul d'attention
●Long contexte : RoPE, YaRN et le coût réel d'un contexte étendu
●Atelier : activer le décodage spéculatif et mesurer le gain de latence end-to-end

Programme détaillé par demi-journée

4 demi-journées · 14h de formation

Demi-journée 1 — Économie de l'inférence : VRAM, attention et KV-cache

Objectif : Diagnostiquer où partent la VRAM et la latence d'un LLM en inférence et mesurer les bonnes métriques

3h30

●Inférence memory-bound : pourquoi la bande passante mémoire, et non la puissance de calcul brute, est le facteur limitant
●Phases prefill et decode : pourquoi le premier token (TTFT) et les suivants (TPS) n'ont pas le même profil
●Le KV-cache : ce qui est stocké à chaque token, et pourquoi sa taille croît linéairement avec le contexte et le batch
●Formule de VRAM : poids du modèle (taille × précision) + KV-cache — tableau de référence par taille de modèle
●Métriques de production : TTFT, TPS, throughput (requêtes/seconde) et leur lien avec l'expérience utilisateur

Cas pratiqueAtelier : pour un modèle 7B et un 13B, estimer la VRAM requise et la latence attendue à 2k, 8k et 32k tokens de contexte. Vérifier les estimations sur GPU et comparer aux mesures réelles.

Evaluation : Quiz d'ancrage (10 questions) : identifier le goulot d'étranglement (mémoire, calcul, KV-cache) d'un scénario d'inférence donné

Demi-journée 2 — Quantization : réduire la taille sans casser la qualité

Objectif : Choisir et appliquer une méthode de quantization adaptée à un modèle et à des contraintes de production

3h30

●Précisions : FP16, INT8, FP8, INT4, NF4 — ce que l'on perd et ce que l'on gagne
●Quantifier les poids vs les activations : impact sur la qualité et la compatibilité matérielle
●Méthodes : GPTQ et AWQ (post-training, orientés GPU), GGUF (llama.cpp, CPU/GPU), bitsandbytes
●Sensibilité par architecture : pourquoi un même schéma de quantization ne dégrade pas tous les modèles de la même manière
●Méthode d'évaluation : mesurer la dégradation avec une suite de tests représentative, pas seulement la perplexité

Cas pratiqueAtelier : quantifier un même modèle en INT4 (GPTQ/AWQ) et en GGUF, puis comparer qualité (suite de tests), empreinte VRAM et latence. Décider du meilleur compromis pour un cas de production donné.

Evaluation : Quiz d'ancrage (10 questions) : choisir le format et la méthode de quantization selon les contraintes (VRAM, qualité, matériel)

Demi-journée 3 — Serving haute performance : batching continu et PagedAttention

Objectif : Déployer un modèle avec un framework de serving haute performance et benchmarker son throughput sous charge

3h30

●Batching statique vs batching continu (continuous batching) : pourquoi le second multiplie le throughput en charge réelle
●PagedAttention : gérer le KV-cache comme de la mémoire paginée pour éviter la fragmentation (vLLM)
●Panorama des frameworks : vLLM, Text Generation Inference (TGI), SGLang, llama.cpp — critères de choix
●Compatibilité API OpenAI, streaming, et intégration avec une passerelle (gateway)
●Méthodologie de benchmark : charge concurrente, percentiles de latence (p50/p95), throughput soutenu

Cas pratiqueAtelier : déployer un modèle avec vLLM, exposer une API compatible OpenAI, puis benchmarker le throughput et les latences p50/p95 sous charge concurrente croissante. Comparer à un serving naïf.

Evaluation : Quiz d'ancrage (10 questions) : choisir le framework de serving et la configuration de batching adaptés à un profil de charge

Demi-journée 4 — Techniques avancées : décodage spéculatif, MoE et long contexte

Objectif : Évaluer les techniques d'accélération avancées et la gestion du long contexte pour un cas d'usage concret

3h30

●Décodage spéculatif : un modèle « draft » propose plusieurs tokens, vérifiés en une seule passe du grand modèle — conditions de gain réel
●Mixture-of-Experts (MoE) : activation sparse des experts, intérêt en throughput et limites en VRAM
●FlashAttention : réduire l'empreinte mémoire et accélérer le calcul d'attention
●Long contexte : RoPE, extrapolation par YaRN, et le coût (VRAM, latence) d'un contexte étendu
●Synthèse : assembler quantization + batching + accélération en une stratégie de serving cohérente

Cas pratiqueProjet de synthèse : optimiser le serving d'un modèle de bout en bout (quantization + vLLM + décodage spéculatif) et documenter les gains mesurés (VRAM, TTFT, TPS, coût par million de tokens) dans un mini-rapport reproductible.

Evaluation : Quiz final récapitulatif (15 questions) : valider l'ensemble — diagnostic, quantization, serving, accélération

Public cible et prérequis

Ce programme est fait pour vous si vous êtes

✓Développeurs et ML engineers servant des LLM en production
✓Tech leads et architectes évaluant les coûts d'inférence et le choix d'infrastructure
✓Ingénieurs plateforme / MLOps responsables du déploiement de modèles
✓Équipes en souveraineté/on-premise cherchant à maximiser un parc GPU limité

Prérequis détaillés

Niveau : Expertise

●Maîtriser Python à un niveau intermédiaire et être à l'aise en ligne de commande Linux
●Comprendre l'architecture Transformer et le fonctionnement général d'un LLM (formation L100 recommandée)
●Avoir déjà déployé ou appelé un LLM (API ou local) au moins une fois

Modalités pédagogiques et moyens

Approche pédagogique

●Formation structurée autour du transfert de compétences opérationnelles
●Apprentissage par la pratique : chaque concept est suivi d'un benchmark ou d'un atelier appliqué
●Apprentissage collaboratif : échanges entre pairs développeurs et ingénieurs MLOps
●Parcours progressif en 4 demi-journées avec montée en compétence graduelle
●Alternance théorie (30%) / pratique sur GPU (70%)

Moyens et ressources fournis

✓Plateforme e-learning Talki Academy avec accès post-formation (6 mois)
✓GPU cloud fournis pour toute la durée de la formation (quota suffisant pour tous les ateliers)
✓Environnement sandbox préconfiguré : vLLM, llama.cpp, outils de quantization (GPTQ/AWQ/GGUF)
✓Support de cours PDF téléchargeable avec exemples de code et formules de dimensionnement
✓Dépôt GitHub privé avec les notebooks de benchmark et les configurations de serving

Évaluation et suivi

Modalités d'évaluation

●Auto-positionnement en amont de la formation (questionnaire technique en ligne)
●Quiz d'évaluation à la fin de chaque module (4 quiz, seuil de réussite : 70%)
●Cas pratique fil rouge : optimiser le serving d'un modèle et documenter les gains mesurés
●Auto-évaluation des compétences acquises en fin de formation
●Évaluation à froid à 60 jours : questionnaire de transfert des acquis en situation de travail

Accompagnement

Assistance technique et pédagogique joignable entre 9h et 18h (jours ouvrés) par email à support@talki-academy.fr. Réponse sous 24h ouvrées. Accès au forum communautaire des apprenants.

☉

Accessibilité

Formation accessible aux personnes en situation de handicap. Contactez-nous à accessibilite@talki-academy.fr pour étudier les adaptations nécessaires (supports, rythme, outils).

Parcours apprenant avant et après la formation

Avant la formation

Engagement apprenant

En amont de la formation : connectez-vous à votre espace apprenant pour compléter le questionnaire de positionnement et configurer votre accès GPU. Votre formateur recevra vos objectifs de progression personnalisés.

Après la formation

Transfert de compétences

À l'issue de la formation : accédez à vos ressources, auto-évaluez vos compétences acquises et retrouvez votre dépôt GitHub avec les notebooks de benchmark. Un point de suivi individuel est proposé à J+30.

Pour qui est cette formation ?

Profils vises

✓Développeurs

Avancé14h · 12 personnes max

Prerequis

●Python niveau intermédiaire et aisance en ligne de commande Linux
●Notions sur l'architecture Transformer et le fonctionnement d'un LLM (formation L100 'Comprendre les LLM de A à Z' recommandée)
●Avoir déjà déployé ou appelé un LLM (API ou local) au moins une fois

Modalites

Format

Présentiel ou distanciel — groupe de 6 à 12 personnes

Duree

2 jours (14h)

Prochaine session

Sur demande

Certification

Attestation de formation + accès au dépôt de code et aux notebooks de benchmark

Financement

Reste à charge potentiel : 0€

Nos formations sont éligibles à la prise en charge OPCO dans le cadre du plan de développement des compétences. Selon votre OPCO (ATLAS, OPCO2i, AFDAS, AKTO...), la formation peut être financée à 100%.

✓Nous gérons les démarches administratives OPCO
✓Convention de formation et programme fournis
✓Attestation officielle en fin de formation
✓Déductible en charges pour votre entreprise

Prochaine session : Sur demande

Optimisation de l'Inférence et du Serving LLM

Abonnement plateforme

9,99 €/mois

Acces a toutes les formations de la plateforme

Pas par formation · Sans engagement, resiliable a tout moment

✓2 jours intensifs
✓12 participants max
✓Livrables production-ready
✓Support post-formation 30 jours

S’abonner — 9,99 €/mois Vérifier mon éligibilité OPCO

* Dans le cadre du plan de développement des compétences. Consultez votre OPCO.

Prochaine session disponible

Session en Sur demande. Places limitees a 12 participants.

⚡

Optimisation de l'Inférence et du Serving LLM

Sur demande · 2 jours· Inclus dans l'abonnement

S’abonner — 9,99 €/mois Demander un devis

Solutions Entreprises & Grands Groupes

Besoin d'un accompagnement sur mesure ?

Au-delà de la formation, notre agence accompagne les entreprises (TPE, PME, Grands Comptes) dans l'audit, le design et le déploiement d'infrastructures IA souveraines (Local LLM, SLM, Edge).

Réserver un Audit IA Découvrir nos services Agence

Decouvrez aussi nos autres formations

Toutes incluses dans votre abonnement a 9,99 €/mois

⚙️

Claude API

Maîtrisez l'API Claude de la première requête à la mise en production

3 joursIntermédiaireDéveloppeurs

Inclus dans l'abonnement

🚀

IA Entrepreneurs

Boostez votre productivité avec un assistant IA personnalisé

2 joursDébutantEntrepreneurs

Inclus dans l'abonnement

🛡️

Gouvernance IA

Conformité RGPD, éthique et bonnes pratiques pour déployer l'IA

1 jourDébutantManagers

Inclus dans l'abonnement

Voir toutes les formations

Financement OPCO

Vérifiez votre éligibilité OPCO en 30 secondes

Nous vérifions votre éligibilité et vous rappelons sous 24h avec les démarches complètes. La formation peut être intégralement prise en charge.

Nom complet *

Email professionnel *

Entreprise

Votre OPCO

Aidez-nous à mieux vous orienter (optionnel)

Taille de l'entreprise

Budget estimé

J'accepte de recevoir des informations sur les formations Talki Academy (newsletter, nouveautés, offres spéciales)

Conformément au RGPD, vos données sont traitées uniquement pour la gestion de votre demande et l'envoi d'informations si vous y consentez. Vous pouvez vous désabonner à tout moment via le lien présent dans chaque email. Plus d'infos : Politique de confidentialité