Optimisation de l'Inférence et du Serving LLM — 2 jours
Formation L300 — Avancé. Servir un LLM en production coûte cher et reste lent si l'on ne comprend pas ce qui se passe sous le capot. Cette formation technique démonte la mécanique de l'inférence — pourquoi elle est limitée par la mémoire, comment le KV-cache grossit, où part réellement la VRAM — puis vous outille pour l'optimiser : quantization (GPTQ, AWQ, GGUF, FP8), batching continu et PagedAttention avec vLLM, décodage spéculatif, Mixture-of-Experts et gestion du long contexte (RoPE/YaRN). Vous repartez avec des benchmarks reproductibles et une méthode de choix de framework de serving.
AI Act : la formation IA devient obligatoire avant le 2 aout 2026
Anticipez la mise en conformite de votre entreprise. Voir nos formations
Ce que vous allez construire et apprendre
Des competences immediatement applicables dans votre contexte professionnel
- ✓Expliquer pourquoi l'inférence LLM est limitée par la bande passante mémoire (memory-bound)
- ✓Calculer la VRAM requise (poids + KV-cache) et anticiper l'impact de la longueur de contexte
- ✓Choisir et appliquer une méthode de quantization (GPTQ, AWQ, GGUF, FP8) selon l'arbitrage qualité/vitesse
- ✓Mettre en place un serving haute performance avec batching continu et PagedAttention (vLLM)
- ✓Évaluer le gain du décodage spéculatif et comprendre l'intérêt des architectures Mixture-of-Experts
- ✓Benchmarker rigoureusement un déploiement : TTFT, tokens/seconde, throughput sous charge
Programme detaille
4 modules · 14h de formation intensive
Programme détaillé par demi-journée
4 demi-journées · 14h de formation
Public cible et prérequis
Ce programme est fait pour vous si vous êtes
- ✓Développeurs et ML engineers servant des LLM en production
- ✓Tech leads et architectes évaluant les coûts d'inférence et le choix d'infrastructure
- ✓Ingénieurs plateforme / MLOps responsables du déploiement de modèles
- ✓Équipes en souveraineté/on-premise cherchant à maximiser un parc GPU limité
Prérequis détaillés
- ●Maîtriser Python à un niveau intermédiaire et être à l'aise en ligne de commande Linux
- ●Comprendre l'architecture Transformer et le fonctionnement général d'un LLM (formation L100 recommandée)
- ●Avoir déjà déployé ou appelé un LLM (API ou local) au moins une fois
Modalités pédagogiques et moyens
Approche pédagogique
- ●Formation structurée autour du transfert de compétences opérationnelles
- ●Apprentissage par la pratique : chaque concept est suivi d'un benchmark ou d'un atelier appliqué
- ●Apprentissage collaboratif : échanges entre pairs développeurs et ingénieurs MLOps
- ●Parcours progressif en 4 demi-journées avec montée en compétence graduelle
- ●Alternance théorie (30%) / pratique sur GPU (70%)
Moyens et ressources fournis
- ✓Plateforme e-learning Talki Academy avec accès post-formation (6 mois)
- ✓GPU cloud fournis pour toute la durée de la formation (quota suffisant pour tous les ateliers)
- ✓Environnement sandbox préconfiguré : vLLM, llama.cpp, outils de quantization (GPTQ/AWQ/GGUF)
- ✓Support de cours PDF téléchargeable avec exemples de code et formules de dimensionnement
- ✓Dépôt GitHub privé avec les notebooks de benchmark et les configurations de serving
Évaluation et suivi
Modalités d'évaluation
- ●Auto-positionnement en amont de la formation (questionnaire technique en ligne)
- ●Quiz d'évaluation à la fin de chaque module (4 quiz, seuil de réussite : 70%)
- ●Cas pratique fil rouge : optimiser le serving d'un modèle et documenter les gains mesurés
- ●Auto-évaluation des compétences acquises en fin de formation
- ●Évaluation à froid à 60 jours : questionnaire de transfert des acquis en situation de travail
Accompagnement
Assistance technique et pédagogique joignable entre 9h et 18h (jours ouvrés) par email à support@talki-academy.fr. Réponse sous 24h ouvrées. Accès au forum communautaire des apprenants.
Formation accessible aux personnes en situation de handicap. Contactez-nous à accessibilite@talki-academy.fr pour étudier les adaptations nécessaires (supports, rythme, outils).
Parcours apprenant avant et après la formation
Engagement apprenant
En amont de la formation : connectez-vous à votre espace apprenant pour compléter le questionnaire de positionnement et configurer votre accès GPU. Votre formateur recevra vos objectifs de progression personnalisés.
Transfert de compétences
À l'issue de la formation : accédez à vos ressources, auto-évaluez vos compétences acquises et retrouvez votre dépôt GitHub avec les notebooks de benchmark. Un point de suivi individuel est proposé à J+30.
Pour qui est cette formation ?
Profils vises
Prerequis
- ●Python niveau intermédiaire et aisance en ligne de commande Linux
- ●Notions sur l'architecture Transformer et le fonctionnement d'un LLM (formation L100 'Comprendre les LLM de A à Z' recommandée)
- ●Avoir déjà déployé ou appelé un LLM (API ou local) au moins une fois
Modalites
Financement
Reste à charge potentiel : 0€
Nos formations sont éligibles à la prise en charge OPCO dans le cadre du plan de développement des compétences. Selon votre OPCO (ATLAS, OPCO2i, AFDAS, AKTO...), la formation peut être financée à 100%.
- ✓Nous gérons les démarches administratives OPCO
- ✓Convention de formation et programme fournis
- ✓Attestation officielle en fin de formation
- ✓Déductible en charges pour votre entreprise
Optimisation de l'Inférence et du Serving LLM
- ✓2 jours intensifs
- ✓12 participants max
- ✓Livrables production-ready
- ✓Support post-formation 30 jours
* Dans le cadre du plan de développement des compétences. Consultez votre OPCO.
Prochaine session disponible
Session en Sur demande. Places limitees a 12 participants.
Besoin d'un accompagnement sur mesure ?
Au-delà de la formation, notre agence accompagne les entreprises (TPE, PME, Grands Comptes) dans l'audit, le design et le déploiement d'infrastructures IA souveraines (Local LLM, SLM, Edge).
Decouvrez aussi nos autres formations
Toutes incluses dans votre abonnement a 9,99 €/mois
Claude API
Maîtrisez l'API Claude de la première requête à la mise en production
IA Entrepreneurs
Boostez votre productivité avec un assistant IA personnalisé
Gouvernance IA
Conformité RGPD, éthique et bonnes pratiques pour déployer l'IA
Financement OPCO
Vérifiez votre éligibilité OPCO en 30 secondes
Nous vérifions votre éligibilité et vous rappelons sous 24h avec les démarches complètes. La formation peut être intégralement prise en charge.