Évaluation et Benchmarking de LLM : au-delà des métriques RAG — 2 jours
Formation L300 — Avancé. Une formation intensive pour les ML engineers, architectes IA et product managers qui doivent mesurer et garantir la qualité des systèmes LLM en production — au-delà des métriques spécifiques au RAG. Vous apprendrez à choisir la bonne métrique selon le type de tâche, à concevoir des tests A/B de prompts statistiquement valides, à construire un routeur de modèles conscient de la qualité, et à implémenter un harnais d'évaluation entièrement automatisé intégré à la CI/CD. Chaque module inclut du code open-source exécutable (LangChain, sentence-transformers, BERTScore, Claude).
AI Act : la formation IA devient obligatoire avant le 2 aout 2026
Anticipez la mise en conformite de votre entreprise. Voir nos formations
Ce que vous allez construire et apprendre
Des competences immediatement applicables dans votre contexte professionnel
- ✓Expliquer pourquoi BLEU et ROUGE échouent pour l'IA générative et quand BERTScore et la similarité sémantique sont préférables
- ✓Construire une grille de score multidimensionnelle combinant métriques automatiques et LLM-as-judge
- ✓Concevoir un test A/B de prompts statistiquement valide — calculer la taille d'échantillon et interpréter les p-values
- ✓Implémenter un registre de versions de prompts avec détection de régression bloquant les mauvais déploiements
- ✓Benchmarker trois niveaux de modèles (Ollama, Haiku, Sonnet) sur le coût, la latence P50/P95 et la qualité
- ✓Construire un routeur de modèles conscient de la qualité qui dirige chaque requête vers le modèle suffisant le moins cher
- ✓Intégrer un harnais d'évaluation sur mesure dans une CI/CD GitHub Actions avec des quality gates
Programme detaille
4 modules · 14h de formation intensive
Public cible et prérequis
Ce programme est fait pour vous si vous êtes
- ✓ML engineers et data scientists responsables de la qualité des systèmes LLM
- ✓Architectes IA et tech leads définissant les standards d'évaluation
- ✓Product managers techniques pilotant des fonctionnalités IA en production
- ✓Développeurs souhaitant fiabiliser leurs déploiements LLM par la mesure
Prérequis détaillés
- ●Maîtriser Python à un niveau intermédiaire (dataclasses, pytest, pandas, async/await)
- ●Avoir appelé au moins une API LLM (Claude, OpenAI ou Ollama) en pratique
- ●Disposer de notions de base en statistiques (moyenne, écart-type, test d'hypothèse)
Modalités pédagogiques et moyens
Approche pédagogique
- ●Formation structurée autour du transfert de compétences opérationnelles
- ●Apprentissage par la pratique : chaque concept est suivi d'un exercice de mesure appliqué à des cas réels
- ●Apprentissage collaboratif : échanges entre pairs développeurs et data scientists
- ●Parcours progressif en 4 demi-journées avec montée en compétence graduelle
- ●Alternance théorie (30%) / pratique sur code et benchmarks (70%)
Moyens et ressources fournis
- ✓Plateforme e-learning Talki Academy avec accès post-formation (6 mois)
- ✓Environnement sandbox préconfiguré : LangChain, sentence-transformers, BERTScore, Claude
- ✓Dépôt GitHub privé avec le harnais d'évaluation, les workflows CI/CD et le registre de prompts
- ✓Support de cours PDF téléchargeable avec exemples de code commentés
- ✓Enregistrements vidéo des sessions (accès 6 mois)
Évaluation et suivi
Modalités d'évaluation
- ●Auto-positionnement en amont de la formation (questionnaire technique en ligne)
- ●Quiz d'évaluation à la fin de chaque module (4 quiz, seuil de réussite : 70%)
- ●Cas pratique fil rouge : construire un harnais d'évaluation et l'intégrer à une CI/CD
- ●Auto-évaluation des compétences acquises en fin de formation
- ●Évaluation à froid à 60 jours : questionnaire de transfert des acquis en situation de travail
Accompagnement
Assistance technique et pédagogique joignable entre 9h et 18h (jours ouvrés) par email à support@talki-academy.fr. Réponse sous 24h ouvrées. Accès au forum communautaire des apprenants.
Formation accessible aux personnes en situation de handicap. Contactez-nous à accessibilite@talki-academy.fr pour étudier les adaptations nécessaires (supports, rythme, outils).
Parcours apprenant avant et après la formation
Engagement apprenant
En amont de la formation : connectez-vous à votre espace apprenant pour compléter le questionnaire de positionnement et configurer votre environnement Python. Votre formateur recevra vos objectifs de progression personnalisés.
Transfert de compétences
À l'issue de la formation : accédez à vos ressources, auto-évaluez vos compétences acquises et retrouvez votre dépôt GitHub avec le harnais et les templates CI/CD. Un point de suivi individuel est proposé à J+30.
Pour qui est cette formation ?
Profils vises
Prerequis
- ●Python intermédiaire : dataclasses, pytest, pandas, async/await
- ●Expérience pratique d'au moins une API LLM (Claude, OpenAI ou Ollama)
- ●Notions de base en statistiques (moyenne, écart-type)
- ●Expérience de déploiement ou de maintenance d'une fonctionnalité IA en production
Modalites
Financement
Reste à charge potentiel : 0€
Nos formations sont éligibles à la prise en charge OPCO dans le cadre du plan de développement des compétences. Selon votre OPCO (ATLAS, OPCO2i, AFDAS, AKTO...), la formation peut être financée à 100%.
- ✓Nous gérons les démarches administratives OPCO
- ✓Convention de formation et programme fournis
- ✓Attestation officielle en fin de formation
- ✓Déductible en charges pour votre entreprise
Évaluation et Benchmarking de LLM : au-delà des métriques RAG
- ✓2 jours intensifs
- ✓12 participants max
- ✓Livrables production-ready
- ✓Support post-formation 30 jours
* Dans le cadre du plan de développement des compétences. Consultez votre OPCO.
Aller plus loin
Ressources vidéo recommandées
Une sélection de vidéos des meilleurs experts pour approfondir chaque module de la formation.
Module 2
Module 3
Module 4
Prochaine session disponible
Session en Sur demande. Places limitees a 12 participants.
Besoin d'un accompagnement sur mesure ?
Au-delà de la formation, notre agence accompagne les entreprises (TPE, PME, Grands Comptes) dans l'audit, le design et le déploiement d'infrastructures IA souveraines (Local LLM, SLM, Edge).
Decouvrez aussi nos autres formations
Toutes incluses dans votre abonnement a 9,99 €/mois
Claude API
Maîtrisez l'API Claude de la première requête à la mise en production
IA Entrepreneurs
Boostez votre productivité avec un assistant IA personnalisé
Gouvernance IA
Conformité RGPD, éthique et bonnes pratiques pour déployer l'IA
Financement OPCO
Vérifiez votre éligibilité OPCO en 30 secondes
Nous vérifions votre éligibilité et vous rappelons sous 24h avec les démarches complètes. La formation peut être intégralement prise en charge.

![[1hr Talk] Intro to Large Language Models](https://img.youtube.com/vi/zjkBMFhNj_g/mqdefault.jpg)

