Avancé

Évaluation et Benchmarking de LLM : au-delà des métriques RAG — 2 jours

Formation L300 — Avancé. Une formation intensive pour les ML engineers, architectes IA et product managers qui doivent mesurer et garantir la qualité des systèmes LLM en production — au-delà des métriques spécifiques au RAG. Vous apprendrez à choisir la bonne métrique selon le type de tâche, à concevoir des tests A/B de prompts statistiquement valides, à construire un routeur de modèles conscient de la qualité, et à implémenter un harnais d'évaluation entièrement automatisé intégré à la CI/CD. Chaque module inclut du code open-source exécutable (LangChain, sentence-transformers, BERTScore, Claude).

✓Inclus dans l'abonnement — 9,99 €/mois sans engagement

S’abonner — 9,99 €/mois

2 jours

14h de formation

4 modules

Max 12 participants

ÉvaluationBenchmarkingLangChainCI/CDBERTScore

Abonnement plateforme

9,99 €/mois

Donne acces a toutes les formationsde la plateforme · Sans engagement

Prochaine session : Sur demande

S’abonner — 9,99 €/mois

✓Acces illimite a toutes les formations

✓Nouveaux contenus chaque mois

✓Resiliable a tout moment

AI Act : la formation IA devient obligatoire avant le 2 aout 2026

Anticipez la mise en conformite de votre entreprise. Voir nos formations

Ce que vous allez construire et apprendre

Des competences immediatement applicables dans votre contexte professionnel

✓Expliquer pourquoi BLEU et ROUGE échouent pour l'IA générative et quand BERTScore et la similarité sémantique sont préférables
✓Construire une grille de score multidimensionnelle combinant métriques automatiques et LLM-as-judge
✓Concevoir un test A/B de prompts statistiquement valide — calculer la taille d'échantillon et interpréter les p-values
✓Implémenter un registre de versions de prompts avec détection de régression bloquant les mauvais déploiements
✓Benchmarker trois niveaux de modèles (Ollama, Haiku, Sonnet) sur le coût, la latence P50/P95 et la qualité
✓Construire un routeur de modèles conscient de la qualité qui dirige chaque requête vers le modèle suffisant le moins cher
✓Intégrer un harnais d'évaluation sur mesure dans une CI/CD GitHub Actions avec des quality gates

Programme detaille

4 modules · 14h de formation intensive

01Fondations de l'évaluation : les métriques qui comptent vraiment

3h00

●Pourquoi BLEU et ROUGE échouent pour l'IA générative : paraphrase, synonymes, pénalités de longueur
●BERTScore : appariement contextuel des tokens avec DeBERTa-XL — quand l'utiliser
●Similarité sémantique avec sentence-transformers : la distance cosinus comme proxy de qualité
●Choisir la bonne métrique selon le type de tâche : code, Q&R, résumé, traduction, instructions
●Construire une grille de score multidimensionnelle : métriques automatiques + LLM-as-judge

02Tests A/B de prompts : cadres de comparaison systématiques

3h30

●Comparaison par paires vs notation absolue : pourquoi la comparaison par paires est 15 à 20% plus fiable
●Biais de position des juges LLM : détection et correction par randomisation
●Significativité statistique : test binomial, calcul de la taille d'échantillon nécessaire
●Registre de versions de prompts : hachage de contenu pour un versioning immuable
●Pipeline de détection de régression : bloquer les déploiements quand le score baisse au-delà d'un seuil

03Coût, latence et qualité : le cadre d'arbitrage de production

3h30

●La pile de modèles à trois niveaux : Ollama (gratuit) → Haiku 4.5 (~$1/M) → Sonnet 4.6 (~$3/M)
●Cadre de benchmark : qualité vs latence P50/P95 vs coût par requête
●Routeur de modèles conscient de la qualité : router vers le modèle le moins cher au-dessus du seuil de qualité
●Analyse du budget de latence : identifier les goulots dans les pipelines IA multi-étapes
●Calculateur de coût par interaction : projections quotidiennes/mensuelles à l'échelle

04Construire des harnais d'évaluation sur mesure pour la production

3h30

●Évaluateurs intégrés de LangChain : QA, CRITERIA, LABELED_CRITERIA — quand utiliser chacun
●Évaluateurs à grille spécifiques au domaine : support client, revue de code, information médicale
●Intégration CI/CD : workflow GitHub Actions qui bloque les PR en cas de régression
●Quality gates compatibles pytest : test_quality_threshold + test_no_regression
●Tableau de bord de métriques temporelles avec détection d'anomalies (alertes z-score)

Public cible et prérequis

Ce programme est fait pour vous si vous êtes

✓ML engineers et data scientists responsables de la qualité des systèmes LLM
✓Architectes IA et tech leads définissant les standards d'évaluation
✓Product managers techniques pilotant des fonctionnalités IA en production
✓Développeurs souhaitant fiabiliser leurs déploiements LLM par la mesure

Prérequis détaillés

Niveau : Perfectionnement

●Maîtriser Python à un niveau intermédiaire (dataclasses, pytest, pandas, async/await)
●Avoir appelé au moins une API LLM (Claude, OpenAI ou Ollama) en pratique
●Disposer de notions de base en statistiques (moyenne, écart-type, test d'hypothèse)

Modalités pédagogiques et moyens

Approche pédagogique

●Formation structurée autour du transfert de compétences opérationnelles
●Apprentissage par la pratique : chaque concept est suivi d'un exercice de mesure appliqué à des cas réels
●Apprentissage collaboratif : échanges entre pairs développeurs et data scientists
●Parcours progressif en 4 demi-journées avec montée en compétence graduelle
●Alternance théorie (30%) / pratique sur code et benchmarks (70%)

Moyens et ressources fournis

✓Plateforme e-learning Talki Academy avec accès post-formation (6 mois)
✓Environnement sandbox préconfiguré : LangChain, sentence-transformers, BERTScore, Claude
✓Dépôt GitHub privé avec le harnais d'évaluation, les workflows CI/CD et le registre de prompts
✓Support de cours PDF téléchargeable avec exemples de code commentés
✓Enregistrements vidéo des sessions (accès 6 mois)

Évaluation et suivi

Modalités d'évaluation

●Auto-positionnement en amont de la formation (questionnaire technique en ligne)
●Quiz d'évaluation à la fin de chaque module (4 quiz, seuil de réussite : 70%)
●Cas pratique fil rouge : construire un harnais d'évaluation et l'intégrer à une CI/CD
●Auto-évaluation des compétences acquises en fin de formation
●Évaluation à froid à 60 jours : questionnaire de transfert des acquis en situation de travail

Accompagnement

Assistance technique et pédagogique joignable entre 9h et 18h (jours ouvrés) par email à support@talki-academy.fr. Réponse sous 24h ouvrées. Accès au forum communautaire des apprenants.

☉

Accessibilité

Formation accessible aux personnes en situation de handicap. Contactez-nous à accessibilite@talki-academy.fr pour étudier les adaptations nécessaires (supports, rythme, outils).

Parcours apprenant avant et après la formation

Avant la formation

Engagement apprenant

En amont de la formation : connectez-vous à votre espace apprenant pour compléter le questionnaire de positionnement et configurer votre environnement Python. Votre formateur recevra vos objectifs de progression personnalisés.

Après la formation

Transfert de compétences

À l'issue de la formation : accédez à vos ressources, auto-évaluez vos compétences acquises et retrouvez votre dépôt GitHub avec le harnais et les templates CI/CD. Un point de suivi individuel est proposé à J+30.

Pour qui est cette formation ?

Profils vises

✓Développeurs

Avancé14h · 12 personnes max

Prerequis

●Python intermédiaire : dataclasses, pytest, pandas, async/await
●Expérience pratique d'au moins une API LLM (Claude, OpenAI ou Ollama)
●Notions de base en statistiques (moyenne, écart-type)
●Expérience de déploiement ou de maintenance d'une fonctionnalité IA en production

Modalites

Format

Présentiel ou distanciel — groupe de 6 à 12 personnes

Duree

2 jours (14h)

Prochaine session

Sur demande

Certification

Attestation de formation + base de code du harnais d'évaluation + templates CI/CD + registre de versions de prompts

Financement

Reste à charge potentiel : 0€

Nos formations sont éligibles à la prise en charge OPCO dans le cadre du plan de développement des compétences. Selon votre OPCO (ATLAS, OPCO2i, AFDAS, AKTO...), la formation peut être financée à 100%.

✓Nous gérons les démarches administratives OPCO
✓Convention de formation et programme fournis
✓Attestation officielle en fin de formation
✓Déductible en charges pour votre entreprise

Prochaine session : Sur demande

Évaluation et Benchmarking de LLM : au-delà des métriques RAG

Abonnement plateforme

9,99 €/mois

Acces a toutes les formations de la plateforme

Pas par formation · Sans engagement, resiliable a tout moment

✓2 jours intensifs
✓12 participants max
✓Livrables production-ready
✓Support post-formation 30 jours

S’abonner — 9,99 €/mois Vérifier mon éligibilité OPCO

* Dans le cadre du plan de développement des compétences. Consultez votre OPCO.

Aller plus loin

Ressources vidéo recommandées

Une sélection de vidéos des meilleurs experts pour approfondir chaque module de la formation.

Module 2

28 min

How to Systematically Setup LLM Evals

Dave Ebbelaar

Cadre pas à pas pour concevoir, exécuter et interpréter des évaluations de LLM.

59 min

[1hr Talk] Intro to Large Language Models

Andrej Karpathy

Introduction technique de Karpathy sur le fonctionnement des LLM — contexte essentiel pour concevoir ses évaluations.

Module 3

25 min

LangSmith Tutorial - LLM Evaluation for Beginners

LangChain

Mise en place pratique de LangSmith pour des runs de benchmark automatisés et le suivi des régressions.

Module 4

20 min

Get Started with Langfuse

Dave Ebbelaar

Plateforme d'observabilité Langfuse pour le monitoring continu de la qualité des LLM.

ⓘ Ces vidéos sont des contenus externes produits par des créateurs indépendants et ne sont pas la propriété d’Academy Talki. Elles sont recommandées à titre pédagogique pour compléter et vulgariser le contenu de la formation.

Prochaine session disponible

Session en Sur demande. Places limitees a 12 participants.

📏

Évaluation et Benchmarking de LLM : au-delà des métriques RAG

Sur demande · 2 jours· Inclus dans l'abonnement

S’abonner — 9,99 €/mois Demander un devis

Solutions Entreprises & Grands Groupes

Besoin d'un accompagnement sur mesure ?

Au-delà de la formation, notre agence accompagne les entreprises (TPE, PME, Grands Comptes) dans l'audit, le design et le déploiement d'infrastructures IA souveraines (Local LLM, SLM, Edge).

Réserver un Audit IA Découvrir nos services Agence

Decouvrez aussi nos autres formations

Toutes incluses dans votre abonnement a 9,99 €/mois

⚙️

Claude API

Maîtrisez l'API Claude de la première requête à la mise en production

3 joursIntermédiaireDéveloppeurs

Inclus dans l'abonnement

🚀

IA Entrepreneurs

Boostez votre productivité avec un assistant IA personnalisé

2 joursDébutantEntrepreneurs

Inclus dans l'abonnement

🛡️

Gouvernance IA

Conformité RGPD, éthique et bonnes pratiques pour déployer l'IA

1 jourDébutantManagers

Inclus dans l'abonnement

Voir toutes les formations

Financement OPCO

Vérifiez votre éligibilité OPCO en 30 secondes

Nous vérifions votre éligibilité et vous rappelons sous 24h avec les démarches complètes. La formation peut être intégralement prise en charge.

Nom complet *

Email professionnel *

Entreprise

Votre OPCO

Aidez-nous à mieux vous orienter (optionnel)

Taille de l'entreprise

Budget estimé

J'accepte de recevoir des informations sur les formations Talki Academy (newsletter, nouveautés, offres spéciales)

Conformément au RGPD, vos données sont traitées uniquement pour la gestion de votre demande et l'envoi d'informations si vous y consentez. Vous pouvez vous désabonner à tout moment via le lien présent dans chaque email. Plus d'infos : Politique de confidentialité