Talki Academy
Avancé

Évaluation et Benchmarking de LLM : au-delà des métriques RAG2 jours

Formation L300 — Avancé. Une formation intensive pour les ML engineers, architectes IA et product managers qui doivent mesurer et garantir la qualité des systèmes LLM en production — au-delà des métriques spécifiques au RAG. Vous apprendrez à choisir la bonne métrique selon le type de tâche, à concevoir des tests A/B de prompts statistiquement valides, à construire un routeur de modèles conscient de la qualité, et à implémenter un harnais d'évaluation entièrement automatisé intégré à la CI/CD. Chaque module inclut du code open-source exécutable (LangChain, sentence-transformers, BERTScore, Claude).

Inclus dans l'abonnement — 9,99 €/mois sans engagement
2 jours
14h de formation
4 modules
Max 12 participants
ÉvaluationBenchmarkingLangChainCI/CDBERTScore
Abonnement plateforme
9,99 €/mois
Donne acces a toutes les formationsde la plateforme · Sans engagement
Prochaine session : Sur demande
S’abonner — 9,99 €/mois
Acces illimite a toutes les formations
Nouveaux contenus chaque mois
Resiliable a tout moment

AI Act : la formation IA devient obligatoire avant le 2 aout 2026

Anticipez la mise en conformite de votre entreprise. Voir nos formations

Ce que vous allez construire et apprendre

Des competences immediatement applicables dans votre contexte professionnel

  • Expliquer pourquoi BLEU et ROUGE échouent pour l'IA générative et quand BERTScore et la similarité sémantique sont préférables
  • Construire une grille de score multidimensionnelle combinant métriques automatiques et LLM-as-judge
  • Concevoir un test A/B de prompts statistiquement valide — calculer la taille d'échantillon et interpréter les p-values
  • Implémenter un registre de versions de prompts avec détection de régression bloquant les mauvais déploiements
  • Benchmarker trois niveaux de modèles (Ollama, Haiku, Sonnet) sur le coût, la latence P50/P95 et la qualité
  • Construire un routeur de modèles conscient de la qualité qui dirige chaque requête vers le modèle suffisant le moins cher
  • Intégrer un harnais d'évaluation sur mesure dans une CI/CD GitHub Actions avec des quality gates

Programme detaille

4 modules · 14h de formation intensive

01Fondations de l'évaluation : les métriques qui comptent vraiment
3h00
  • Pourquoi BLEU et ROUGE échouent pour l'IA générative : paraphrase, synonymes, pénalités de longueur
  • BERTScore : appariement contextuel des tokens avec DeBERTa-XL — quand l'utiliser
  • Similarité sémantique avec sentence-transformers : la distance cosinus comme proxy de qualité
  • Choisir la bonne métrique selon le type de tâche : code, Q&R, résumé, traduction, instructions
  • Construire une grille de score multidimensionnelle : métriques automatiques + LLM-as-judge
02Tests A/B de prompts : cadres de comparaison systématiques
3h30
  • Comparaison par paires vs notation absolue : pourquoi la comparaison par paires est 15 à 20% plus fiable
  • Biais de position des juges LLM : détection et correction par randomisation
  • Significativité statistique : test binomial, calcul de la taille d'échantillon nécessaire
  • Registre de versions de prompts : hachage de contenu pour un versioning immuable
  • Pipeline de détection de régression : bloquer les déploiements quand le score baisse au-delà d'un seuil
03Coût, latence et qualité : le cadre d'arbitrage de production
3h30
  • La pile de modèles à trois niveaux : Ollama (gratuit) → Haiku 4.5 (~$1/M) → Sonnet 4.6 (~$3/M)
  • Cadre de benchmark : qualité vs latence P50/P95 vs coût par requête
  • Routeur de modèles conscient de la qualité : router vers le modèle le moins cher au-dessus du seuil de qualité
  • Analyse du budget de latence : identifier les goulots dans les pipelines IA multi-étapes
  • Calculateur de coût par interaction : projections quotidiennes/mensuelles à l'échelle
04Construire des harnais d'évaluation sur mesure pour la production
3h30
  • Évaluateurs intégrés de LangChain : QA, CRITERIA, LABELED_CRITERIA — quand utiliser chacun
  • Évaluateurs à grille spécifiques au domaine : support client, revue de code, information médicale
  • Intégration CI/CD : workflow GitHub Actions qui bloque les PR en cas de régression
  • Quality gates compatibles pytest : test_quality_threshold + test_no_regression
  • Tableau de bord de métriques temporelles avec détection d'anomalies (alertes z-score)

Public cible et prérequis

Ce programme est fait pour vous si vous êtes

  • ML engineers et data scientists responsables de la qualité des systèmes LLM
  • Architectes IA et tech leads définissant les standards d'évaluation
  • Product managers techniques pilotant des fonctionnalités IA en production
  • Développeurs souhaitant fiabiliser leurs déploiements LLM par la mesure

Prérequis détaillés

Niveau : Perfectionnement
  • Maîtriser Python à un niveau intermédiaire (dataclasses, pytest, pandas, async/await)
  • Avoir appelé au moins une API LLM (Claude, OpenAI ou Ollama) en pratique
  • Disposer de notions de base en statistiques (moyenne, écart-type, test d'hypothèse)

Modalités pédagogiques et moyens

Approche pédagogique

  • Formation structurée autour du transfert de compétences opérationnelles
  • Apprentissage par la pratique : chaque concept est suivi d'un exercice de mesure appliqué à des cas réels
  • Apprentissage collaboratif : échanges entre pairs développeurs et data scientists
  • Parcours progressif en 4 demi-journées avec montée en compétence graduelle
  • Alternance théorie (30%) / pratique sur code et benchmarks (70%)

Moyens et ressources fournis

  • Plateforme e-learning Talki Academy avec accès post-formation (6 mois)
  • Environnement sandbox préconfiguré : LangChain, sentence-transformers, BERTScore, Claude
  • Dépôt GitHub privé avec le harnais d'évaluation, les workflows CI/CD et le registre de prompts
  • Support de cours PDF téléchargeable avec exemples de code commentés
  • Enregistrements vidéo des sessions (accès 6 mois)

Évaluation et suivi

Modalités d'évaluation

  • Auto-positionnement en amont de la formation (questionnaire technique en ligne)
  • Quiz d'évaluation à la fin de chaque module (4 quiz, seuil de réussite : 70%)
  • Cas pratique fil rouge : construire un harnais d'évaluation et l'intégrer à une CI/CD
  • Auto-évaluation des compétences acquises en fin de formation
  • Évaluation à froid à 60 jours : questionnaire de transfert des acquis en situation de travail

Accompagnement

Assistance technique et pédagogique joignable entre 9h et 18h (jours ouvrés) par email à support@talki-academy.fr. Réponse sous 24h ouvrées. Accès au forum communautaire des apprenants.

Accessibilité

Formation accessible aux personnes en situation de handicap. Contactez-nous à accessibilite@talki-academy.fr pour étudier les adaptations nécessaires (supports, rythme, outils).

Parcours apprenant avant et après la formation

Avant la formation

Engagement apprenant

En amont de la formation : connectez-vous à votre espace apprenant pour compléter le questionnaire de positionnement et configurer votre environnement Python. Votre formateur recevra vos objectifs de progression personnalisés.

Après la formation

Transfert de compétences

À l'issue de la formation : accédez à vos ressources, auto-évaluez vos compétences acquises et retrouvez votre dépôt GitHub avec le harnais et les templates CI/CD. Un point de suivi individuel est proposé à J+30.

Pour qui est cette formation ?

Profils vises

Développeurs
Avancé14h · 12 personnes max

Prerequis

  • Python intermédiaire : dataclasses, pytest, pandas, async/await
  • Expérience pratique d'au moins une API LLM (Claude, OpenAI ou Ollama)
  • Notions de base en statistiques (moyenne, écart-type)
  • Expérience de déploiement ou de maintenance d'une fonctionnalité IA en production

Modalites

Format
Présentiel ou distanciel — groupe de 6 à 12 personnes
Duree
2 jours (14h)
Prochaine session
Sur demande
Certification
Attestation de formation + base de code du harnais d'évaluation + templates CI/CD + registre de versions de prompts

Financement

Reste à charge potentiel : 0€

Nos formations sont éligibles à la prise en charge OPCO dans le cadre du plan de développement des compétences. Selon votre OPCO (ATLAS, OPCO2i, AFDAS, AKTO...), la formation peut être financée à 100%.

  • Nous gérons les démarches administratives OPCO
  • Convention de formation et programme fournis
  • Attestation officielle en fin de formation
  • Déductible en charges pour votre entreprise
Prochaine session : Sur demande

Évaluation et Benchmarking de LLM : au-delà des métriques RAG

Abonnement plateforme
9,99 €/mois
Acces a toutes les formations de la plateforme
Pas par formation · Sans engagement, resiliable a tout moment
  • 2 jours intensifs
  • 12 participants max
  • Livrables production-ready
  • Support post-formation 30 jours

* Dans le cadre du plan de développement des compétences. Consultez votre OPCO.

Prochaine session disponible

Session en Sur demande. Places limitees a 12 participants.

📏
Évaluation et Benchmarking de LLM : au-delà des métriques RAG
Sur demande · 2 jours· Inclus dans l'abonnement
S’abonner — 9,99 €/moisDemander un devis
Solutions Entreprises & Grands Groupes

Besoin d'un accompagnement sur mesure ?

Au-delà de la formation, notre agence accompagne les entreprises (TPE, PME, Grands Comptes) dans l'audit, le design et le déploiement d'infrastructures IA souveraines (Local LLM, SLM, Edge).

Réserver un Audit IADécouvrir nos services Agence

Financement OPCO

Vérifiez votre éligibilité OPCO en 30 secondes

Nous vérifions votre éligibilité et vous rappelons sous 24h avec les démarches complètes. La formation peut être intégralement prise en charge.

Aidez-nous à mieux vous orienter (optionnel)

Conformément au RGPD, vos données sont traitées uniquement pour la gestion de votre demande et l'envoi d'informations si vous y consentez. Vous pouvez vous désabonner à tout moment via le lien présent dans chaque email. Plus d'infos : Politique de confidentialité