Talki Academy
Avancé

Évaluation RAG : Métriques, Benchmarks et Production2 jours

Formation technique intensive pour les ML Engineers, développeurs IA et équipes MLOps qui construisent des systèmes RAG et veulent garantir leur fiabilité en production. Vous apprendrez à mesurer la fidélité, la pertinence et le rappel de contexte avec des outils open-source (Ragas, TruLens, DeepEval), à automatiser l'évaluation dans vos pipelines CI/CD, et à mettre en place un monitoring continu. Cas réel : audit d'un système RAG qui répondait correctement à 61% des questions — amélioration à 89% en 3 semaines grâce à un framework d'évaluation structuré.

Inclus dans l'abonnement — 9,99 €/mois sans engagement
2 jours
14h de formation
4 modules
Max 12 participants
RAGÉvaluationRagasMLOpsProduction
9,99 €/mois
Acces a toutes les formations · Sans engagement
Prochaine session : Juillet 2026
S'abonner — 9,99 €/mois
Acces illimite a toutes les formations
Nouveaux contenus chaque mois
Resiliable a tout moment

AI Act : la formation IA devient obligatoire avant le 2 aout 2026

Anticipez la mise en conformite de votre entreprise. Voir nos formations

Ce que vous allez construire et apprendre

Des competences immediatement applicables dans votre contexte professionnel

  • Comprendre et calculer les 7 métriques fondamentales RAG (Faithfulness, Answer Relevance, Context Recall, Context Precision, Context Relevance, Answer Correctness, Answer Similarity)
  • Instrumenter un pipeline RAG existant avec Ragas et TruLens en moins d'une heure
  • Construire un dataset d'évaluation gold-standard avec génération synthétique (TestsetGenerator)
  • Automatiser l'évaluation dans un pipeline CI/CD avec seuils de qualité (quality gates)
  • Détecter les dégradations de performance en production avec des alertes temps-réel
  • Diagnostiquer les causes racines des échecs RAG (retrieval vs. generation vs. chunking)
  • Comparer et choisir entre Ragas, TruLens et DeepEval selon votre stack

Programme detaille

4 modules · 14h de formation intensive

01Métriques RAG : théorie et implémentation
3h30
  • Les 7 métriques fondamentales : définitions, formules et interprétation
  • Faithfulness vs. Answer Relevance : pourquoi les confondre est dangereux
  • Context Recall et Context Precision : mesurer la qualité du retrieval
  • Implémentation avec Ragas : évaluation d'un pipeline existant en 50 lignes
  • Atelier : évaluer un système RAG défaillant et identifier les problèmes
02Benchmarking et datasets d'évaluation
3h30
  • Construire un gold-standard dataset : méthode manuelle vs. synthétique
  • TestsetGenerator (Ragas) : génération automatique de questions adversariales
  • Benchmarks publics : BEIR, RAGAS benchmark, TruthfulQA — lesquels utiliser ?
  • Stratégies d'échantillonnage : couvrir les edge cases et cas limites
  • Atelier : créer un dataset de 200 questions pour votre domaine métier
03Monitoring et alertes en production
3h30
  • Architecture de monitoring RAG : LangFuse, TruLens, Phoenix (Arize)
  • Métriques opérationnelles : latence p50/p95, taux d'erreur, coût par requête
  • Détection de dégradation : drift de qualité, distribution shift
  • Alertes Prometheus/Grafana sur les métriques RAG
  • Atelier : instrumenter un pipeline LangChain et créer un dashboard Grafana
04CI/CD pour systèmes RAG et diagnostic d'erreurs
3h30
  • Quality gates dans GitHub Actions : bloquer une PR si Faithfulness < 0.85
  • Diagnostic des échecs RAG : arbre de décision retrieval / generation / chunking
  • A/B testing de configurations RAG : chunk size, overlap, embedding models
  • DeepEval vs. Ragas vs. TruLens : comparatif et critères de choix
  • Atelier final : pipeline CI/CD complet avec évaluation automatique et rollback

Programme détaillé par demi-journée

4 demi-journées · 14h de formation

01
Demi-journée 1 — Métriques RAG : théorie et implémentation
Objectif : Calculer les 7 métriques fondamentales RAG sur un pipeline existant et interpréter les résultats
3h30
  • Les 7 métriques fondamentales : Faithfulness, Answer Relevance, Context Recall, Context Precision, Context Relevance, Answer Correctness, Answer Similarity — définitions mathématiques et intuitions
  • Faithfulness (≠ hallucination rate) : mesurer si chaque claim est supporté par le contexte récupéré
  • Answer Relevance : évaluer si la réponse adresse réellement la question posée
  • Context Recall et Precision : diagnostiquer les problèmes au niveau du retriever
  • Implémentation pratique avec Ragas : from ragas import evaluate, EvaluationDataset, metrics
  • Interprétation des scores : seuils de production recommandés et red flags
Cas pratiqueCas pratique : un pipeline RAG documentaire (code fourni) génère des réponses plausibles mais incorrectes. Instrumentez-le avec Ragas, calculez les 7 métriques, identifiez quelle métrique révèle le problème principal et formulez une hypothèse de cause racine.
Evaluation : Quiz d'ancrage (10 questions) : associer chaque métrique à son cas d'usage, interpréter des scores donnés, et distinguer un problème de retrieval d'un problème de génération
02
Demi-journée 2 — Benchmarking et datasets d'évaluation
Objectif : Construire un dataset d'évaluation gold-standard et exécuter un benchmark complet sur un pipeline RAG
3h30
  • Anatomie d'un dataset d'évaluation RAG : question, ground_truth, answer, contexts — les 4 colonnes indispensables
  • Construction manuelle vs. synthétique : trade-offs qualité/coût/temps
  • TestsetGenerator (Ragas 0.2+) : génération automatique de questions simple, multi-hop et adversariales
  • Stratégies d'échantillonnage : couvrir les cas nominaux, les edge cases et les questions sans réponse dans les documents
  • Benchmarks publics BEIR et RAGAS benchmark : quand les utiliser pour calibrer vos métriques
  • Versioning des datasets d'évaluation avec DVC ou MLflow
Cas pratiqueCas pratique : à partir d'un corpus de 50 documents techniques (fournis), utilisez TestsetGenerator pour générer 200 questions (simple, multi-hop, adversariales). Évaluez votre pipeline sur ce dataset, identifiez les 3 types de questions qui obtiennent les scores les plus faibles et proposez une stratégie d'amélioration.
Evaluation : Quiz d'ancrage (10 questions) : choisir la bonne stratégie de construction de dataset selon les contraintes, interpréter les résultats d'un benchmark, identifier les biais d'évaluation courants
03
Demi-journée 3 — Monitoring et alertes en production
Objectif : Déployer un système de monitoring RAG avec alertes automatiques sur les dégradations de qualité
3h30
  • Architecture de monitoring RAG : logging des traces (question + contextes + réponse) avec LangFuse ou Phoenix (Arize)
  • Métriques opérationnelles à monitorer : latence p50/p95/p99, taux d'erreur, coût par requête, throughput
  • Évaluation asynchrone en production : calculer Faithfulness sur un échantillon de 5% des requêtes sans impacter la latence
  • Détection de dégradation : sliding window sur les métriques, distribution shift sur les embeddings
  • Alertes Prometheus/Grafana : configurer des alertes si Faithfulness < 0.80 sur les 100 dernières requêtes
  • Stratégies de réponse aux incidents : playbooks pour les dégradations RAG courantes
Cas pratiqueCas pratique : instrumenter un pipeline LangChain (code fourni) avec LangFuse pour logguer toutes les traces, configurer une évaluation asynchrone avec Ragas sur 10% des requêtes, et créer un dashboard Grafana avec 4 panels (Faithfulness, latence p95, coût/jour, taux d'erreur). Déclencher intentionnellement une dégradation et vérifier que l'alerte se déclenche.
Evaluation : Quiz d'ancrage (10 questions) : concevoir une architecture de monitoring RAG, choisir les métriques à alerter et les seuils appropriés, diagnostiquer une dégradation à partir d'un dashboard
04
Demi-journée 4 — CI/CD pour systèmes RAG et diagnostic d'erreurs
Objectif : Implémenter un pipeline CI/CD avec quality gates RAG et diagnostiquer les causes racines des échecs
3h30
  • Quality gates dans GitHub Actions : pytest + Ragas avec seuil Faithfulness ≥ 0.85, Context Recall ≥ 0.78
  • Arbre de décision pour le diagnostic RAG : comment différencier un problème de chunking, d'embedding, de retrieval ou de génération
  • A/B testing de configurations : tester chunk_size=256 vs 512, overlap=0 vs 50, reranker vs sans reranker
  • Comparatif DeepEval vs. Ragas vs. TruLens : forces, faiblesses, coût et intégration stack
  • Stratégies d'amélioration : quand changer l'embedding model, quand reranker, quand changer le prompt système
  • Rollback automatique : revenir à la version précédente si les métriques dégradent en production
Cas pratiqueAtelier final (2h) : vous recevez un pipeline RAG en 'production simulée' qui présente une dégradation progressive (Faithfulness passé de 0.88 à 0.67 en 3 semaines). À partir des logs et métriques fournis, diagnostiquez la cause racine, implémentez le correctif, validez avec le dataset de test, et configurez le GitHub Actions workflow pour que ce type de dégradation soit détecté automatiquement lors de chaque PR.
Evaluation : Quiz d'ancrage (10 questions) : lire un rapport d'évaluation Ragas et identifier les actions prioritaires, concevoir un pipeline CI/CD RAG complet, choisir entre les frameworks d'évaluation selon le contexte

Public cible et prérequis

Ce programme est fait pour vous si vous êtes

  • ML Engineers et AI Engineers qui déploient des systèmes RAG en production
  • Développeurs Python ayant construit des pipelines LangChain ou LlamaIndex
  • Équipes MLOps souhaitant intégrer l'évaluation dans leurs pipelines CI/CD
  • Data Scientists qui veulent garantir la qualité de leurs chatbots documentaires
  • Tech Leads responsables de la fiabilité de systèmes IA en production

Prérequis détaillés

Niveau : Perfectionnement
  • Avoir construit et déployé au moins un pipeline RAG (LangChain, LlamaIndex, ou implémentation custom)
  • Maîtriser Python à un niveau intermédiaire : async/await, dataclasses, pandas, pytest
  • Avoir une expérience pratique avec au moins une base de données vectorielle (Chroma, Pinecone, Weaviate, pgvector)
  • Avoir utilisé une API LLM (Claude, OpenAI, Mistral) en production, avec gestion des erreurs et retry logic

Modalités pédagogiques et moyens

Approche pédagogique

  • Formation orientée production : chaque concept est ancré dans des incidents réels documentés
  • Apprentissage par la pratique : 70% du temps sur des ateliers avec des pipelines RAG défaillants fournis
  • Diagnostic actif : les participants reçoivent des systèmes RAG avec des bugs à identifier et corriger
  • Benchmarking comparatif : évaluation en direct de Ragas, TruLens et DeepEval sur le même pipeline
  • Parcours progressif : métriques → datasets → monitoring → CI/CD, avec montée en compétence graduelle

Moyens et ressources fournis

  • Plateforme e-learning Talki Academy avec accès post-formation (6 mois)
  • Crédits API Claude et OpenAI fournis pour tous les exercices d'évaluation (quota suffisant)
  • Environnement sandbox préconfiguré : LangChain, Ragas, TruLens, DeepEval, Chroma, LangFuse
  • 5 pipelines RAG défaillants fournis (cas réels anonymisés) pour les exercices de diagnostic
  • Dataset d'évaluation pré-annoté (500 paires question/réponse/contexte) prêt à utiliser
  • Dépôt GitHub privé avec tous les scripts d'évaluation, templates CI/CD et dashboards Grafana
  • Enregistrements vidéo des sessions (accès 6 mois)

Évaluation et suivi

Modalités d'évaluation

  • Auto-positionnement en amont : questionnaire sur les métriques RAG et l'expérience en production
  • Quiz d'ancrage à la fin de chaque module (4 quiz, seuil de réussite : 70%)
  • Cas pratique fil rouge : auditer un pipeline RAG fourni, identifier les 3 problèmes principaux, implémenter les corrections et atteindre un Faithfulness ≥ 0.85 et Context Recall ≥ 0.80
  • Auto-évaluation des compétences acquises en fin de formation
  • Évaluation à froid à 60 jours : questionnaire de transfert sur les métriques mesurées en production

Accompagnement

Assistance technique et pédagogique joignable entre 9h et 18h (jours ouvrés) par email à support@talki-academy.fr. Réponse sous 24h ouvrées. Accès au forum communautaire des apprenants et au canal Slack dédié aux équipes MLOps.

Résultats de la formation

Indicateurs mesurés auprès des apprenants sur les 12 derniers mois

94%
Taux de satisfaction
89%
Taux de réussite
83%
Mise en oeuvre à J+60
Accessibilité

Formation accessible aux personnes en situation de handicap. Contactez-nous à accessibilite@talki-academy.fr pour étudier les adaptations nécessaires (supports, rythme, outils).

Parcours apprenant avant et après la formation

Avant la formation

Engagement apprenant

En amont de la formation : connectez-vous à votre espace apprenant pour compléter le questionnaire de positionnement (métriques RAG connues, stack utilisée, cas d'usage principal). Votre formateur adaptera les exercices à votre contexte. Guide d'installation de l'environnement sandbox envoyé par email 5 jours avant.

Après la formation

Transfert de compétences

À l'issue de la formation : accédez à votre dépôt GitHub avec tous les scripts produits, les templates CI/CD et les dashboards Grafana prêts à déployer. Un point de suivi individuel est proposé à J+30 pour répondre aux questions d'implémentation dans votre contexte.

Pour qui est cette formation ?

Profils vises

Développeurs
Avancé14h · 12 personnes max

Prerequis

  • Expérience pratique avec un système RAG (LangChain, LlamaIndex ou équivalent)
  • Python intermédiaire (niveau confortable avec async, dataclasses, pandas)
  • Notions de bases de données vectorielles (Chroma, Pinecone, Weaviate ou équivalent)
  • Avoir utilisé une API LLM (Claude, OpenAI ou équivalent) en production

Modalites

Format
Présentiel ou distanciel — groupe de 6 à 12 personnes
Duree
2 jours (14h)
Prochaine session
Juillet 2026
Certification
Attestation de formation + framework d'évaluation RAG open-source + templates CI/CD

Financement

Reste à charge potentiel : 0€

Nos formations sont éligibles à la prise en charge OPCO dans le cadre du plan de développement des compétences. Selon votre OPCO (ATLAS, OPCO2i, AFDAS, AKTO...), la formation peut être financée à 100%.

  • Nous gérons les démarches administratives OPCO
  • Convention de formation et programme fournis
  • Attestation officielle en fin de formation
  • Déductible en charges pour votre entreprise
Prochaine session : Juillet 2026

Évaluation RAG : Métriques, Benchmarks et Production

9,99 €/mois
Abonnement mensuel
Acces a toutes les formations
Sans engagement, resiliable a tout moment
  • 2 jours intensifs
  • 12 participants max
  • Livrables production-ready
  • Support post-formation 30 jours

* Dans le cadre du plan de développement des compétences. Consultez votre OPCO.

Prochaine session disponible

Session en Juillet 2026. Places limitees a 12 participants.

📊
Évaluation RAG : Métriques, Benchmarks et Production
Juillet 2026 · 2 jours · Inclus dans l'abonnement
S'abonner — 9,99 €/moisDemander un devis

Financement OPCO

Vérifiez votre éligibilité OPCO en 30 secondes

Nous vérifions votre éligibilité et vous rappelons sous 24h avec les démarches complètes. La formation peut être intégralement prise en charge.

Conformément au RGPD, vos données sont traitées uniquement pour la gestion de votre demande et l'envoi d'informations si vous y consentez. Vous pouvez vous désabonner à tout moment via le lien présent dans chaque email. Plus d'infos : Politique de confidentialité