Avancé

Évaluation RAG : Métriques, Benchmarks et Production — 2 jours

Formation technique intensive pour les ML Engineers, développeurs IA et équipes MLOps qui construisent des systèmes RAG et veulent garantir leur fiabilité en production. Vous apprendrez à mesurer la fidélité, la pertinence et le rappel de contexte avec des outils open-source (Ragas, TruLens, DeepEval), à automatiser l'évaluation dans vos pipelines CI/CD, et à mettre en place un monitoring continu. Cas réel : audit d'un système RAG qui répondait correctement à 61% des questions — amélioration à 89% en 3 semaines grâce à un framework d'évaluation structuré.

✓Inclus dans l'abonnement — 9,99 €/mois sans engagement

S'abonner — 9,99 €/mois

2 jours

14h de formation

4 modules

Max 12 participants

RAGÉvaluationRagasMLOpsProduction

Abonnement plateforme

9,99 €/mois

Donne acces a toutes les formationsde la plateforme · Sans engagement

Prochaine session : Juillet 2026

S'abonner — 9,99 €/mois

✓Acces illimite a toutes les formations

✓Nouveaux contenus chaque mois

✓Resiliable a tout moment

AI Act : la formation IA devient obligatoire avant le 2 aout 2026

Anticipez la mise en conformite de votre entreprise. Voir nos formations

Ce que vous allez construire et apprendre

Des competences immediatement applicables dans votre contexte professionnel

✓Comprendre et calculer les 7 métriques fondamentales RAG (Faithfulness, Answer Relevance, Context Recall, Context Precision, Context Relevance, Answer Correctness, Answer Similarity)
✓Instrumenter un pipeline RAG existant avec Ragas et TruLens en moins d'une heure
✓Construire un dataset d'évaluation gold-standard avec génération synthétique (TestsetGenerator)
✓Automatiser l'évaluation dans un pipeline CI/CD avec seuils de qualité (quality gates)
✓Détecter les dégradations de performance en production avec des alertes temps-réel
✓Diagnostiquer les causes racines des échecs RAG (retrieval vs. generation vs. chunking)
✓Comparer et choisir entre Ragas, TruLens et DeepEval selon votre stack

Programme detaille

4 modules · 14h de formation intensive

01Métriques RAG : théorie et implémentation

3h30

●Les 7 métriques fondamentales : définitions, formules et interprétation
●Faithfulness vs. Answer Relevance : pourquoi les confondre est dangereux
●Context Recall et Context Precision : mesurer la qualité du retrieval
●Implémentation avec Ragas : évaluation d'un pipeline existant en 50 lignes
●Atelier : évaluer un système RAG défaillant et identifier les problèmes

02Benchmarking et datasets d'évaluation

3h30

●Construire un gold-standard dataset : méthode manuelle vs. synthétique
●TestsetGenerator (Ragas) : génération automatique de questions adversariales
●Benchmarks publics : BEIR, RAGAS benchmark, TruthfulQA — lesquels utiliser ?
●Stratégies d'échantillonnage : couvrir les edge cases et cas limites
●Atelier : créer un dataset de 200 questions pour votre domaine métier

03Monitoring et alertes en production

3h30

●Architecture de monitoring RAG : LangFuse, TruLens, Phoenix (Arize)
●Métriques opérationnelles : latence p50/p95, taux d'erreur, coût par requête
●Détection de dégradation : drift de qualité, distribution shift
●Alertes Prometheus/Grafana sur les métriques RAG
●Atelier : instrumenter un pipeline LangChain et créer un dashboard Grafana

04CI/CD pour systèmes RAG et diagnostic d'erreurs

3h30

●Quality gates dans GitHub Actions : bloquer une PR si Faithfulness < 0.85
●Diagnostic des échecs RAG : arbre de décision retrieval / generation / chunking
●A/B testing de configurations RAG : chunk size, overlap, embedding models
●DeepEval vs. Ragas vs. TruLens : comparatif et critères de choix
●Atelier final : pipeline CI/CD complet avec évaluation automatique et rollback

Programme détaillé par demi-journée

4 demi-journées · 14h de formation

Demi-journée 1 — Métriques RAG : théorie et implémentation

Objectif : Calculer les 7 métriques fondamentales RAG sur un pipeline existant et interpréter les résultats

3h30

●Les 7 métriques fondamentales : Faithfulness, Answer Relevance, Context Recall, Context Precision, Context Relevance, Answer Correctness, Answer Similarity — définitions mathématiques et intuitions
●Faithfulness (≠ hallucination rate) : mesurer si chaque claim est supporté par le contexte récupéré
●Answer Relevance : évaluer si la réponse adresse réellement la question posée
●Context Recall et Precision : diagnostiquer les problèmes au niveau du retriever
●Implémentation pratique avec Ragas : from ragas import evaluate, EvaluationDataset, metrics
●Interprétation des scores : seuils de production recommandés et red flags

Cas pratiqueCas pratique : un pipeline RAG documentaire (code fourni) génère des réponses plausibles mais incorrectes. Instrumentez-le avec Ragas, calculez les 7 métriques, identifiez quelle métrique révèle le problème principal et formulez une hypothèse de cause racine.

Evaluation : Quiz d'ancrage (10 questions) : associer chaque métrique à son cas d'usage, interpréter des scores donnés, et distinguer un problème de retrieval d'un problème de génération

Demi-journée 2 — Benchmarking et datasets d'évaluation

Objectif : Construire un dataset d'évaluation gold-standard et exécuter un benchmark complet sur un pipeline RAG

3h30

●Anatomie d'un dataset d'évaluation RAG : question, ground_truth, answer, contexts — les 4 colonnes indispensables
●Construction manuelle vs. synthétique : trade-offs qualité/coût/temps
●TestsetGenerator (Ragas 0.2+) : génération automatique de questions simple, multi-hop et adversariales
●Stratégies d'échantillonnage : couvrir les cas nominaux, les edge cases et les questions sans réponse dans les documents
●Benchmarks publics BEIR et RAGAS benchmark : quand les utiliser pour calibrer vos métriques
●Versioning des datasets d'évaluation avec DVC ou MLflow

Cas pratiqueCas pratique : à partir d'un corpus de 50 documents techniques (fournis), utilisez TestsetGenerator pour générer 200 questions (simple, multi-hop, adversariales). Évaluez votre pipeline sur ce dataset, identifiez les 3 types de questions qui obtiennent les scores les plus faibles et proposez une stratégie d'amélioration.

Evaluation : Quiz d'ancrage (10 questions) : choisir la bonne stratégie de construction de dataset selon les contraintes, interpréter les résultats d'un benchmark, identifier les biais d'évaluation courants

Demi-journée 3 — Monitoring et alertes en production

Objectif : Déployer un système de monitoring RAG avec alertes automatiques sur les dégradations de qualité

3h30

●Architecture de monitoring RAG : logging des traces (question + contextes + réponse) avec LangFuse ou Phoenix (Arize)
●Métriques opérationnelles à monitorer : latence p50/p95/p99, taux d'erreur, coût par requête, throughput
●Évaluation asynchrone en production : calculer Faithfulness sur un échantillon de 5% des requêtes sans impacter la latence
●Détection de dégradation : sliding window sur les métriques, distribution shift sur les embeddings
●Alertes Prometheus/Grafana : configurer des alertes si Faithfulness < 0.80 sur les 100 dernières requêtes
●Stratégies de réponse aux incidents : playbooks pour les dégradations RAG courantes

Cas pratiqueCas pratique : instrumenter un pipeline LangChain (code fourni) avec LangFuse pour logguer toutes les traces, configurer une évaluation asynchrone avec Ragas sur 10% des requêtes, et créer un dashboard Grafana avec 4 panels (Faithfulness, latence p95, coût/jour, taux d'erreur). Déclencher intentionnellement une dégradation et vérifier que l'alerte se déclenche.

Evaluation : Quiz d'ancrage (10 questions) : concevoir une architecture de monitoring RAG, choisir les métriques à alerter et les seuils appropriés, diagnostiquer une dégradation à partir d'un dashboard

Demi-journée 4 — CI/CD pour systèmes RAG et diagnostic d'erreurs

Objectif : Implémenter un pipeline CI/CD avec quality gates RAG et diagnostiquer les causes racines des échecs

3h30

●Quality gates dans GitHub Actions : pytest + Ragas avec seuil Faithfulness ≥ 0.85, Context Recall ≥ 0.78
●Arbre de décision pour le diagnostic RAG : comment différencier un problème de chunking, d'embedding, de retrieval ou de génération
●A/B testing de configurations : tester chunk_size=256 vs 512, overlap=0 vs 50, reranker vs sans reranker
●Comparatif DeepEval vs. Ragas vs. TruLens : forces, faiblesses, coût et intégration stack
●Stratégies d'amélioration : quand changer l'embedding model, quand reranker, quand changer le prompt système
●Rollback automatique : revenir à la version précédente si les métriques dégradent en production

Cas pratiqueAtelier final (2h) : vous recevez un pipeline RAG en 'production simulée' qui présente une dégradation progressive (Faithfulness passé de 0.88 à 0.67 en 3 semaines). À partir des logs et métriques fournis, diagnostiquez la cause racine, implémentez le correctif, validez avec le dataset de test, et configurez le GitHub Actions workflow pour que ce type de dégradation soit détecté automatiquement lors de chaque PR.

Evaluation : Quiz d'ancrage (10 questions) : lire un rapport d'évaluation Ragas et identifier les actions prioritaires, concevoir un pipeline CI/CD RAG complet, choisir entre les frameworks d'évaluation selon le contexte

Public cible et prérequis

Ce programme est fait pour vous si vous êtes

✓ML Engineers et AI Engineers qui déploient des systèmes RAG en production
✓Développeurs Python ayant construit des pipelines LangChain ou LlamaIndex
✓Équipes MLOps souhaitant intégrer l'évaluation dans leurs pipelines CI/CD
✓Data Scientists qui veulent garantir la qualité de leurs chatbots documentaires
✓Tech Leads responsables de la fiabilité de systèmes IA en production

Prérequis détaillés

Niveau : Perfectionnement

●Avoir construit et déployé au moins un pipeline RAG (LangChain, LlamaIndex, ou implémentation custom)
●Maîtriser Python à un niveau intermédiaire : async/await, dataclasses, pandas, pytest
●Avoir une expérience pratique avec au moins une base de données vectorielle (Chroma, Pinecone, Weaviate, pgvector)
●Avoir utilisé une API LLM (Claude, OpenAI, Mistral) en production, avec gestion des erreurs et retry logic

Modalités pédagogiques et moyens

Approche pédagogique

●Formation orientée production : chaque concept est ancré dans des incidents réels documentés
●Apprentissage par la pratique : 70% du temps sur des ateliers avec des pipelines RAG défaillants fournis
●Diagnostic actif : les participants reçoivent des systèmes RAG avec des bugs à identifier et corriger
●Benchmarking comparatif : évaluation en direct de Ragas, TruLens et DeepEval sur le même pipeline
●Parcours progressif : métriques → datasets → monitoring → CI/CD, avec montée en compétence graduelle

Moyens et ressources fournis

✓Plateforme e-learning Talki Academy avec accès post-formation (6 mois)
✓Crédits API Claude et OpenAI fournis pour tous les exercices d'évaluation (quota suffisant)
✓Environnement sandbox préconfiguré : LangChain, Ragas, TruLens, DeepEval, Chroma, LangFuse
✓5 pipelines RAG défaillants fournis (cas réels anonymisés) pour les exercices de diagnostic
✓Dataset d'évaluation pré-annoté (500 paires question/réponse/contexte) prêt à utiliser
✓Dépôt GitHub privé avec tous les scripts d'évaluation, templates CI/CD et dashboards Grafana
✓Enregistrements vidéo des sessions (accès 6 mois)

Évaluation et suivi

Modalités d'évaluation

●Auto-positionnement en amont : questionnaire sur les métriques RAG et l'expérience en production
●Quiz d'ancrage à la fin de chaque module (4 quiz, seuil de réussite : 70%)
●Cas pratique fil rouge : auditer un pipeline RAG fourni, identifier les 3 problèmes principaux, implémenter les corrections et atteindre un Faithfulness ≥ 0.85 et Context Recall ≥ 0.80
●Auto-évaluation des compétences acquises en fin de formation
●Évaluation à froid à 60 jours : questionnaire de transfert sur les métriques mesurées en production

Accompagnement

Assistance technique et pédagogique joignable entre 9h et 18h (jours ouvrés) par email à support@talki-academy.fr. Réponse sous 24h ouvrées. Accès au forum communautaire des apprenants et au canal Slack dédié aux équipes MLOps.

Résultats de la formation

Indicateurs mesurés auprès des apprenants sur les 12 derniers mois

94%

Taux de satisfaction

89%

Taux de réussite

83%

Mise en oeuvre à J+60

☉

Accessibilité

Formation accessible aux personnes en situation de handicap. Contactez-nous à accessibilite@talki-academy.fr pour étudier les adaptations nécessaires (supports, rythme, outils).

Parcours apprenant avant et après la formation

Avant la formation

Engagement apprenant

En amont de la formation : connectez-vous à votre espace apprenant pour compléter le questionnaire de positionnement (métriques RAG connues, stack utilisée, cas d'usage principal). Votre formateur adaptera les exercices à votre contexte. Guide d'installation de l'environnement sandbox envoyé par email 5 jours avant.

Après la formation

Transfert de compétences

À l'issue de la formation : accédez à votre dépôt GitHub avec tous les scripts produits, les templates CI/CD et les dashboards Grafana prêts à déployer. Un point de suivi individuel est proposé à J+30 pour répondre aux questions d'implémentation dans votre contexte.

Pour qui est cette formation ?

Profils vises

✓Développeurs

Avancé14h · 12 personnes max

Prerequis

●Expérience pratique avec un système RAG (LangChain, LlamaIndex ou équivalent)
●Python intermédiaire (niveau confortable avec async, dataclasses, pandas)
●Notions de bases de données vectorielles (Chroma, Pinecone, Weaviate ou équivalent)
●Avoir utilisé une API LLM (Claude, OpenAI ou équivalent) en production

Modalites

Format

Présentiel ou distanciel — groupe de 6 à 12 personnes

Duree

2 jours (14h)

Prochaine session

Juillet 2026

Certification

Attestation de formation + framework d'évaluation RAG open-source + templates CI/CD

Financement

Reste à charge potentiel : 0€

Nos formations sont éligibles à la prise en charge OPCO dans le cadre du plan de développement des compétences. Selon votre OPCO (ATLAS, OPCO2i, AFDAS, AKTO...), la formation peut être financée à 100%.

✓Nous gérons les démarches administratives OPCO
✓Convention de formation et programme fournis
✓Attestation officielle en fin de formation
✓Déductible en charges pour votre entreprise

Prochaine session : Juillet 2026

Évaluation RAG : Métriques, Benchmarks et Production

Abonnement plateforme

9,99 €/mois

Acces a toutes les formations de la plateforme

Pas par formation · Sans engagement, resiliable a tout moment

✓2 jours intensifs
✓12 participants max
✓Livrables production-ready
✓Support post-formation 30 jours

S'abonner — 9,99 €/mois Vérifier mon éligibilité OPCO

* Dans le cadre du plan de développement des compétences. Consultez votre OPCO.

Aller plus loin

Ressources vidéo recommandées

Une sélection de vidéos des meilleurs experts pour approfondir chaque module de la formation.

Module 1

45 min

RAG From Scratch

LangChain

Construction d'un pipeline RAG from scratch par l'équipe LangChain. Architecture, embeddings et retrieval.

Module 2

38 min

Advanced RAG Techniques

James Briggs

Techniques RAG avancées : re-ranking, hybrid search, query decomposition. James Briggs approfondit chaque technique.

8 min

Vector Databases Explained

Fireship

Les bases de données vectorielles expliquées en 8 minutes par Fireship. Concis, visuel et efficace.

Module 3

11 min

Indicateurs clés et méthodes d'évaluation pour RAG

What's AI by Louis-François Bouchard

Les indicateurs clés pour évaluer un pipeline RAG en français. Méthodes de benchmarking et métriques de qualité.

Module 4

20 min

RAGAS: How to Evaluate a RAG Application Like a Pro

Mervin Praison

Introduction à RAGAS pour évaluer un pipeline RAG : faithfulness, relevancy, context precision et recall.

ⓘ Ces vidéos sont des contenus externes produits par des créateurs indépendants et ne sont pas la propriété d'Academy Talki. Elles sont recommandées à titre pédagogique pour compléter et vulgariser le contenu de la formation.

Prochaine session disponible

Session en Juillet 2026. Places limitees a 12 participants.

📊

Évaluation RAG : Métriques, Benchmarks et Production

Juillet 2026 · 2 jours· Inclus dans l'abonnement

S'abonner — 9,99 €/mois Demander un devis

Solutions Entreprises & Grands Groupes

Besoin d'un accompagnement sur mesure ?

Au-delà de la formation, notre agence accompagne les entreprises (TPE, PME, Grands Comptes) dans l'audit, le design et le déploiement d'infrastructures IA souveraines (Local LLM, SLM, Edge).

Réserver un Audit IA Découvrir nos services Agence

Decouvrez aussi nos autres formations

Toutes incluses dans votre abonnement a 9,99 €/mois

⚙️

Claude API

Maîtrisez l'API Claude de la première requête à la mise en production

3 joursIntermédiaireDéveloppeurs

Inclus dans l'abonnement

🚀

IA Entrepreneurs

Boostez votre productivité avec un assistant IA personnalisé

2 joursDébutantEntrepreneurs

Inclus dans l'abonnement

🛡️

Gouvernance IA

Conformité RGPD, éthique et bonnes pratiques pour déployer l'IA

1 jourDébutantManagers

Inclus dans l'abonnement

Voir toutes les formations

Financement OPCO

Vérifiez votre éligibilité OPCO en 30 secondes

Nous vérifions votre éligibilité et vous rappelons sous 24h avec les démarches complètes. La formation peut être intégralement prise en charge.

Nom complet *

Email professionnel *

Entreprise

Votre OPCO

Aidez-nous à mieux vous orienter (optionnel)

Taille de l'entreprise

Budget estimé

J'accepte de recevoir des informations sur les formations Talki Academy (newsletter, nouveautés, offres spéciales)

Conformément au RGPD, vos données sont traitées uniquement pour la gestion de votre demande et l'envoi d'informations si vous y consentez. Vous pouvez vous désabonner à tout moment via le lien présent dans chaque email. Plus d'infos : Politique de confidentialité