Avancé

Capstone : Agent Vocal E2E en Production (Whisper ... — 6-8 heures

Construisez un assistant vocal prêt pour la production : transcription Whisper en temps réel, raisonnement Claude avec mémoire contextuelle, synthèse ElevenLabs streaming et optimisation de la latence. Trois exemples complets déployables le jour même.

Gratuit — Inclus dans la formation Agents Vocaux

S’abonner — 9,99 €/mois

6-8 heures

7h de formation

6 modules

Max 12 participants

VoiceWhisperClaudeElevenLabsWebSocketStreamingPython

Gratuit

Inclus avec la formation Agents Vocaux

Prochaine session : Sur demande

S’abonner — 9,99 €/mois Demander un tarif groupe

✓Attestation de complétion officielle

✓Accès à vie aux ressources

✓Support formateur post-formation

AI Act : la formation IA devient obligatoire avant le 2 aout 2026

Anticipez la mise en conformite de votre entreprise. Voir nos formations

Ce que vous allez construire et apprendre

Des comp\u00e9tences applicables en production le jour m\u00eame

✓Transcrire la parole en temps réel avec Whisper (VAD et injection de vocabulaire)
✓Diffuser les réponses Claude vers le TTS en moins de 900ms de time-to-first-token
✓Détecter les limites de phrase pour une lecture audio sans coupure
✓Budgéter et suivre les coûts du pipeline vocal (cible : <0,006 €/tour)
✓Implémenter une gestion des erreurs et une escalade humaine
✓Déployer un agent vocal complet avec backend FastAPI WebSocket

Programme d\u00e9taill\u00e9

6 modules · 7h de formation intensive en conditions r\u00e9elles

01Architecture et budget de latence

1h00

●Calculateur de budget de latence
●Compromis STT/LLM/TTS
●Modélisation des coûts (0,006 €/tour)

02Whisper STT Streaming

1h30

●Capture audio WebSocket navigateur
●Serveur de transcription FastAPI
●VAD et injection de vocabulaire

03Raisonnement contextuel avec Claude

1h30

●Streaming avec mesure du TTFT
●Détection des limites de phrase
●Patterns d’injection de contexte

04TTS ElevenLabs Streaming

1h00

●Streaming vers les hauts-parleurs (<350ms)
●API MediaSource du navigateur
●Stratégie de mise en cache des réponses

05Chatbot de service client E2E

2h00

●Serveur FastAPI WebSocket complet
●Intégration des 3 services
●Détection d’escalade + grille d’évaluation

06Exemples avancés

2h00

●Agent de support technique avec tool calling
●Processeur de notes vocales
●Checklist de déploiement en production

\u00c0 qui s\u2019adresse cette formation\u00a0?

Public vis\u00e9

✓Développeurs Intermédiaires

✓Ingénieurs Full-Stack

✓Ingénieurs IA/ML

Avancé7h · 12 participants max

Pr\u00e9requis

●Python 3.11+ et les bases d’asyncio
●Consommation d’API REST (requests, httpx ou fetch)
●Notions de base sur les WebSockets
●Formation « Agents Vocaux en Production » suivie ou expérience équivalente

Format

En ligne

Durée

6-8 heures (7h)

Prochaine session

Sur demande

Certification

Attestation de complétion

Questions fr\u00e9quentes

Tout ce que vous devez savoir avant de vous inscrire

Faut-il avoir suivi la formation Agents Vocaux au préalable ?

Recommandé, mais pas obligatoire. Vous devez maîtriser les bases async Python et les WebSockets. Si vous savez construire un endpoint FastAPI, vous êtes prêt.

Quels coûts API vais-je engager pendant les exercices ?

Environ 0,50–2 $ pour le capstone complet avec tous les exemples, avec de vrais appels API. Whisper, Claude Haiku et ElevenLabs fonctionnent tous en pay-as-you-go sans minimum.

Puis-je utiliser ce code en production ?

Oui. Le code est sous licence MIT et prêt pour la production. L’exemple E2E a été déployé sur AWS Lambda + API Gateway WebSocket dans de vrais projets.

Une version anglaise est-elle disponible ?

Oui — la version anglaise est disponible sur /formations/voice-agent-capstone.