Talki Academy
Capstone : Agent Vocal E2E en Production (Whisper ...Avancé

Capstone : Agent Vocal E2E en Production (Whisper ...6-8 heures

Construisez un assistant vocal prêt pour la production : transcription Whisper en temps réel, raisonnement Claude avec mémoire contextuelle, synthèse ElevenLabs streaming et optimisation de la latence. Trois exemples complets déployables le jour même.

Gratuit — Inclus dans la formation Agents Vocaux
6-8 heures
7h de formation
6 modules
Max 12 participants
VoiceWhisperClaudeElevenLabsWebSocketStreamingPython
Gratuit
Inclus avec la formation Agents Vocaux
Prochaine session : Sur demande
S’abonner — 9,99 €/moisDemander un tarif groupe
Attestation de complétion officielle
Accès à vie aux ressources
Support formateur post-formation

AI Act : la formation IA devient obligatoire avant le 2 aout 2026

Anticipez la mise en conformite de votre entreprise. Voir nos formations

Ce que vous allez construire et apprendre

Des comp\u00e9tences applicables en production le jour m\u00eame

  • Transcrire la parole en temps réel avec Whisper (VAD et injection de vocabulaire)
  • Diffuser les réponses Claude vers le TTS en moins de 900ms de time-to-first-token
  • Détecter les limites de phrase pour une lecture audio sans coupure
  • Budgéter et suivre les coûts du pipeline vocal (cible : <0,006 €/tour)
  • Implémenter une gestion des erreurs et une escalade humaine
  • Déployer un agent vocal complet avec backend FastAPI WebSocket

Programme d\u00e9taill\u00e9

6 modules · 7h de formation intensive en conditions r\u00e9elles

01Architecture et budget de latence
1h00
  • Calculateur de budget de latence
  • Compromis STT/LLM/TTS
  • Modélisation des coûts (0,006 €/tour)
02Whisper STT Streaming
1h30
  • Capture audio WebSocket navigateur
  • Serveur de transcription FastAPI
  • VAD et injection de vocabulaire
03Raisonnement contextuel avec Claude
1h30
  • Streaming avec mesure du TTFT
  • Détection des limites de phrase
  • Patterns d’injection de contexte
04TTS ElevenLabs Streaming
1h00
  • Streaming vers les hauts-parleurs (<350ms)
  • API MediaSource du navigateur
  • Stratégie de mise en cache des réponses
05Chatbot de service client E2E
2h00
  • Serveur FastAPI WebSocket complet
  • Intégration des 3 services
  • Détection d’escalade + grille d’évaluation
06Exemples avancés
2h00
  • Agent de support technique avec tool calling
  • Processeur de notes vocales
  • Checklist de déploiement en production

\u00c0 qui s\u2019adresse cette formation\u00a0?

Public vis\u00e9

Développeurs Intermédiaires
Ingénieurs Full-Stack
Ingénieurs IA/ML
Avancé7h · 12 participants max

Pr\u00e9requis

  • Python 3.11+ et les bases d’asyncio
  • Consommation d’API REST (requests, httpx ou fetch)
  • Notions de base sur les WebSockets
  • Formation « Agents Vocaux en Production » suivie ou expérience équivalente

Format

Format
En ligne
Durée
6-8 heures (7h)
Prochaine session
Sur demande
Certification
Attestation de complétion

Questions fr\u00e9quentes

Tout ce que vous devez savoir avant de vous inscrire

Faut-il avoir suivi la formation Agents Vocaux au préalable ?

Recommandé, mais pas obligatoire. Vous devez maîtriser les bases async Python et les WebSockets. Si vous savez construire un endpoint FastAPI, vous êtes prêt.

Quels coûts API vais-je engager pendant les exercices ?

Environ 0,50–2 $ pour le capstone complet avec tous les exemples, avec de vrais appels API. Whisper, Claude Haiku et ElevenLabs fonctionnent tous en pay-as-you-go sans minimum.

Puis-je utiliser ce code en production ?

Oui. Le code est sous licence MIT et prêt pour la production. L’exemple E2E a été déployé sur AWS Lambda + API Gateway WebSocket dans de vrais projets.

Une version anglaise est-elle disponible ?

Oui — la version anglaise est disponible sur /formations/voice-agent-capstone.

Pr\u00eat \u00e0 construire votre agent vocal\u00a0?

Disponible Sur demande. Limit\u00e9 \u00e0 12 participants.

S’abonner — 9,99 €/moisNous contacter