🎤
Agentes de Voz en Produccion: Whisper + Claude + ElevenLabs
Formacion tecnica intensiva para desarrolladores que desean dominar el stack completo de un agente de voz en produccion: Whisper para el reconocimiento de voz, Claude para la orquestacion conversacional y ElevenLabs para la sintesis de voz natural. Desde la arquitectura de streaming hasta el manejo robusto de errores, desplegaras un agente de voz con latencia <2s y calidad de produccion. Basado en la arquitectura real de Talki (12.000+ interacciones de voz/mes).
Duracion
3 dias
Nivel
Avanzado
Precio
9,99 EUR/mes (todos los cursos incluidos)
Grupo max.
12 participantes
Lo que aprenderas
+Disenar la arquitectura completa del pipeline de voz (STT -> LLM -> TTS)
+Implementar Whisper (API y local) con soporte multilingue
+Orquestar conversaciones naturales con Claude en streaming
+Integrar ElevenLabs TTS con streaming de audio para latencia <500ms
+Optimizar la latencia de extremo a extremo para lograr <2s (P95)
+Manejar errores, fallbacks y resiliencia en produccion
+Calcular y optimizar costes (API vs auto-alojado)
+Desplegar con monitorizacion, alertas y dashboards
Programa del curso
Modulo 1: Arquitectura del Pipeline de Voz y Decisiones Tecnicas
3h- Los tres componentes de un pipeline de voz (STT, LLM, TTS)
- Streaming vs Batch: impacto en la latencia percibida
- Whisper: API en la nube vs despliegue local (calculo de ROI)
- Arquitectura de referencia: Agente de Voz Talki
Modulo 2: Implementacion del Pipeline STT con Whisper
3h- API de Whisper: configuracion, multilingue, deteccion automatica
- Whisper local: faster-whisper, cuantizacion, optimizacion GPU
- Formatos de audio: WAV, WebM, MP3 — conversion y validacion
- Taller: STT completo con fallback API -> local
Modulo 3: Orquestacion Conversacional con Claude
3h30- Ingenieria de prompts para conversaciones de voz naturales
- Streaming de Claude: Server-Sent Events (SSE) y WebSockets
- Gestion de contexto conversacional con DynamoDB
- Taller: chatbot de voz con historial persistente
Modulo 4: Sintesis de Voz con ElevenLabs
3h- API de ElevenLabs: voces, estabilidad, similarity boost
- Streaming TTS: WebSocket audio chunks y AudioContext
- Alternativas: Google Cloud TTS, AWS Polly, Azure Speech
- Taller: TTS en streaming con cola de audio del lado del cliente
Modulo 5: Optimizacion de Latencia de Extremo a Extremo
3h- Medicion de latencia: P50, P95, P99 por componente
- Tecnicas de optimizacion: cache, pre-calentamiento, concurrencia
- Profiling y cuellos de botella: identificar problemas de rendimiento
- Taller: reducir latencia de 3s a <2s en un pipeline real
Modulo 6: Manejo de Errores y Fallbacks Robustos
2h30- Patrones de resiliencia: retry, circuit breaker, timeout
- Fallbacks inteligentes: API -> local, TTS -> cache
- Logging estructurado y alertas (CloudWatch, Datadog)
- Taller: implementa un sistema de fallback completo
Modulo 7: Analisis de Costes y Estrategias de Optimizacion
2h- Calculo de coste por interaccion (Whisper + Claude + ElevenLabs)
- Optimizacion: cache, cuantizacion, rate limiting
- Caso real: ahorro de Talki (1.200 EUR/mes -> 340 EUR/mes)
- Taller: simula costes para tu caso de uso
Modulo 8: Testing y Despliegue en Produccion
3h- Pruebas de carga: simular 100+ usuarios simultaneos
- Despliegue en AWS Lambda con serverless.yml
- Monitorizacion: dashboards Grafana, metricas de latencia y coste
- Proyecto final: despliega tu agente de voz completo
Listo para empezar?
9,99 EUR/mes — Todos los cursos incluidos, cancela cuando quieras