🎤

Agentes de Voz en Produccion: Whisper + Claude + ElevenLabs

Formacion tecnica intensiva para desarrolladores que desean dominar el stack completo de un agente de voz en produccion: Whisper para el reconocimiento de voz, Claude para la orquestacion conversacional y ElevenLabs para la sintesis de voz natural. Desde la arquitectura de streaming hasta el manejo robusto de errores, desplegaras un agente de voz con latencia <2s y calidad de produccion. Basado en la arquitectura real de Talki (12.000+ interacciones de voz/mes).

Duracion

3 dias

Nivel

Avanzado

Precio

9,99 EUR/mes (todos los cursos incluidos)

Grupo max.

12 participantes

Lo que aprenderas

+Disenar la arquitectura completa del pipeline de voz (STT -> LLM -> TTS)

+Implementar Whisper (API y local) con soporte multilingue

+Orquestar conversaciones naturales con Claude en streaming

+Integrar ElevenLabs TTS con streaming de audio para latencia <500ms

+Optimizar la latencia de extremo a extremo para lograr <2s (P95)

+Manejar errores, fallbacks y resiliencia en produccion

+Calcular y optimizar costes (API vs auto-alojado)

+Desplegar con monitorizacion, alertas y dashboards

Programa del curso

Modulo 1: Arquitectura del Pipeline de Voz y Decisiones Tecnicas

Los tres componentes de un pipeline de voz (STT, LLM, TTS)
Streaming vs Batch: impacto en la latencia percibida
Whisper: API en la nube vs despliegue local (calculo de ROI)
Arquitectura de referencia: Agente de Voz Talki

Modulo 2: Implementacion del Pipeline STT con Whisper

API de Whisper: configuracion, multilingue, deteccion automatica
Whisper local: faster-whisper, cuantizacion, optimizacion GPU
Formatos de audio: WAV, WebM, MP3 — conversion y validacion
Taller: STT completo con fallback API -> local

Modulo 3: Orquestacion Conversacional con Claude

3h30

Ingenieria de prompts para conversaciones de voz naturales
Streaming de Claude: Server-Sent Events (SSE) y WebSockets
Gestion de contexto conversacional con DynamoDB
Taller: chatbot de voz con historial persistente

Modulo 4: Sintesis de Voz con ElevenLabs

API de ElevenLabs: voces, estabilidad, similarity boost
Streaming TTS: WebSocket audio chunks y AudioContext
Alternativas: Google Cloud TTS, AWS Polly, Azure Speech
Taller: TTS en streaming con cola de audio del lado del cliente

Modulo 5: Optimizacion de Latencia de Extremo a Extremo

Medicion de latencia: P50, P95, P99 por componente
Tecnicas de optimizacion: cache, pre-calentamiento, concurrencia
Profiling y cuellos de botella: identificar problemas de rendimiento
Taller: reducir latencia de 3s a <2s en un pipeline real

Modulo 6: Manejo de Errores y Fallbacks Robustos

2h30

Patrones de resiliencia: retry, circuit breaker, timeout
Fallbacks inteligentes: API -> local, TTS -> cache
Logging estructurado y alertas (CloudWatch, Datadog)
Taller: implementa un sistema de fallback completo

Modulo 7: Analisis de Costes y Estrategias de Optimizacion

Calculo de coste por interaccion (Whisper + Claude + ElevenLabs)
Optimizacion: cache, cuantizacion, rate limiting
Caso real: ahorro de Talki (1.200 EUR/mes -> 340 EUR/mes)
Taller: simula costes para tu caso de uso

Modulo 8: Testing y Despliegue en Produccion

Pruebas de carga: simular 100+ usuarios simultaneos
Despliegue en AWS Lambda con serverless.yml
Monitorizacion: dashboards Grafana, metricas de latencia y coste
Proyecto final: despliega tu agente de voz completo

Listo para empezar?

9,99 EUR/mes — Todos los cursos incluidos, cancela cuando quieras

Solicitar presupuesto Ver todos los cursos