Talki Academy
🎤

Agentes de Voz en Produccion: Whisper + Claude + ElevenLabs

Formacion tecnica intensiva para desarrolladores que desean dominar el stack completo de un agente de voz en produccion: Whisper para el reconocimiento de voz, Claude para la orquestacion conversacional y ElevenLabs para la sintesis de voz natural. Desde la arquitectura de streaming hasta el manejo robusto de errores, desplegaras un agente de voz con latencia <2s y calidad de produccion. Basado en la arquitectura real de Talki (12.000+ interacciones de voz/mes).

Duracion
3 dias
Nivel
Avanzado
Precio
9,99 EUR/mes (todos los cursos incluidos)
Grupo max.
12 participantes

Lo que aprenderas

+Disenar la arquitectura completa del pipeline de voz (STT -> LLM -> TTS)
+Implementar Whisper (API y local) con soporte multilingue
+Orquestar conversaciones naturales con Claude en streaming
+Integrar ElevenLabs TTS con streaming de audio para latencia <500ms
+Optimizar la latencia de extremo a extremo para lograr <2s (P95)
+Manejar errores, fallbacks y resiliencia en produccion
+Calcular y optimizar costes (API vs auto-alojado)
+Desplegar con monitorizacion, alertas y dashboards

Programa del curso

Modulo 1: Arquitectura del Pipeline de Voz y Decisiones Tecnicas

3h
  • Los tres componentes de un pipeline de voz (STT, LLM, TTS)
  • Streaming vs Batch: impacto en la latencia percibida
  • Whisper: API en la nube vs despliegue local (calculo de ROI)
  • Arquitectura de referencia: Agente de Voz Talki

Modulo 2: Implementacion del Pipeline STT con Whisper

3h
  • API de Whisper: configuracion, multilingue, deteccion automatica
  • Whisper local: faster-whisper, cuantizacion, optimizacion GPU
  • Formatos de audio: WAV, WebM, MP3 — conversion y validacion
  • Taller: STT completo con fallback API -> local

Modulo 3: Orquestacion Conversacional con Claude

3h30
  • Ingenieria de prompts para conversaciones de voz naturales
  • Streaming de Claude: Server-Sent Events (SSE) y WebSockets
  • Gestion de contexto conversacional con DynamoDB
  • Taller: chatbot de voz con historial persistente

Modulo 4: Sintesis de Voz con ElevenLabs

3h
  • API de ElevenLabs: voces, estabilidad, similarity boost
  • Streaming TTS: WebSocket audio chunks y AudioContext
  • Alternativas: Google Cloud TTS, AWS Polly, Azure Speech
  • Taller: TTS en streaming con cola de audio del lado del cliente

Modulo 5: Optimizacion de Latencia de Extremo a Extremo

3h
  • Medicion de latencia: P50, P95, P99 por componente
  • Tecnicas de optimizacion: cache, pre-calentamiento, concurrencia
  • Profiling y cuellos de botella: identificar problemas de rendimiento
  • Taller: reducir latencia de 3s a <2s en un pipeline real

Modulo 6: Manejo de Errores y Fallbacks Robustos

2h30
  • Patrones de resiliencia: retry, circuit breaker, timeout
  • Fallbacks inteligentes: API -> local, TTS -> cache
  • Logging estructurado y alertas (CloudWatch, Datadog)
  • Taller: implementa un sistema de fallback completo

Modulo 7: Analisis de Costes y Estrategias de Optimizacion

2h
  • Calculo de coste por interaccion (Whisper + Claude + ElevenLabs)
  • Optimizacion: cache, cuantizacion, rate limiting
  • Caso real: ahorro de Talki (1.200 EUR/mes -> 340 EUR/mes)
  • Taller: simula costes para tu caso de uso

Modulo 8: Testing y Despliegue en Produccion

3h
  • Pruebas de carga: simular 100+ usuarios simultaneos
  • Despliegue en AWS Lambda con serverless.yml
  • Monitorizacion: dashboards Grafana, metricas de latencia y coste
  • Proyecto final: despliega tu agente de voz completo

Listo para empezar?

9,99 EUR/mes — Todos los cursos incluidos, cancela cuando quieras

Solicitar presupuestoVer todos los cursos