Talki Academy
🎤

Agentes de Voz em Producao: Whisper + Claude + ElevenLabs

Treinamento tecnico intensivo para desenvolvedores que desejam dominar a stack completa de um agente de voz em producao: Whisper para reconhecimento de fala, Claude para orquestracao conversacional e ElevenLabs para sintese vocal natural. Da arquitetura de streaming ao tratamento robusto de erros, voce implantara um agente de voz com latencia <2s e qualidade de producao. Baseado na arquitetura real do Talki (12.000+ interacoes de voz/mes).

Duracao
3 dias
Nivel
Avancado
Preco
9,99 EUR/mes (todos os cursos incluidos)
Grupo maximo
12 participantes

O que voce vai aprender

+Projetar a arquitetura completa do pipeline de voz (STT -> LLM -> TTS)
+Implementar Whisper (API e local) com suporte multi-idioma
+Orquestrar conversas naturais com Claude streaming
+Integrar ElevenLabs TTS com streaming de audio para latencia <500ms
+Otimizar latencia ponta a ponta para atingir <2s (P95)
+Tratar erros, fallbacks e resiliencia em producao
+Calcular e otimizar custos (API vs auto-hospedado)
+Implantar com monitoramento, alertas e dashboards

Programa do curso

Modulo 1: Arquitetura do Pipeline de Voz e Escolhas Tecnicas

3h
  • Os tres componentes de um pipeline de voz (STT, LLM, TTS)
  • Streaming vs Batch: impacto na latencia percebida
  • Whisper: API Cloud vs deploy local (calculo de ROI)
  • Arquitetura de referencia: Agente de Voz Talki

Modulo 2: Implementacao do Pipeline STT com Whisper

3h
  • API Whisper: configuracao, multi-idioma, deteccao automatica
  • Whisper local: faster-whisper, quantizacao, otimizacao GPU
  • Formatos de audio: WAV, WebM, MP3 - conversao e validacao
  • Workshop: STT completo com fallback API -> local

Modulo 3: Orquestracao Conversacional com Claude

3h30
  • Engenharia de prompt para conversas de voz naturais
  • Claude streaming: Server-Sent Events (SSE) e WebSockets
  • Gerenciamento de contexto conversacional com DynamoDB
  • Workshop: chatbot de voz com historico persistente

Modulo 4: Sintese Vocal com ElevenLabs

3h
  • API ElevenLabs: vozes, estabilidade, similarity boost
  • TTS streaming: chunks de audio WebSocket e AudioContext
  • Alternativas: Google Cloud TTS, AWS Polly, Azure Speech
  • Workshop: TTS streaming com fila de audio no cliente

Modulo 5: Otimizacao de Latencia Ponta a Ponta

3h
  • Medicao de latencia: P50, P95, P99 por componente
  • Tecnicas de otimizacao: cache, pre-aquecimento, concorrencia
  • Profiling e gargalos: identificar problemas de desempenho
  • Workshop: reduza a latencia de 3s para <2s em um pipeline real

Modulo 6: Tratamento de Erros e Fallbacks Robustos

2h30
  • Padroes de resiliencia: retry, circuit breaker, timeout
  • Fallbacks inteligentes: API -> local, TTS -> cache
  • Logging estruturado e alertas (CloudWatch, Datadog)
  • Workshop: implemente um sistema completo de fallback

Modulo 7: Analise de Custos e Estrategias de Otimizacao

2h
  • Calculo de custo por interacao (Whisper + Claude + ElevenLabs)
  • Otimizacao: cache, quantizacao, rate limiting
  • Caso real: economia do Talki (EUR 1.200/mes -> EUR 340/mes)
  • Workshop: simule custos para o seu caso de uso

Modulo 8: Testes e Deploy em Producao

3h
  • Testes de carga: simule 100+ usuarios simultaneos
  • Deploy em AWS Lambda com serverless.yml
  • Monitoramento: dashboards Grafana, metricas de latencia e custo
  • Projeto final: implante seu agente de voz completo

Pronto para comecar?

9,99 EUR/mes — Todos os cursos incluidos, cancele quando quiser

Solicitar orcamentoVer todos os cursos