Talki Academy
🎤

生产级语音智能体:Whisper + Claude + ElevenLabs

面向希望掌握生产级语音智能体完整技术栈的开发者的高强度技术培训:Whisper 语音识别、Claude 对话编排、ElevenLabs 自然语音合成。从流式架构到稳健的错误处理,你将部署一个延迟<2秒、生产质量的语音智能体。基于 Talki 的真实架构(每月12,000+次语音交互)。

时长
3天
级别
高级
价格
每月9.99欧元(包含所有课程)
最大人数
12人

你将学到什么

+设计完整的语音管道架构(STT → LLM → TTS)
+实现多语言支持的 Whisper(API 和本地)
+使用 Claude 流式传输编排自然对话
+集成 ElevenLabs TTS 音频流以实现<500ms延迟
+优化端到端延迟以达到<2秒(P95)
+处理错误、回退和生产弹性
+计算和优化成本(API vs 自托管)
+部署监控、告警和仪表板

课程大纲

模块 1语音管道架构与技术选型

3h
  • 语音管道的三个组件(STT、LLM、TTS)
  • 流式 vs 批处理:对感知延迟的影响
  • Whisper:云 API vs 本地部署(投资回报率计算)
  • 参考架构:Talki 语音智能体

模块 2使用 Whisper 实现 STT 管道

3h
  • Whisper API:配置、多语言、自动检测
  • 本地 Whisper:faster-whisper、量化、GPU 优化
  • 音频格式:WAV、WebM、MP3 — 转换与验证
  • 工作坊:带 API → 本地回退的完整 STT

模块 3使用 Claude 进行对话编排

3h30
  • 自然语音对话的提示工程
  • Claude 流式传输:Server-Sent Events (SSE) 与 WebSocket
  • 使用 DynamoDB 管理对话上下文
  • 工作坊:带持久历史记录的语音聊天机器人

模块 4使用 ElevenLabs 进行语音合成

3h
  • ElevenLabs API:声音、稳定性、相似度增强
  • TTS 流式传输:WebSocket 音频块与 AudioContext
  • 替代方案:Google Cloud TTS、AWS Polly、Azure Speech
  • 工作坊:带客户端音频队列的流式 TTS

模块 5端到端延迟优化

3h
  • 延迟测量:各组件的 P50、P95、P99
  • 优化技术:缓存、预热、并发
  • 性能分析与瓶颈:识别性能问题
  • 工作坊:将真实管道延迟从3秒降至<2秒

模块 6错误处理与稳健回退

2h30
  • 弹性模式:重试、熔断器、超时
  • 智能回退:API → 本地、TTS → 缓存
  • 结构化日志与告警(CloudWatch、Datadog)
  • 工作坊:实现完整的回退系统

模块 7成本分析与优化策略

2h
  • 每次交互成本计算(Whisper + Claude + ElevenLabs)
  • 优化:缓存、量化、速率限制
  • 真实案例:Talki 节省(每月1,200欧元 → 每月340欧元)
  • 工作坊:模拟你的用例成本

模块 8测试与生产部署

3h
  • 负载测试:模拟100+并发用户
  • 使用 serverless.yml 部署 AWS Lambda
  • 监控:Grafana 仪表板、延迟和成本指标
  • 毕业项目:部署你的完整语音智能体

准备开始了吗?

每月9.99欧元 — 包含所有课程,随时取消

获取报价查看所有课程