🦙
Ollama:本地 LLM 生产部署
面向希望在生产环境中部署开源 LLM 而不依赖专有 API 的开发者和运维团队的高强度技术培训。掌握 Ollama、量化、多 GPU Docker 部署以及与现有技术栈的集成。真实案例:某初创企业将成本从每月4,200欧元降至每月109欧元(-97%)。
时长
2天
级别
中级
价格
每月9.99欧元(包含所有课程)
最大人数
12人
你将学到什么
+在不同平台上安装和配置 Ollama(macOS、Linux、Docker)
+根据约束选择合适的模型(延迟、质量、显存)
+理解量化(Q2、Q4、Q8)并优化性能/质量
+使用 Docker Compose 部署,多 GPU 负载均衡和 Open WebUI
+与 OpenAI 兼容 API 集成(2行代码迁移)
+实施监控(Prometheus、Grafana)、速率限制和备份
+计算投资回报率,比较 API 成本与自托管
课程大纲
模块 1:Ollama 基础与模型选择
3h30- 安装 Ollama:入门指南
- 理解量化:Q2、Q4、Q8、FP16
- 模型选择:Llama、Mistral、CodeLlama、DeepSeek
- 性能基准:延迟、吞吐量、质量
- 用例:哪个模型适合哪个任务?
模块 2:Docker 部署与生产设置
3h30- Docker Compose:Ollama + Open WebUI
- 使用 NGINX 的多 GPU 负载均衡
- 模型缓存与延迟优化
- 工作坊:完整的生产架构
模块 3:API 集成与 OpenAI 兼容性
3h30- OpenAI 兼容 API:2行代码迁移
- 流式传输:逐 Token 响应
- LangChain 集成:RAG 与智能体
- 工作坊:将 OpenAI 应用迁移到 Ollama
模块 4:生产模式与监控
3h30- 使用 Prometheus 和 Grafana 监控
- 使用 Redis 和 Celery 进行速率限制
- 自动化备份与灾难恢复
- 真实案例:初创企业降低94%成本
- 投资回报率计算:API vs 自托管