🦙
Ollama: 프로덕션 환경의 로컬 LLM
독점 API에 의존하지 않고 오픈소스 LLM을 프로덕션에 배포하고자 하는 개발자와 운영팀을 위한 집중 기술 교육입니다. Ollama, 양자화, 멀티 GPU Docker 배포, 기존 스택과의 통합을 마스터합니다. 실제 사례: 스타트업이 월 EUR 4,200에서 월 EUR 109로 비용 절감 (-97%).
기간
2일
수준
중급
가격
월 9.99유로 (모든 과정 포함)
최대 인원
12명
학습 내용
+다양한 플랫폼에서 Ollama 설치 및 설정 (macOS, Linux, Docker)
+제약 조건에 맞는 올바른 모델 선택 (레이턴시, 품질, VRAM)
+양자화 (Q2, Q4, Q8) 이해 및 성능/품질 최적화
+Docker Compose, 멀티 GPU 로드 밸런싱, Open WebUI로 배포
+OpenAI 호환 API로 통합 (코드 2줄 마이그레이션)
+모니터링 (Prometheus, Grafana), 속도 제한, 백업 구현
+ROI 계산 및 API 비용 vs 자체 호스팅 비교
교육 프로그램
모듈 1: Ollama 기초 및 모델 선택
3h30- Ollama 설치: 첫 걸음
- 양자화 이해: Q2, Q4, Q8, FP16
- 모델 선택: Llama, Mistral, CodeLlama, DeepSeek
- 성능 벤치마크: 레이턴시, 처리량, 품질
- 활용 사례: 어떤 작업에 어떤 모델을?
모듈 2: Docker 배포 및 프로덕션 설정
3h30- Docker Compose: Ollama + Open WebUI
- NGINX를 활용한 멀티 GPU 로드 밸런싱
- 모델 캐싱 및 레이턴시 최적화
- 워크숍: 완전한 프로덕션 아키텍처
모듈 3: API 통합 및 OpenAI 호환성
3h30- OpenAI 호환 API: 코드 2줄 마이그레이션
- 스트리밍: 토큰 단위 응답
- LangChain 통합: RAG 및 에이전트
- 워크숍: OpenAI 앱을 Ollama로 마이그레이션
모듈 4: 프로덕션 패턴 및 모니터링
3h30- Prometheus와 Grafana를 활용한 모니터링
- Redis와 Celery를 활용한 속도 제한
- 자동 백업 및 재해 복구
- 실제 사례: 스타트업의 94% 비용 절감
- ROI 계산: API vs 자체 호스팅