February 2026
Intermediate to advanced
406 pages
4h 57m
Chinese
生产就绪意味着模型能够持续处理流量而不出现意外。 本部分探讨首次成功部署后的运维工作。 首先阐述调度器、设备插件和资源限制如何影响GPU吞吐量与利用率。 随后通过扩展策略、分阶段部署方案和故障处理机制将各环节有机整合。 结尾章节展示日志、指标和追踪数据如何揭示延迟、准确性和成本信息。 目标是在需求增长时保持性能稳定并控制成本。
本部分各章节具体涵盖以下内容:
第3章《Kubernetes与GPU》阐述两者的协同工作机制
第4章《生产环境运行》聚焦于生产工作负载的模型/运行时优化。
第五章《模型可观测性》阐释了模型可观测性相较于Kubernetes传统工作负载可观测性的独特维度。
Read now
Unlock full access