序言
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
2022年末,随着ChatGPT的问世,人工智能领域迎来重大转折。这款基于对话的语言模型能根据对话输入生成类人文本。 我们共同见证了这场重塑人类认知边界与可能性的AI革命。 生成式AI模型并非新生事物。事实上,Deep Learning理念已存在数十年之久,但唯有在海量数据的涌现、加速器技术与计算能力的飞跃性进步共同作用下,这场革命才得以实现。加之模型参数规模激增至数十亿量级,最终催生了这场惊人的变革。
想象物理学中的相变:同种物质突然展现出全新特性。 人工智能正是如此,揭示出前所未有的能力——例如先进的自然语言处理(NLP)技术,以及生成连贯且符合语境的回应的能力。 过去几年间,生成式AI模型及其多元应用引发的热潮,正是人工智能发展中微小进步引发巨大影响的明证。 这个早期开拓时代令人振奋,却也充满严峻挑战。
截至2026年初,人工智能社区的核心仓库Hugging Face Hub上已汇集数百万种生成式AI模型,覆盖各类应用场景。 当选定模型后,应用开发者与机器学习运维(MLOps)工程师面临的核心问题在于:如何在生产系统中有效运行这些模型。 弹性、可扩展性、安全性等非功能性要素至关重要,而运营成本更是重中之重。 将模型从实验环境(如Jupyter Notebook)迁移至生产环境的挑战绝非易事。 所幸近年来涌现出分布式软件平台 ,能够以可扩展且弹性的方式管理各类工作负载:Kubernetes。
2014年Kubernetes问世时,生成式AI仍是遥不可及的概念。 该平台最初在无状态(Web)应用与微服务领域表现卓越,现已发展为运行数据库、消息系统等有状态应用的可靠基石。 针对大型语言模型(LLMs)庞大数据结构与特殊硬件需求,类似的演进正在进行中。
本书深入探讨了生成式人工智能(尤其是LLMs)运维过程中的各类挑战与解决方案。
撰写本书的初衷
本书的创作动机源于日益迫切的需求:弥合Kubernetes专家与运行LLM生产环境之间的新兴需求。 随着LLMs在各行业的关键作用日益凸显,挑战已不仅在于模型开发,更在于如何在实际生产环境中高效部署、扩展和维护这些模型。
我们以黑盒子视角处理LLM工作负载,既承认其运维复杂性,又无需数据科学家的深度洞察。 这种视角对希望实现模型运维化而不深入机器学习细节的Kubernetes从业者至关重要。 通过聚焦Kubernetes作为底层平台,我们提供实操指南,指导如何运用Kubernetes满足LLMs的独特需求,确保其高效、安全且大规模运行。
本书旨在助力您应对生成式AI在Kubernetes上的运维挑战,赋能您自信地将LLMs与AI驱动的应用投入生产环境。
Kubernetes
Kubernetes(亦称K8s, )是一款容器编排平台,旨在自动化部署、扩展及管理容器化应用。 该平台最初专注于无状态应用,现已发展至支持数据库、消息系统等有状态工作负载。 如今Kubernetes已成为各类传统工作负载的主流运维平台,并在AI领域日益发挥关键作用。
多家先锋机构选择Kubernetes承载其AI工作负载,充分利用其强大的可扩展性和弹性特性。 例如谷歌和OpenAI等企业便借助Kubernetes管理复杂的机器学习管道与部署流程。
Kubernetes抽象并自动化了诸多运维环节,包括弹性扩展、负载均衡和自我修复机制。 这使开发者与MLOps工程师能专注于领域特定任务,无需担忧底层基础设施。 其 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access