book

《Kubernetes 最佳实践》第二版

Name: 《Kubernetes 最佳实践》第二版
ISBN: 9798341657250

by Brendan Burns, Eddie Villalba, Dave Strebel, Lachlan Evenson

May 2025

Intermediate to advanced

324 pages

3h 31m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
谁应该阅读这本书我们为什么写这本书本书导航本版新增内容本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.设置基本服务
应用概述管理配置文件使用部署创建复制服务图像管理最佳做法创建复制应用程序为 HTTP 流量设置外部入口使用配置映射配置应用程序利用秘密管理身份验证部署简单的有状态数据库使用服务创建 TCP 负载平衡器使用入口将流量路由到静态文件服务器使用 Helm 为应用程序设置参数部署服务最佳实践摘要
2.开发人员工作流程
目标建设发展集群为多个开发人员设置共享集群用户上机创建和保护命名空间管理命名空间集群级服务启用开发人员工作流程初始设置促进积极发展启用测试和调试设置开发环境最佳实践摘要
3.Kubernetes 中的监控和日志记录
指标与日志监测技术监测模式Kubernetes 指标概述cAdvisor度量衡服务器kube-state-metrics我要监控哪些指标？监测工具使用 Prometheus 监控 Kubernetes日志记录概述记录工具使用 Loki-Stack 进行日志记录警报监控、日志和警报的最佳实践监测记录警报摘要
4.配置、保密和 RBAC
通过配置映射和机密进行配置配置地图秘密ConfigMap 和 Secrets API 的常见最佳实践保密最佳做法RBACRBAC 入门RBAC 最佳实践摘要
5.持续集成、测试和部署
版本控制持续集成测试集装箱建造容器图像标记持续部署部署战略生产测试设置管道并进行混沌实验设置 CI设置光盘执行滚动升级一个简单的混沌实验CI/CD 最佳实践摘要
6.版本、发布和推广
版本控制发布推出将所有内容整合在一起版本管理、发布和推广的最佳实践摘要
7.全球应用程序分发和分期
发布您的图像为部署设置参数负载平衡全球流量在世界各地可靠地推出软件滚动前验证加那利地区识别区域类型构建全球推广计划当出现问题时 Go全球推广最佳实践摘要
8.资源管理
Kubernetes 调度器谓词优先事项高级调度技术Pod 亲和力和反亲和力节点选择器污点与宽容Pod 资源管理资源申请资源限制和 Pod 服务质量PodDisruptionBudgets使用命名空间管理资源资源配额极限范围集群扩展应用扩展使用 HPA 进行扩展带有自定义指标的 HPA垂直吊舱自动定标器资源管理最佳做法摘要
9.联网、网络安全和服务网格
Kubernetes 网络原理网络插件KubenetKubenet 最佳实践CNI 插件CNI 最佳实践Kubernetes 中的服务服务类型集群 IP服务类型节点端口服务类型外部名称服务类型负载平衡器入口和入口控制器网关 API服务和入口控制器最佳实践网络安全政策网络政策最佳实践服务网格服务网格最佳实践摘要

10.Pod 和容器安全
Pod 安全接入控制器启用 Pod 安全接入舱位安全等级使用命名空间标签激活 Pod 安全性工作负载隔离和运行时类使用 RuntimeClass运行时实施工作负载隔离和 RuntimeClass 最佳实践其他 Pod 和容器安全考虑因素入场控制器入侵和异常检测工具摘要
11.群组的政策与管理
政策和管理为何重要这项政策有何不同？云本地策略引擎网守介绍政策范例网守术语定义约束模板确定制约因素数据复制用户体验利用执法行动和审计突变测试政策熟悉网守政策与管理最佳做法摘要
12.管理多个群集
为什么需要多个集群？多集群设计关注点管理多个群集部署部署和管理模式管理集群的 GitOps 方法多集群管理工具Kubernetes 联盟管理多个群集的最佳实践摘要
13.将外部服务与 Kubernetes 集成
将服务导入 Kubernetes稳定 IP 地址的无选择器服务基于 CNAME 的稳定 DNS 名称服务基于主动控制器的方法从 Kubernetes 导出服务使用内部负载平衡器输出服务在 NodePorts 上导出服务集成外部机器和 KubernetesKubernetes 之间共享服务第三方工具连接群集和外部服务的最佳做法摘要
14.在 Kubernetes 中运行机器学习
为什么 Kubernetes 非常适合机器学习？机器学习工作流程Kubernetes 集群管理员的机器学习Kubernetes 模型培训Kubernetes 分布式培训资源限制专用硬件库、驱动程序和内核模块存储Network+专门协议数据科学家关注的问题Kubernetes 上的机器学习最佳实践摘要
15.在 Kubernetes 基础上构建更高级别的应用模式
开发高级抽象概念的方法扩展 Kubernetes扩展 Kubernetes 集群扩展 Kubernetes 用户体验让容器化开发更轻松开发 "按需部署 "体验建造平台时的设计考虑因素支持导出为容器映像支持服务和服务发现的现有机制构建应用平台最佳实践摘要
16.管理状态和有状态应用程序
卷和卷挂载音量最佳实践Kubernetes 存储持久体积持久卷索赔存储类Kubernetes 存储最佳实践有状态应用程序有状态集操作员状态集和操作员最佳实践摘要
17.准入控制和授权
准入控制它们是什么？它们为何重要？入场控制器类型配置接纳网络钩子准入控制最佳实践授权授权模块授权最佳做法摘要
18.GitOps 和部署
什么是 GitOps？为什么选择 GitOps？GitOps 仓库结构管理秘密设置通量GitOps 工具GitOps 最佳实践摘要
19.安全
集群安全etcd 访问认证授权TLSKubelet 和云元数据访问秘密日志和审计集群安全态势工具集群安全最佳实践工作负载容器安全舱位安全接纳Seccomp、AppArmor 和 SELinux入场控制器操作员Network+ 政策运行时安全工作负载容器安全最佳实践代码安全无根和无分发容器容器漏洞扫描代码库安全代码安全最佳实践摘要
20.混沌测试、负载测试和实验
混沌测试混沌测试的目标混沌测试的先决条件混沌测试应用程序的通信混沌测试应用程序的运行对应用程序进行安全和弹性模糊测试摘要负载测试负载测试的目标负载测试的先决条件生成真实的流量应用程序负载测试使用负载测试调整应用程序摘要实验实验目标实验的先决条件设置实验摘要混沌测试、负载测试和实验总结
21.执行操作员
操作员关键部件自定义资源定义创建我们的应用程序接口主计长对账资源验证控制器实施操作员生命周期版本升级运营商最佳实践摘要
22.结论
索引
关于作者

Content preview from 《Kubernetes 最佳实践》第二版

第 3 章 Kubernetes 中的监控和日志记录 Kubernetes 中的监控和日志记录

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在本章中，我们将讨论 Kubernetes 监控和日志记录的最佳实践。我们将深入探讨不同监控模式的细节、收集的重要指标以及根据这些原始指标构建仪表盘。最后，我们将举例说明如何为 Kubernetes 集群实施监控。

指标与日志

首先，您需要了解日志收集和指标收集之间的区别。它们互为补充，但目的不同：

衡量标准: 在一段时间内测量的一系列数字。
日志: 日志记录程序运行过程中发生的情况，包括任何错误、警告或值得注意的事件。

例如，当应用程序性能不佳时，您就需要同时使用指标和日志。我们发现问题的第一个迹象可能是托管应用程序的 pod 上出现了高延迟警报，但指标可能无法很好地说明问题。这时，我们就可以查看日志，调查应用程序中出现的错误。

监测技术

封闭式监控侧重于从应用程序外部进行监控，传统上用于监控系统的 CPU、内存、存储等组件。闭箱监控对于基础架构层面的监控仍然有用，但它缺乏对应用程序运行情况的深入了解和上下文。例如，为了测试集群是否健康，我们可能会调度一个 pod，如果调度成功，我们就知道集群内的调度器和服务发现是健康的，因此我们可以认为集群组件是健康的。

开箱监控侧重于应用程序状态背景下的细节，如 HTTP 请求总数、500 错误数、请求延迟等。通过开箱监控，我们可以开始了解系统状态的原因。它允许我们问："为什么磁盘会填满？"而不仅仅是说："磁盘填满了"。

监测模式

您可能会在上看到监控，然后说："这有什么难的？我们一直都在监控我们的系统。监控的概念并不新鲜，我们有很多工具可以帮助我们了解系统的运行情况。但 Kubernetes 等平台的动态性和瞬时性更强，因此你需要改变监控这些环境的思路。例如，在监控虚拟机（VM）时，您希望虚拟机全天候运行，并保留其所有状态。而在 Kubernetes 中，pod 可能是非常动态和短暂的，所以你需要有能够处理这种动态和短暂性质的监控。

在监控分布式系统时，有两种监控模式值得关注。USE方法（）由 Brendan Gregg 推广，其重点如下：

U 使用
S 饱和度
E 错误

这种方法主要针对基础架构监控，因为在应用级监控中使用这种方法会受到限制。USE 方法被描述为 "对于每种资源，检查利用率、饱和度和错误率"。此方法可让您快速识别系统的资源限制和错误率。例如，要检查集群中节点的网络健康状况，就需要监控利用率、饱和度和错误率，以便能够轻松识别网络堆栈中的任何网络瓶颈或错误。USE 方法是更大工具箱中的一个工具，并不是监控系统的唯一方法。

汤姆-威尔基（Tom Wilkie）推广了另一种监测方法，称为 RED法。RED 方法的重点如下：

R 比率
E 错误
D-持续时间

这一理念源自谷歌的 "四大黄金信号"：

延迟: 送达申请需要多长时间
交通: 对系统的要求有多高
错误: 请求失败率
饱和度: 您的服务利用率有多高

举例来说，您可以用这种方法来监控 Kubernetes 中运行的前端服务，计算出以下结果：

我的前端服务正在处理多少个请求？
服务用户收到多少个 500 错误？
服务是否因请求而被过度使用？

从前面的例子可以看出，这种方法更注重用户的服务体验。

USE 和 RED 方法是互补的，因为 USE 方法侧重于基础设施组件，而 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341657250

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business