book

在 Kubernetes 上管理云原生数据

Name: 在 Kubernetes 上管理云原生数据
ISBN: 9798341659667

by Jeff Carpenter, Patrick McFadin

May 2025

Beginner to intermediate

332 pages

4h 22m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
序言
我们为什么写这本书这本书适合哪些人阅读？如何阅读本书本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.Cloud Native Data Infrastructure 简介：持久性、流和批量分析
基础设施类型什么是云原生数据？更多基础设施，更多问题Kubernetes 引领潮流管理 Kubernetes 上的计算在 Kubernetes 上管理网络管理 Kubernetes 上的存储器云原生数据组件展望未来为革命做好准备采用 SRE 思维模式拥抱分布式计算云原生数据基础设施的原则摘要
2.管理 Kubernetes 上的数据存储
Docker、容器和状态在 Docker 中管理状态装订支架卷数Tmpfs 挂载音量驱动程序用于数据存储的 Kubernetes 资源模块和卷持久卷持久卷索赔存储类Kubernetes 存储架构柔性体积集装箱存储界面集装箱附属储藏室容器对象存储接口摘要
3.Kubernetes 上数据库的艰难之路
艰难之路在 Kubernetes 上运行数据基础设施的先决条件在 Kubernetes 上运行 MySQL复制集部署服务访问 MySQL在 Kubernetes 上运行 Apache Cassandra有状态集访问 Cassandra摘要
4.使用 Helm 在 Kubernetes 上自动部署数据库
使用 Helm 图表部署应用程序使用 Helm 部署 MySQL舵手如何工作标签服务账户秘密配置地图更新舵手图卸载 Helm 图表使用 Helm 部署 Apache Cassandra亲和力与反亲和力舵手、CI/CD 和运行摘要
5.使用操作器在 Kubernetes 上自动管理数据库
扩展 Kubernetes 控制平面扩展 Kubernetes 客户端扩展 Kubernetes 控制平面组件扩展 Kubernetes 工作节点组件操作员模式控制器定制资源操作员使用 Vitess 操作员管理 Kubernetes 中的 MySQLVitess 概览PlanetScale Vitess 操作员不断壮大的运营商生态系统选择操作员楼宇操作员摘要
6.在 Kubernetes 堆栈中集成数据基础设施
K8ssandra：Kubernetes 上生产就绪的 CassandraK8ssandra 建筑事务所安装 K8ssandra 操作器创建 K8ssandraCluster使用 Cass Operator 管理 Kubernetes 中的 Cassandra利用星际之门应用程序接口提高开发人员的生产力使用 Prometheus 和 Grafana 的统一监控基础架构使用 Cassandra Reaper 进行维修使用 Cassandra Medusa 备份和恢复数据创建备份从备份恢复在 Kubernetes 中部署多集群应用程序摘要
7.Kubernetes 原生数据库
为什么需要采用 Kubernetes 原生方法利用 TiDB 实现大规模混合数据访问TiDB 架构在 Kubernetes 中部署 TiDB使用 DataStax Astra DB 的无服务器 Cassandra在 Kubernetes 原生数据库中需要注意什么？基本要求Kubernetes 原生的未来摘要
8.Kubernetes 上的数据流
流媒体简介交付类型交货保证功能范围流媒体在 Kubernetes 中的作用使用 Apache Pulsar 在 Kubernetes 上进行流式传输准备你的环境使用证书管理器确保默认通信安全使用 Helm 部署 Apache Pulsar使用 Apache Flink 进行流分析在 Kubernetes 上部署 Apache Flink摘要

9.Kubernetes 上的数据分析
分析入门在 Kubernetes 中部署分析工作负载Apache Spark 简介在 Kubernetes 中部署 Apache Spark定制集装箱提交并运行您的申请Apache Spark 的 Kubernetes 操作员Kubernetes 的替代调度程序Apache YuniKorn火山Kubernetes 分析引擎达斯克Ray摘要
10.机器学习和其他新兴用例
Cloud Native AI/ML 堆栈人工智能/ML 定义定义人工智能/移动语言栈使用 KServe 提供实时模型服务使用 Feast 进行全生命周期功能管理使用 Milvus 进行矢量相似性搜索使用 Apache Arrow 实现高效数据移动使用 lakeFS 的版本化对象存储摘要
11.将数据工作负载迁移到 Kubernetes
愿景：应用感知平台规划成功之路人技术过程云原生数据的未来摘要
索引
关于作者

Content preview from 在 Kubernetes 上管理云原生数据

第 10 章机器学习和其他新兴用例

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在前几章中，我们介绍了传统的数据基础设施，包括数据库、流平台和分析引擎，重点介绍了 Kubernetes。现在，我们应该把目光投向更远的地方，探索那些开始将 Cloud 本机作为目标的项目和社区，尤其是有关人工智能和 ML 的项目和社区。

任何时候，只要多个箭头开始指向同一个方向，就值得关注。数据基础架构中的方向箭头都指向 Kubernetes 趋同的整体宏观趋势，并得到几个相互关联的趋势的支持：

正在出现用于管理计算密集型人工智能/人工智能工作负载的通用堆栈，包括那些利用 GPU 等特定硬件的堆栈。
通用数据格式有助于促进数据在计算、网络和存储资源之间的高效移动。
对象存储正在成为数据基础设施的常用持久层。

在本章中，我们将探讨体现这些趋势的几种新兴技术、它们能够实现的用例，以及它们如何有助于帮助您进一步管理计算、Network 和存储等宝贵资源。我们选择了几个涉及 ML 和数据使用不同方面的项目，但这绝不是对当前使用的所有技术的详尽调查。我们直接听取了每个项目的工程师的介绍，并提供了一些细节，说明它们是如何融入云原生数据堆栈的。我们强烈建议您在本文介绍的内容之外，继续探索自己感兴趣的领域。追随您的好奇心，为支持 Kubernetes 新用例的社区做出贡献。

Cloud Native AI/ML 堆栈

正如第 9 章所述，Kubernetes 上的分析、人工智能和 ML 是一个值得更详细研究的话题。如果您对数据世界中的这一专业领域还不熟悉，那么它是一个令人兴奋的领域，它增强了我们做出实时、大规模数据驱动决策的能力。虽然许多核心算法已经存在了几十年，但这项工作的性质在过去几年中发生了迅速变化。数据科学作为一种职业，传统上一直被归入后台办公室，通过收集大量历史数据来寻找意义和预测未来。数据科学家很少直接参与终端用户应用程序，他们的工作与面向用户的应用程序脱节。

随着数据工程师角色的出现，这种情况开始发生变化。数据工程师构建处理引擎和管道，将数据科学产品化，并打破学科之间的隔阂。与数据基础架构新兴领域的典型情况一样，规模最大、最有发言权的组织引领了数据工程的节奏，他们的工具和方法已成为主流。

应用程序中数据的实时性不能只由数据库和流平台来处理。数据科学家构建的产品必须更贴近最终用户，才能最大限度地发挥其在应用中的功效。许多组织已经认识到这既是一个问题，也是一个机遇：我们如何才能让数据科学成为应用部署的另一个近实时组件？诚然，面对挑战时，社区会迎难而上，建立新的项目，创建新的学科。因此，Kubernetes 上出现了一类新的数据基础架构，与持久化、流和分析等传统类别并驾齐驱。这一新堆栈由支持实时提供人工智能和 ML 特定数据的工具组成。

人工智能/ML 定义

如果您是人工智能/ML 领域的新手，很容易被专业术语淹没。在我们了解一些解决人工智能堆栈中问题的 Cloud 本机技术之前，让我们先花点时间了解一下对理解这一专业至关重要的新术语和新概念。如果您熟悉 AI/ML，可以放心地跳到下一节。

首先，让我们简要回顾一下人工智能/ML 中的一些常用术语。这些术语经常出现在项目和功能的描述中，您需要了解它们才能选择正确的工具并有效地应用它们：

算法: 算法是 ML 的基本计算构件。算法用代码表示，是分析数据的一组指令。常见的算法包括线性回归、决策树、k-means 和随机森林。数据科学家将时间花在算法上，以便从数据中获得洞察力。当程序和参数正确时，最终的可重复形式就会输出到模型中。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341659667

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design