第 10 章 机器学习和其他新兴用例
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
在前几章中,我们介绍了传统的数据基础设施,包括数据库、流平台和分析引擎,重点介绍了 Kubernetes。现在,我们应该把目光投向更远的地方,探索那些开始将 Cloud 本机作为目标的项目和社区,尤其是有关人工智能和 ML 的项目和社区。
任何时候,只要多个箭头开始指向同一个方向,就值得关注。数据基础架构中的方向箭头都指向 Kubernetes 趋同的整体宏观趋势,并得到几个相互关联的趋势的支持:
正在出现用于管理计算密集型人工智能/人工智能工作负载的通用堆栈,包括那些利用 GPU 等特定硬件的堆栈。
通用数据格式有助于促进数据在计算、网络和存储资源之间的高效移动。
对象存储正在成为数据基础设施的常用持久层。
在本章中,我们将探讨体现这些趋势的几种新兴技术、它们能够实现的用例,以及它们如何有助于帮助您进一步管理计算、Network 和存储等宝贵资源。我们选择了几个涉及 ML 和数据使用不同方面的项目,但这绝不是对当前使用的所有技术的详尽调查。我们直接听取了每个项目的工程师的介绍,并提供了一些细节,说明它们是如何融入云原生数据堆栈的。我们强烈建议您在本文介绍的内容之外,继续探索自己感兴趣的领域。追随您的好奇心,为支持 Kubernetes 新用例的社区做出贡献。
Cloud Native AI/ML 堆栈
正如第 9 章所述,Kubernetes 上的分析、人工智能和 ML 是一个值得更详细研究的话题。如果您对数据世界中的这一专业领域还不熟悉,那么它是一个令人兴奋的领域,它增强了我们做出实时、大规模数据驱动决策的能力。虽然许多核心算法已经存在了几十年,但这项工作的性质在过去几年中发生了迅速变化。数据科学作为一种职业,传统上一直被归入后台办公室,通过收集大量历史数据来寻找意义和预测未来。数据科学家很少直接参与终端用户应用程序,他们的工作与面向用户的应用程序脱节。
随着数据工程师角色的出现,这种情况开始发生变化。数据工程师构建处理引擎和管道,将数据科学产品化,并打破学科之间的隔阂。与数据基础架构新兴领域的典型情况一样,规模最大、最有发言权的组织引领了数据工程的节奏,他们的工具和方法已成为主流。
应用程序中数据的实时性不能只由数据库和流平台来处理。数据科学家构建的产品必须更贴近最终用户,才能最大限度地发挥其在应用中的功效。许多组织已经认识到这既是一个问题,也是一个机遇:我们如何才能让数据科学成为应用部署的另一个近实时组件?诚然,面对挑战时,社区会迎难而上,建立新的项目,创建新的学科。因此,Kubernetes 上出现了一类新的数据基础架构,与持久化、流和分析等传统类别并驾齐驱。这一新堆栈由支持实时提供人工智能和 ML 特定数据的工具组成。
人工智能/ML 定义
如果您是人工智能/ML 领域的新手,很容易被专业术语淹没。在我们了解一些解决人工智能堆栈中问题的 Cloud 本机技术之前,让我们先花点时间了解一下对理解这一专业至关重要的新术语和新概念。如果您熟悉 AI/ML,可以放心地跳到下一节。
首先,让我们简要回顾一下人工智能/ML 中的一些常用术语。这些术语经常出现在项目和功能的描述中,您需要了解它们才能选择正确的工具并有效地应用它们:
- 算法
- 算法是 ML 的基本计算构件。算法用代码表示,是分析数据的一组指令。常见的算法包括线性回归、决策树、k-means 和随机森林。数据科学家将时间花在算法上,以便从数据中获得洞察力。当程序和参数正确时,最终的可重复形式就会输出到模型中。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access