序言
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
每个人都在谈论机器学习。它已经从一门学术变成了最令人兴奋的技术之一。从理解自动驾驶汽车的视频馈送到个性化用药,机器学习在每个行业都变得非常重要。虽然模型架构和概念受到了广泛关注,但机器学习还没有经历软件行业在过去二十年中所经历的标准化流程。在本书中,我们将向您展示如何构建一个自动化的标准化机器学习系统,并建立可重复的模型。
什么是机器学习管道?
过去几年,机器学习领域的发展令人惊叹。随着图形处理单元(GPU)的广泛普及,以及新的深度学习概念(如BERT 等变换器,或深度卷积 GAN 等生成对抗网络(GAN))的兴起,人工智能项目的数量激增。人工智能初创企业数量庞大。企业越来越多地将最新的机器学习概念应用于各种业务问题。在这股追求高性能机器学习解决方案的热潮中,我们注意到了一些不太受关注的问题。我们发现,数据科学家和机器学习工程师在概念和工具方面缺乏良好的信息来源,无法加速、重用、管理和部署他们的开发成果。我们需要的是机器学习管道的标准化。
机器学习管道实现并规范了加速、重用、管理和部署机器学习模型的流程。十多年前,随着持续集成(CI)和持续部署(CD)的引入,软件工程经历了同样的变化。在过去,测试和部署网络应用程序是一个漫长的过程。如今,通过一些工具和概念,这些过程已经大大简化。以前,网络应用的部署需要 DevOps 工程师和软件开发人员的协作。如今,只需几分钟就能测试并可靠地部署应用程序。数据科学家和机器学习工程师可以从软件工程中学到很多关于工作流程的知识。我们编写本书的目的是通过引导读者从头到尾了解整个机器学习管道,为机器学习项目的标准化做出贡献。
根据我们的个人经验,大多数旨在将模型部署到生产中的数据科学项目都不可能拥有一支庞大的团队。因此,很难在内部从零开始建立整个管道。这可能意味着机器学习项目会变成一次性的工作,随着时间的推移,性能会下降,数据科学家会在基础数据发生变化时花费大量时间来修复错误,或者模型不会被广泛使用。自动化、可重现的管道可减少部署模型所需的工作量。该流程应包括以下步骤
-
有效管理数据版本,启动新的模型训练运行
-
验证接收到的数据并检查数据漂移情况
-
为模型训练和验证有效预处理数据
-
有效训练机器学习模型
-
跟踪模型训练
-
分析和验证经过训练和调整的模型
-
部署经过验证的模型
-
扩大部署模式的规模
-
通过反馈回路获取新的训练数据和模型性能指标
这份清单忽略了重要的一点:选择模型架构。我们假设你已经对这一步骤有了很好的了解。如果您刚开始接触机器学习或 Deep Learning,这些资源是您熟悉机器学习的良好起点:
-
Deep Learning 基础:设计下一代机器智能算法》,第 1 版,作者 Nikhil Buduma 和 Nicholas Locascio(O'Reilly)
-
Hands-On Machine Learning with Scikit-Learn、Keras 和 TensorFlow》,第 2版,作者 Aurélien Géron (O'Reilly)
这本书适合哪些人阅读?
本书的主要读者是数据科学家和机器学习工程师,他们希望超越一次性机器学习模型的训练,并希望成功地将自己的数据科学项目产品化。您应该掌握基本的机器学习概念,并熟悉至少一种机器学习框架(如 PyTorch、TensorFlow、Keras)。本书中的机器学习示例基于 TensorFlow ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access