第 1 章 导言 导言
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
我们从一个模型或框架开始,将机器学习(ML)添加到网站中,它广泛适用于多个领域,而不仅仅是本示例。这个模型我们称之为ML 循环。
ML 生命周期
ML 应用程序永远不会真正完成。无论是在技术上,还是在组织上,它们也不会在任何一个地方开始或停止。ML 模型开发人员通常希望他们的生活很简单,只需收集一次数据并训练一个模型,但这种情况很少发生。
一个简单的思想实验可以帮助我们理解其中的原因。假设我们有一个 ML 模型,而我们正在研究该模型是否工作得足够好(根据某个阈值)。如果运行得不够好,数据科学家、业务分析师和 ML 工程师通常会合作研究如何理解故障并加以改进。正如您所预料的那样,这涉及到大量的工作:也许要修改现有的训练管道以改变一些特征,添加或删除一些数据,以及重组模型以迭代已经完成的工作。
相反,如果模型运行良好,组织通常会感到兴奋。自然而然的想法是,如果我们通过一次天真的尝试就能取得如此大的进步,那么试想一下,如果我们再加把劲,让模型变得更加复杂,我们能做得更好。这通常涉及--你猜对了--修改现有的训练管道、改变特征、添加或删除数据,甚至可能重组模型。无论如何,我们所做的工作大致相同,我们建立的第一个模型只是我们下一步工作的起点。
让我们更详细地了解一下多语言生命周期或循环(图 1-1)。
图 1-1. 多语言生命周期
ML 系统以数据为起点,因此让我们从图的左侧开始,更详细地了解这一循环。我们将具体查看每个阶段,并以我们的购物网站为背景,解释每个阶段都有哪些组织人员参与,以及他们将开展的关键活动。
数据收集与分析
首先,团队要清点 所拥有的数据,并开始评估这些数据。团队成员需要确定他们是否拥有所需的所有数据,然后优先考虑他们可以将数据用于哪些业务或组织用途。然后,他们必须收集和处理数据。
与数据收集和分析相关的工作几乎涉及到公司中的每个人,但具体涉及到他们的程度往往因公司而异。例如,业务分析师可能在财务、会计或产品团队工作,每天使用平台提供的数据。或者,数据和平台工程师可能会为数据的摄取、清理和处理构建可重复使用的工具,尽管他们可能并不参与业务决策。(在规模较小的公司,他们可能都只是软件或产品工程师)。有些地方有正式的数据工程职位。其他公司则有数据科学家、产品分析师和用户体验(UX)研究人员,他们都在使用这一阶段的工作成果。
对于我们的网店运营商 YarnIt 来说,大部分组织都参与了这一步骤。这包括业务和产品团队,他们最了解业务中影响最大的优化领域。例如,他们可以确定每次销售利润的小幅增长对业务是否更重要,还是稍微提高订单频率更有意义。他们可以指出低利润和高利润产品的问题或机会,并讨论将客户细分为利润较高和较低的客户。产品工程师和 ML 工程师也会参与其中,思考如何处理所有这些数据,而现场可靠性工程师(SRE)则会,就整体流水线提出建议和决策,使其更具可监控性、可管理性和可靠性。
管理 ML 数据是一个涉及面很广的话题,因此我们在第 2 章专门讨论了数据管理原则,并在第 4章和第 10 章讨论了训练数据。现在,我们不妨假设,数据收集和处理系统的正确设计和管理是任何优秀 ML 系统的核心。一旦我们将数据放置在合适的位置并以合适的格式保存,我们就可以 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access