
168
|
第
10
章
数据产品是构建的消费品(不一定完全是软件),它从数据中获取价值并生
成新数据。要实现该定义,必然需要应用机器学习技术。数据驱动的应用程
序只是使用数据的应用程序(包括每个软件产品),例如博客、网上银行、
电子商务等。即使数据驱动的应用程序从数据中获取了价值,它也不一定会
生成新的数据。
本章将详细介绍如何使用本书中讨论过的所有工具来构建数据产品,并在此过程中,回答
如何将分布式计算的低级操作和高级生态系统工具拟合在一起。即便本书只是
Hadoop
和
分布式计算的一个入门介绍,但我们也想在总结时提供一些建议,看看接下来能做什么。
希望通过将整个数据产品和机器学习生命周期进行语境化,你能更轻松地识别和了解对工
作流至关重要的工具和技术。
10.1
数据产品生命周期
构建数据产品需要建立和维护活动的数据工程流水线。流水线包括采集、整理、仓储、计算
和探索性分析等多个步骤,这些步骤一同构成了数据工作流管理系统。它的主要目标是建立
和实施拟合的(经过训练的)模型,其核心过程包括提取、转换和加载(
ETL
)过程——从
应用程序上下文中提取数据,将其加载到
Hadoop
中,在
Hadoop
集群中处理数据,然后将
数据
ETL
回应用程序。如图
10-1
所示,可以将这个简单的流程图看作是一个活动的或者常
规的生命周期。在这个周期内,通过新的数据和交互,为用户调整和使用机器学习模型。
采集过程
传感器、移动设备
历史的、
其他数据源
反馈
新数据
运行模型
预测
用户
交互
数据边界/消息队列
采集ETL
数据湖泊
数据整理、数据建模过程
报表和