Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
168
10
数据产品是构建的消费品(不一定完全是软件),它从数据中获取价值并生
成新数据。要实现该定义,必然需要应用机器学习技术。数据驱动的应用程
序只是使用数据的应用程序(包括每个软件产品),例如博客、网上银行、
电子商务等。即使数据驱动的应用程序从数据中获取了价值,它也不一定会
生成新的数据。
本章将详细介绍如何使用本书中讨论过的所有工具来构建数据产品,并在此过程中,回答
如何将分布式计算的低级操作和高级生态系统工具拟合在一起。即便本书只是
Hadoop
分布式计算的一个入门介绍,但我们也想在总结时提供一些建议,看看接下来能做什么。
希望通过将整个数据产品和机器学习生命周期进行语境化,你能更轻松地识别和了解对工
作流至关重要的工具和技术。
10.1
 数据产品生命周期
构建数据产品需要建立和维护活动的数据工程流水线。流水线包括采集、整理、仓储、计算
和探索性分析等多个步骤,这些步骤一同构成了数据工作流管理系统。它的主要目标是建立
和实施拟合的(经过训练的)模型,其核心过程包括提取、转换和加载(
ETL
)过程——从
应用程序上下文中提取数据,将其加载到
Hadoop
中,在
Hadoop
集群中处理数据,然后将
数据
ETL
回应用程序。如图
10-1
所示,可以将这个简单的流程图看作是一个活动的或者常
规的生命周期。在这个周期内,通过新的数据和交互,为用户调整和使用机器学习模型。
采集过程
传感器、移动设备
历史的、
其他数据源
反馈
新数据
运行模型
预测
用户
交互
数据边界/消息队列
采集ETL
数据湖泊
数据整理、数据建模过程
报表和
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648