Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
130
7
7.2
 使用
Flume
获取流式数据
Flume
的设计初衷是从多个数据流中采集和获取大量数据到
Hadoop
Flume
的一个非常常
见的用例是采集日志数据,例如采集
Web
服务器上由多个应用服务器发射的日志数据,将
其聚合在
HDFS
中,供后续搜索或分析使用。但是,
Flume
并不仅限于简单地消费和获取
日志数据源,它还可以被自定义为从任何事件源传输大量的事件数据。在这两种情况下,
Flume
使我们能够
在数据写入
Hadoop
增量且持续地获取流式数据,而不用编写自定义
的客户端应用程序将数据批量加载到
HDFS
HBase
或其他
Hadoop
数据槽中。
Flume
提供
了一种统一而灵活的方法,将数据从大量不同且快速流动的数据流推送到
Hadoop
Flume
的灵活性源自其固有的可扩展式数据流架构。除灵活性以外,
Flume
旨在通过其分
布式架构来保持容错性和可扩展性。尽管一般推荐使用默认的“端到端”可靠性模式(保
证所有接收的事件最终都能发送出去)设置
5
,但
Flume
还是提供了多种冗余和恢复机制。
我们介绍了
Flume
的总体特征,但为了了解如何构建
Flume
数据流,我们需要查看它的基
本构建单元:
Flume
代理。
7.2.1
 
Flume
数据流
Flume
将从起点到目的地的数据采集路径表示为
数据流
。在数据流中,一个数据单元(又
事件
,例如一条日志)从源流经一系列跃点(
hop
)到达下一个目的地(
https://flume.
apache.org/FlumeUserGuide.html#data-flow-model ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648