第3章 了解和跟踪数据流
在本章,我们将深入探讨实时应用程序的核心技术,即从源获取流数据到计算组件。我们将讨论需求及一些可用的技术选型,还将向读者说明哪些技术更适合某些用例和场景,从基本用例到高级设置均有涉及。本章还将介绍与用例的数据提取相关的技术。
本章主要包括以下内容
- 理解数据流
- 为数据提取安装基础设施
- 将数据从源填到处理器——需求和注意事项
- 比较与选择适合用例的最佳实践
- 小试牛刀
3.1 了解数据流
数据流是使用任何介质的任何类型数据的连续流。在大数据的“4V”概念中,有两个“V”分别指的是速度和各种数据。数据流是来自社交媒体网站或安装在企业或车辆上的不同监控传感器等源中的实时数据。流式数据处理的另一个例子是物联网,数据通过互联网来自不同的组件。大数据处理中的实时数据流如图3-1所示。
图3-1
有两种不同类型的流数据:有界流和无界流,如图3-2所示。有界流具有定义的开始和结束。一旦到达流的结尾,数据处理就停止。通常,这称为批处理。无界流没有结束,数据从开始就进行处理。这称为实时处理,它将事件的状态保存在内存中以进行处理。管理和实现无界数据流的用例是非常困难的,但是有一些工具可以让读者有机会使用它们,包括ApacheStorm、ApacheFlink、AmazonKinesis和Samaza等。
图3-2
在接下来的章节中,我们将讨论数据处理。这里主要讨论的数据提取工具会集成到数据处理引擎中。数据可能来自生成日志文件的系统,或者直接来自终端或端口。
3.2 为数据提取安装基础设施 ...
Get 实时数据处理和分析指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.