
2
|
第
1
章
在这样的背景下,
Apache Flink
(以下简称
Flink
)应运而生。作为在公共社
区中诞生的开源软件,
Flink
为大容量数据提供流处理,并用同一种技术实
现批处理。
在
Flink
的开发过程中,开发人员着眼于避免其他流处理方法不得不在高效
性或者易用性方面所做的妥协。
本书将讨论流处理的一些潜在好处,从而帮助你确定以流为基础的数据处
理方法是否适合你自己的商业目标。流处理的一些数据来源以及适用场景
可能会让你感到意外。此外,本书还将帮助你理解
Flink
的技术以及这些技
术如何克服流处理面临的困难。
本章将介绍人们希望通过分析流数据获得什么,以及在大规模流数据分析
过程中面临的困难。本章是关于
Flink
的入门介绍,你可以看到人们平常
(包括在生产环境中)是怎么使用它的。
1.1
流处理欠佳的后果
谁需要和流数据打交道呢?首先映入脑海的是从事传感器测量和金融交易
的工作人员。对于他们来说,流处理非常有用。但是流数据来源非常广泛,
两个常见的例子是:网站获得的能够反映用户行为的点击流数据,以及私
有数据中心的机器日志。事实上,流数据来源无处不在,但是从连续事件
中获得数据并不意味着可以在批量计算中使用这些数据。如今,处理大规
模流数据的新技术正在改变这一状况。
如果说处理大规模流数据是一个历史性难题,我们为什么还要不厌其烦地
尝试打造更好的流处理系统呢?在介绍支持流处理的新架构及新技术之前,
我们先来谈谈不能很好地处理流数据会有什么后果。
1.1.1
零售业和市场营销
在现代零售业中,网站点击量就代表了销量。网站获得的点击数据可能是 ...