第1章 实时分析简介

本章为读者展现了大数据技术的全貌,尤其是大数据实时分析的概况。本章先给出了概念性的大纲,旨在起到抛砖引玉的作用,以激励读者继续阅读本书后续章节的内容。

本章主要包括以下内容

  • 大数据的定义
  • 大数据的基础设施
  • 实时分析——神话与现实
  • 近实时解决方案——可用的架构
  • 分析学——过多的可能性
  • 物联网——想法与可能性
  • 云——考虑NRT和物联网

简单来说,大数据有助于处理“3V”问题——体量、速度和多样性。最近,又增加了“2V”——真实性与价值,这就构成了一个五维的范式。

体量:数据的数量。环顾四周,每时每刻都有大量的数据产生,比如电子邮件、推特(Twitter)、脸书(Facebook)或者其他社交媒体中的信息,又如视频、图片、短信、电话记录以及各种设备和传感器产生的数据。数据的计量单位从TB级到ZB级,甚至到YB级这样趋近天文数字的量级。在Facebook上,每天大约产生100亿条消息,点赞50亿次,上传4亿张照片。统计结果令人惊讶,2008年前产生的所有数据量与今天一天生成的数据量相当,相信在不远的将来,这个时间很快就会缩短为一小时。仅从数据体量这一维度来看,传统数据库已经无法在合理的时间范围内存储和处理大规模数据,于是大数据栈脱颖而出,它以低成本、分布式且可靠有效的方式处理这些惊人的海量数据。

速度:数据产生的速度。如今的时代,各种各样的数据都在激增。正是因为数据产生的速度足够快,才积累了如此海量的数据。社交媒体上的事件通常在数秒内就开始流传,接着就开始病毒式地传播。股票交易员在短短数毫秒内就能从社交媒体的热门事件中分析出一些有用信息,并由此触发大量的买入/卖出操作。大数据赋予人们以惊人的速度分析数据的能力:在零售业柜台的终端设备上,短短数秒内信用卡刷卡、欺诈交易的辨别、支付、记账和确认回执等一系列操作就都完成了。 ...

Get 实时数据处理和分析指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.