第1章 大数据时代

每当里奥·梅西在巴塞罗那诺坎普足球场得分的时候,总有十多万的巴萨球迷为他们这位进球最多的前锋欢呼喝彩。社交媒体,诸如推特、Instagram和脸书会立刻被有关这位阿根廷球员的这个奇迹进球的评论、意见、看法、分析、照片和视频淹没。其中一个进球,发生在2015年5月对阵拜仁慕尼黑的比赛中,它帮助球队打进了欧洲冠军联赛的半决赛,单单在英国就创造了每分钟25000条推特微博的记录,成为了该国2015年度“最微博”体育时刻。这样一个进球不仅仅是足球迷和体育记者之间广为流传的兴奋时刻,而且还驱动着全球数量众多的运动服饰门店的市场营销部,这些市场营销部每天都在以高精度预测着店铺和网络销售的梅西衬衫和其他巴塞罗那俱乐部相关纪念品的数量。与此同时,各大电视台都在努力竞标即将到来的巴萨比赛,并且通过在半场休息播放广告吸金数百万。对于一些行业而言,这个进球的潜在价值超过了梅西2000万欧元的年薪。这个进球时刻创造了大量的信息,需要被收集、存储、转换、分析,以及以另一种形式重新传递,例如体育新闻对梅西这致命一射的慢动作回放,更多的衬衫被派送到运动服专卖店,一份销售电子表单,或者一份概述巴萨电视转播收入的营销简报。这样的类似于梅西进球击败拜仁慕尼黑的时刻,每天都在发生。事实上,当你正在看这本书的时候,它可能就正在发生。如果你想知道现在全世界都在关注什么,上推特网页,打开时刻标签页,看看现在最受欢迎的标签和话题就知道了。每一个事件,或者比这个更重要,或者不那么重要,但是它们都会产生大量的不同形式的数据,社交媒体、YouTube 视频和博客文章都只包含了其中一小部分。这些数据可以很容易地和该事件相关的其他信息联系在一起,建立一个复杂的非结构化的数据存储,从不同的角度、使用不同的分析方法来解释一个特定的问题。但是问题来了:互联网领域的数据挖掘是如此简单、方便,以至于我们很快就会把这些数据集塞满硬盘,或者用完处理能力或内存资源。如果你管理数据的时候遇到了这些问题,那你很有可能就是在处理大数据了。 ...

Get R大数据分析实用指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.