第6章 大数据分析

本章我们将介绍:

使用MapReduce 和Combiner 统计网络日志数据集中的独立IP 数

运用Hive 日期UDF 对地理事件数据集中的时间日期进行转换与排序

使用Hive 创建基于地理事件数据的每月死亡报告

实现Hive 用户自定义UDF 用于确认地理事件数据的来源可靠性

使用Hive 的map/reduce 操作以及Python 标记最长的无暴力发生的时间区间

使用Pig 计算Audioscrobbler 数据集中艺术家之间的余弦相似度

使用Pig 以及datafu 剔除Audioscrobbler 数据集中的离群值

6.1 介绍

学会运用 Apache Hive、Pig 以及 MapReduce 解决你所要面对的特定的问题,有时候是具有挑战性的。这章将介绍一些有关大数据分析的问题以及解决这些问题的方法。你将会发现,需要解决的问题并非难以置信地复杂,只是在处理大规模数据的时候,需要一些特殊的解决方法。即使本章采样的数据集较小,这些代码对于大数据集同样非常适用。

本章对需要分析的问题做了精心设计,以展示各种工具的强大特性。你会发现在解决问题的时候,这些特性和功能十分有用。

6.2 使用MapReduce和Combiner统计网络日志数据集中的独立IP数

本节将指导你创建一个MapReduce程序,统计在网络日志数据集中的独立IP数。我们将展示combiner特性,它能用于优化减少map和reduce之间传输的数据量。代码的实现适用于通用的形式,能对任何制表符分割的数据集中不同的值进行统计。

准备工作

本节假设你已经对Hadoop 0.20 MapReduce API 已经有基本的了解。你需要访问本书提供的数据集weblog_entries,并将其存储于HDFS路径/input/weblog中。 ...

Get Hadoop实际解决方案手册 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.