第6章大数据分析

本章我们将介绍：

使用MapReduce 和Combiner 统计网络日志数据集中的独立IP 数

运用Hive 日期UDF 对地理事件数据集中的时间日期进行转换与排序

使用Hive 创建基于地理事件数据的每月死亡报告

实现Hive 用户自定义UDF 用于确认地理事件数据的来源可靠性

使用Hive 的map/reduce 操作以及Python 标记最长的无暴力发生的时间区间

使用Pig 计算Audioscrobbler 数据集中艺术家之间的余弦相似度

使用Pig 以及datafu 剔除Audioscrobbler 数据集中的离群值

6.1 介绍

学会运用 Apache Hive、Pig 以及 MapReduce 解决你所要面对的特定的问题，有时候是具有挑战性的。这章将介绍一些有关大数据分析的问题以及解决这些问题的方法。你将会发现，需要解决的问题并非难以置信地复杂，只是在处理大规模数据的时候，需要一些特殊的解决方法。即使本章采样的数据集较小，这些代码对于大数据集同样非常适用。

本章对需要分析的问题做了精心设计，以展示各种工具的强大特性。你会发现在解决问题的时候，这些特性和功能十分有用。

6.2 使用MapReduce和Combiner统计网络日志数据集中的独立IP数

本节将指导你创建一个MapReduce程序，统计在网络日志数据集中的独立IP数。我们将展示combiner特性，它能用于优化减少map和reduce之间传输的数据量。代码的实现适用于通用的形式，能对任何制表符分割的数据集中不同的值进行统计。

准备工作

本节假设你已经对Hadoop 0.20 MapReduce API 已经有基本的了解。你需要访问本书提供的数据集weblog_entries，并将其存储于HDFS路径/input/weblog中。 ...

Get Hadoop实际解决方案手册 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Hadoop实际解决方案手册 by Posts & Telecom Press, JONATHAN OWENS, Lentz Jon, Femiano Brian

第6章大数据分析

6.1 介绍

6.2 使用MapReduce和Combiner统计网络日志数据集中的独立IP数

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

第6章 大数据分析

6.1 介绍

6.2 使用MapReduce和Combiner统计网络日志数据集中的独立IP数

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

第6章大数据分析