第7章 高级大数据分析

本章我们将介绍:

使用Apache Giraph 计算PageRank

使用Apache Giraph 计算单源最短路径

使用Apache Giraph 执行分布式宽度优先搜索

使用Apache Mahout 计算协同过滤

使用Apache Mahout 进行聚类

使用Apache Mahout 进行情感分类

7.1 介绍

使用MapReduce框架很难解决图计算和机器学习的问题。大多数这些问题需要使用复杂的算法进行多步迭代,通过MapReduce实现是十分麻烦的。幸运的是,有两个有用的框架可以在Hadoop 环境中帮助解决图计算和机器学习的问题。Apache Giraph 是一个为了运行大规模算法而设计的图处理框架。Apache Mahout 框架提供了关于分布式机器学习算法的实现。

本章将向读者介绍这两个框架,这些框架都充分利用了MapReduce分布式处理的能力。

7.2 使用Apache Giraph计算PageRank

本节的首要目的在于建立和测试Apache Giraph默认提供的基于Google Pregel建模而实现的PageRank的例子。这里将展示在一个伪分布式Hadoop集群,提交和执行Giraph作业的步骤。

准备工作

对于第一次运行Giraph的用户,我们建议在伪分布式Hadoop集群上运行本节的内容。

对于客户机而言,需要在用户环境路径中安装并配置SVN以及Maven。

本节不需要对Giraph API 有一个全面的了解,但是需要对大容量同步并行处理(BSP)以及以节点为中心的API 设计(例如Apache Giraph 以及Google Pregel)有一定了解。

操作步骤

执行下面的步骤,建立并测试默认的Giraph PageRank ...

Get Hadoop实际解决方案手册 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.