第7章 处理大数据
本章涵盖如下内容:
- 使用Apache Mahout训练在线逻辑回归模型;
- 使用Apache Mahout应用在线逻辑回归模型;
- 使用Apache Spark解决简单文本挖掘问题;
- 使用MLib的K均值算法进行聚类;
- 使用MLib创建线性回归模型;
- 使用MLib的随机森林模型对数据点进行分类。
7.1 简介
本章,我们将学习大数据框架中使用的3种关键技术,分别是Apache Mahout、Apache Spark,及其机器学习库MLib,它们对于数据科学家极其有用。
首先学习Apache Mahout,它是一个可扩展的、分布式机器学习平台,可以用来进行分类、回归、聚类、协同过滤任务。Mahout起初是一个机器学习工作台,只工作在Hadoop MapReduce之上,但是最后选择Apache Spark作为它的平台。
Apache Spark是一个支持大数据并行处理的框架,与MapReduce很相似,它也支持数据的跨集群分发。但是Spark与MapReduce最主要的不同在于,Spark会优先考虑并尽量把数据保存在内存中,而MapReduce会不断地读写磁盘。因此,Spark运行速度要明显快于MapReduce。下面我们将学习作为一个数据科学家如何使用Sark来做简单的文本挖掘任务,比如统计空行数量,获取特定单词在一个大文件中出现的频率。选用Spark的另一个原因是它不仅支持Java,还支持其他流行语言,比如Python、Scala,而使用MapReduce时,通常只能选用Java语言。
MLib是一个可扩展的机器学习库,它来自于Apache Spark,包含各种分类、回归、聚类、协同过滤、特征选择算法。MLib通常工作在Spark下,借助其速度来解决机器学习问题。本章,我们将学习如何使用这个库来解决分类、回归、聚类问题。 ...
Get Java数据科学指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.