Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
9
机器学习
机器学习计算旨在从当前和历史数据中推导出预测模型。它作出了一个固有假设,即经历
越多训练或获取越多经验,学习获得的算法将改进越多。通过从大数据集训练出来的模
型,机器学习算法可以在非常小的领域实现非常好的预测效果。
因此,大多数机器学习算法都涉及大规模计算。出于这个原因,机器学习计算非常适用于
Spark
等分布式计算范式,利用大型训练集生成有意义的结果。本章将介绍
Spark
内置的
机器学习库——
Spark MLlib
http://spark.apache.org/docs/1.5.0/mllib-guide.html
)。它由许多
常见的学习算法和实用程序组成,比如分类、回归、聚类、协同过滤、降维以及一个新的
“机器学习流水线”框架——
spark.ml
spark.ml
提供了一套统一的高级
API
,可以帮助用
户创建和优化实际的机器学习流水线。
1
9.1
 使用
Spark
进行可扩展的机器学习
在第
4
章中,我们将
Spark
作为一个可在
Hadoop
集群上运行的内存分布式计算引擎进行
了介绍。而且,
Spark
平台还附带了几个使用
Spark
处理引擎的内置组件,来支持其他类
型的分析工作,这些功能都受益于
Spark
的计算优化。本章将仔细研究
Spark
的内置机器
学习库——
MLlib
。该库包含一套通用的统计和机器学习算法和实用程序,它们都被设计
为能在集群中扩展。
2
有些人可能对数据挖掘和机器学习的编程库很熟悉,比如
Python
Weka
http://www.
cs.waikato.ac.nz/ml/weka/ ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648