Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
分布式分析和模式
85
值和最大值,而只能在计算结果中标注出
最后看到
的最小值和最大值,并在继续
reduce
传播它们。因此,我们不能在聚合期间简单地执行最终计算,而是需要另一个
map
在聚合
后的
RDD
(小得多)上完成概要计算。
这个 describe 示例提供了一种有用的模式,可以同时计算多个特征并将它们作为向量返
回。这种模式经常被重用,在机器学习上下文中尤其如此,因为可能需要多个过程生成训
练所需的实例(例如二次计算、归一化、插补、连接或更多具体的机器学习任务)。理解
MapReduce
聚合和
Spark
聚合之间的差异,对跟踪错误以及在
MapReduce
Spark
之间进
行代码移植大有帮助。
5.2.2
 索引
与基于聚合的概要技术不同,
索引
采用多对多的方法。聚合将多个记录收集到单个记录
中,而索引将多个记录与一个或多个索引相关联。在数据库中,索引是用于快速查找的
专用数据结构,通常是二叉树(
binary-tree
B-Tree
)。 在
Hadoop/Spark
中,索引也能发
挥类似的功能,但是它们不会被维护和更新,而通常会成为需要快速查找的下游计算的
第一步。
文本索引在
Hadoop
算法“万神殿”中地位特殊,这是由于
Hadoop
最初被用于创建搜索应
用程序。当仅处理一小部分文档时,它可以像 grep 一样扫描文档来查找搜索项。然而,随
着文档和查询的数量增加,再使用这种方法就不合适了。在本节中,我们将看到两种类型
的基于文本的索引:常见的倒排索引以及词频
-
逆文档频率(
TF-IDF
)。
TF-IDF
是与索引 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648