Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
基于潜在语义分析算法分析维基百科
107
代码如下:
$ curl -s -L https://dumps.wikimedia.org/enwiki/latest/\
$ enwiki-latest-pages-articles-multistream.xml.bz2 \
$ | bzip2 -cd \
$ | hadoop fs -put - wikidump.xml
这个过程要花一段时间。
最好可以使用包含几个节点的小集群来处理这种体量的数据。如果在本地机器上运行本章
的代码,使用维基百科的导出页面功能(
https://en.wikipedia.org/wiki/Special:Export
)生成
一个较小的转储是一个更好的选择。尝试从一个有很多页面和几个子类目的类目,比如
Megafauna
Geometry
,下载所有页面。如果要运行以下代码,请将转储下载到
ch06-lsa/
目录下,并重命名为
wikidump.xml
6.3
 分析和准备数据
下面是导出文件的开头部分:
<page>
<title>Anarchism</title>
<ns>0</ns>
<id>12</id>
<revision>
<id>584215651</id>
<parentid>584213644</parentid>
<timestamp>2013-12-02T15:14:01Z</timestamp>
<contributor>
<username>AnomieBOT</username> ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525