Skip to Content
数据分析之图算法: 基于Spark和Neo4j
book

数据分析之图算法: 基于Spark和Neo4j

by Mark Needham, Amy E. Hodler
September 2020
Intermediate to advanced
213 pages
5h 25m
Chinese
Posts & Telecom Press
Content preview from 数据分析之图算法: 基于Spark和Neo4j
使用图算法增强机器学习
161
8.3.1
 工具和数据
首先安装工具并导入数据,然后探查数据集并创建一个机器学习管道。
做其他工作之前,先安装要用到的库。
py2neo
一个与
Python
数据科学生态系统很好集成的
Neo4j Python
库。
pandas
一个用于整理数据库外部数据的高性能库,具有易用的数据结构和数据分析工具。
Spark MLlib
Spark
的机器学习库。
我们使用
MLlib
作为机器学习库的示例。本章所示方法可与其他机器学习库
(如
scikit-learn
)联用。
所有代码都将在
PySpark REPL
中运行。可以通过以下命令启动
REPL
export SPARK_VERSION="spark-2.4.0-bin-hadoop2.7"
./${SPARK_VERSION}/bin/pyspark \
--driver-memory 2g \
--executor-memory 6g \
--packages julioasotodv:spark-tree-plotting:0.2
这与第
3
章使用的
REPL
启动命令类似,只是没有加载
GraphFrames
库,而是加载了
spark-
tree-plotting
包。在编写本书之时,
Spark
的最新发布版本是
spark-2.4.0-bin-hadoop2.7
。当
你阅读本书时,版本可能已经发生变化,若是如此,请确保正确更改
SPARK_VERSION
环境
变量。
启动
REPL
后,可以导入要用到的库,如下所示:
from py2neo ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
Presto实战

Presto实战

Matt Fuller, Manfred Moser, Martin Traverso
精實企業|高績效組織如何達成創新規模化

精實企業|高績效組織如何達成創新規模化

Jez Humble, Joanne Molesky, Barry O'Reilly

Publisher Resources

ISBN: 9787115546678