Skip to Content
数据分析之图算法: 基于Spark和Neo4j
book

数据分析之图算法: 基于Spark和Neo4j

by Mark Needham, Amy E. Hodler
September 2020
Intermediate to advanced
213 pages
5h 25m
Chinese
Posts & Telecom Press
Content preview from 数据分析之图算法: 基于Spark和Neo4j
图算法实战
145
.toPandas()
.head(10)
.plot(kind='bar', x='id', y='outDegree', legend=None))
ax.xaxis.set_label_text("")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
可视化结果如图
7-11
所示。
7-11:机场出港航班
航班量的差异很明显。排名第
5
的丹佛国际机场(
DEN
)的出港航班数量仅约为排名第
1
的哈兹菲尔德
杰克逊亚特兰大国际机场(
ATL
)的一半。
7.2.3
 源自
ORD
的延误
假设我们经常要往返于美国东西海岸之间,所以希望了解经过像芝加哥奥黑尔国际机场
ORD
)这样的中间枢纽所导致的延误。由于该数据集也包含了航班延误数据,因此可以
直接开展研究。
以下代码查找
ORD
出港航班的平均延误时间,并按目的地机场进行分组:
delayed_flights = (g.edges
.filter("src = 'ORD' and deptDelay > 0")
.groupBy("dst")
.agg(F.avg("deptDelay"), F.count("deptDelay"))
.withColumn("averageDelay",
F.round(F.col("avg(deptDelay)"), 2))
.withColumn("numberOfDelays",
146
7
F.col("count(deptDelay)"))) ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
Presto实战

Presto实战

Matt Fuller, Manfred Moser, Martin Traverso
精實企業|高績效組織如何達成創新規模化

精實企業|高績效組織如何達成創新規模化

Jez Humble, Joanne Molesky, Barry O'Reilly

Publisher Resources

ISBN: 9787115546678