
图算法实战
|
145
.toPandas()
.head(10)
.plot(kind='bar', x='id', y='outDegree', legend=None))
ax.xaxis.set_label_text("")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
可视化结果如图
7-11
所示。
图 7-11:机场出港航班
航班量的差异很明显。排名第
5
的丹佛国际机场(
DEN
)的出港航班数量仅约为排名第
1
的哈兹菲尔德
–
杰克逊亚特兰大国际机场(
ATL
)的一半。
7.2.3
源自
ORD
的延误
假设我们经常要往返于美国东西海岸之间,所以希望了解经过像芝加哥奥黑尔国际机场
(
ORD
)这样的中间枢纽所导致的延误。由于该数据集也包含了航班延误数据,因此可以
直接开展研究。
以下代码查找
ORD
出港航班的平均延误时间,并按目的地机场进行分组:
delayed_flights = (g.edges
.filter("src = 'ORD' and deptDelay > 0")
.groupBy("dst")
.agg(F.avg("deptDelay"), F.count("deptDelay"))
.withColumn("averageDelay",
F.round(F.col("avg(deptDelay)"), 2))
.withColumn("numberOfDelays",