第5章 利用Spark进行地理分析

地理分析是Spark强有力的使用案例之一,因此本章的目标是说明数据科学家如何使用Spark处理地理数据,在非常大的数据集上生成强大的、基于地图的视图。我们将演示如何通过集成GeoMesa的Spark轻松处理时空数据集,这有助于将Spark转变为复杂的地理处理引擎。随着物联网(IoT)和其他位置的感知数据集变得越来越普遍,以及移动对象的数据量不断攀升,Spark将成为弥合空间功能和处理可扩展性之间存在的地理数据鸿沟的关键工具。本章将展示如何对全球新闻进行高级地缘政治分析,以便利用这些数据对油价进行科学分析。

在这一章里,我们将探讨以下主题。

  • 使用Spark来采集和预处理地理定位数据。
  • 使用GeoMesa中的GeoHash索引存储有适当索引的地理数据。
  • 运行复杂的时空查询,跨越时间和空间过滤数据。
  • 联合使用Spark和GeoMesa进行高级地理处理,以便研究数据随时间产生的变化。
  • 使用Spark计算密度图并可视化这些图中随着时间产生的变化。
  • 跨地图图层查询和集成空间数据,以获取新见解。

学习本章的前提是我们可以操作GDELT数据,并根据历史事件或多或少地确定石油价格。我们预测的准确性取决于许多变量,包括获取的事件的详细信息,使用的事件数量以及我们围绕石油与这些事件之间关系的性质的假设。

石油工业非常复杂,受许多因素影响。然而,人们发现,石油价格波动很大程度上是原油需求的变化造成的。在对库存需求增加的时期,价格会上涨,而在中东地缘政治紧张时期,价格一直处于高位。特别是,政治事件对油价有很大的影响,我们将重点考虑这方面问题。

世界上许多国家生产原油。但是,生产者会参考以下3个主要基准来定价。

  • 布伦特:北大西洋北海布伦特地区的各实体生产的原油。 ...

Get 精通Spark数据科学 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.