book

使用 Apache Sedona 进行云原生地理空间分析 (Chinese Edition)

Name: 使用 Apache Sedona 进行云原生地理空间分析 (Chinese Edition)
ISBN: 0642572292300

by Pawel Tokaj, Jia Yu, Mo Sarwat

December 2025

Beginner to intermediate

325 pages

4h 23m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
序言
关于本书我们为何撰写本书书中内容如何使用本书本书采用的规范代码示例的使用O'Reilly在线学习联系我们鸣谢Paweł Tokaj Jia Yu
1. Apache Sedona 简介
云原生地理空间分析及其挑战导论地理空间分析生态系统利用云原生架构Apache Sedona 概述空间查询处理Apache Spark 概述理解 Apache Sedona 的架构与组件Apache Sedona 数据结构空间 SQL空间查询优化空间文件格式支持可视化与PyData生态系统的集成Apache Sedona的优势开发者体验Apache Sedona 的使用者Apache Sedona 常见使用场景社区采用情况项目未来展望资源总结
2. Apache Sedona 入门指南
如何运行 Apache Sedona Python 程序Apache Sedona Docker 镜像笔记本环境概述空间数据帧空间 SQL 简介使用数据框 API数据可视化总结
3. 将地理空间数据加载到 Apache Sedona
加载向量数据格式向量数据序列化Apache Sedona序列化向量数据格式差异分布式与非分布式文件读取平面文件读取Shapefile读取 GeoJSON读取GeoPackage读取GeoParquet栅格数据格式（GeoTIFF）简介Sedona如何处理栅格数据从数据库加载数据从 PostgreSQL (PostGIS) 读取从 MySQL 读取从MongoDB读取数据同步PostgreSQL 到 GeoParquet 源的 CDC实践案例：纽约出租车数据分析最热门的取货和送货区域十大热门路线总结
4. 点、线与面：基于空间SQL的向量数据分析
向量数据模型与空间关系空间关系维度扩展的九交叉模型（DE-9IM）空间参考系统与地理模型坐标参考系统基准面地图投影转换空间SQL与向量数据操作空间查询Spark分布式连接空间连接空间索引优化空间连接空间分区分布式空间连接分布式KNN连接实践案例：房地产分析总结
5. 栅格数据分析
栅格数据模型栅格SQL与栅格数据操作栅格加载器向栅格格式写入像素函数几何函数栅格访问器光栅条带访问器光栅谓词基于光栅的运算符栅格瓦片地图代数函数栅格可视化区域统计地图代数栅格数据连接实践案例：保险风险建模人口密度（建筑人口）洪水风险（flood_stats）火灾风险（fire_risk_stats）最近的警察局和消防局住宅建筑密度（building_density）摘要
6. Apache Sedona 与 PyData 生态系统
处理地理空间向量数据使用GeoPandas和Shapely栅格数据工具地理空间代码调度使用dbt转换地理空间数据使用Apache Sedona编写dbt应用程序使用Apache Sedona测试dbt应用程序向量地理空间可视化Kepler.glGeoPandasPyDeck栅格地理空间可视化总结
7. 地理空间数据科学与机器学习
Apache Sedona（DBSCAN）地理空间聚类异常值检测（局部异常因子）热点分析（局部Getis-Ord Gi*）自相关分析（莫兰指数）基于栅格数据的分类、分割与目标检测使用MLlib创建地理空间机器学习模型实践案例：分析德国道路交通事故总结
8. 基于Apache Parquet与Apache Iceberg构建地理空间数据湖仓
数据湖屋架构概述Parquet深度解析列式数据格式与行式数据格式的对比Parquet数据格式GeoParquet冰山桌数据事务模式演进Apache Iceberg 规范Apache Iceberg 功能Iceberg 地理空间类型实践案例：地理空间数据湖屋深度解析总结

9. 结合 Cloud 数据提供商使用 Apache Sedona
前提条件塞多纳闪光DatabricksAWS EMRAWS GlueMicrosoft FabricGCP DataprocWherobots Cloud雪松雪花中的雪松雪Sedona EWKB编码几何构造函数Snowflake GeoJSON编码几何构造函数空间连接Sedona Flink（Ververica）概要
10. 优化 Apache Sedona 应用程序
优化Apache Sedona程序仅选择所需列尽早过滤减少顶点数量限制球面距离在连接中的使用缓存重复使用的数据框修改连接操作的分区数避免不必要的洗牌避免宽表操作避免为应用程序驱动程序收集大量数据使用窗口函数替代GROUP BY和连接操作使用原生Sedona Apache方法使用 Apache Sedona 序列化器避免偏斜连接空间分区空间连接Apache Sedona PythonPython（向量）UDF 与 Apache Sedona SQL 函数的对比Apache Sedona数据框转换为GeoPandas数据框（含/不含GeoArrow）GeoPandas数据框转换为Apache Sedona数据框（含/不含GeoArrow）GeoParquet 与 Spatial ParquetApache Iceberg总结
索引
关于作者

Content preview from 使用 Apache Sedona 进行云原生地理空间分析 (Chinese Edition)

第三章·将地理空间数据加载到Apache Sedona

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

多年来，的shapefile格式一直是主要的地理空间文件格式。对于小型数据集以及在本地机器上分析数据时，它表现良好。然而随着现代技术快速发展和数据量激增，shapefile因无法支持数组等复杂数据类型、文件维护困难、缩放问题、列名限制等多重缺陷，已难以满足需求。为突破shapefile瓶颈，业界尝试引入的GeoJSON和的GeoPackage等新格式。这些格式在特定场景下适用，但同样存在局限。近年来，GeoParquet作为地理空间分析数据存储标准崭露头角，成功激活了Apache Parquet和Apache Iceberg格式原生的地理空间支持能力。

任何成熟的分析系统都必须支持用户从最常见的数据格式加载数据，Sedona 提供了这一能力。然而，此处提及的部分数据格式并未针对分布式系统进行优化设计。

本章将探讨地理空间数据格式的核心原理，包括二进制格式与文本格式等数据序列化技术，并分析在分布式环境中高效处理数据时应选用何种格式。

本章前半部分将探讨存储表格化向量数据格式的挑战，随后回顾向量数据序列化技术，并解析Apache Sedona如何实现其内部数据模型的序列化。最后将分步演示如何将主流向量数据格式加载至空间数据框。

第二部分聚焦栅格数据格式，重点讲解如何将GeoTIFF文件加载至Apache Sedona。该部分最后一个示例将展示如何在Apache Sedona中轻松融合栅格与向量数据。

从数据库读取数据是数据工程领域常见任务，第三部分将对此进行阐述。本章最后将实践所学知识，为纽约出租车数据集编写分析代码。

加载向量数据格式

存储地理空间数据固然困难，但精炼描述这类数据更为棘手。考虑到可能需要分析数据框中的数十亿条记录，我们必须确保数据写入速度相对较快，同时尽可能减少网络传输和磁盘存储所需的空间。存储地理空间数据时存在若干复杂性：

巨型多边形或线串可能包含的点数。
存储多维数据。
在复杂几何形状中，多边形可能包含多个孔洞，这些都需要进行编码处理。
多种几何类型：点、多边形、线串、圆、三角形。
坐标参考系统（CRS）（不同CRS的数据不可直接比较）。

在逐步讲解如何将数据加载到地理空间数据框之前，我们将介绍常用的地理空间序列化方法，以及Apache Sedona如何适配这些技术。理解这些常用方法至关重要，因为当您处理不熟悉且Sedona不支持的数据源时，它们可能提供重要帮助。

注

本书中"加载"与"读取"可互换使用。

向量数据序列化

向量数据序列化是将地理空间对象转换为字节数组的过程。向量数据的两种主流存储方式是：广义文本（WKT） 和广义二进制（WKB）。开放地理空间联盟（OGC）最初在其简单特征访问规范中定义并描述了这些格式。当前标准定义见于ISO/IEC 13249-3:2016 标准。

WKT采用字符串以简洁易读的方式表示几何图形，可描述二维、三维或四维空间中的多边形、多线串或点等对象。

WKT字符串示例如下：

LINESTRING (
  20.9972017 52.1696936,
  20.9971687 52.1696659,
  20.997156 52.169644,
  20.9971487 52.1696213
)

因篇幅限制，我们不得不将WKT字符串拆分为多行；多数库可解析此格式，但并非全部。

WKB采用二进制格式表示地理空间数据，有助于缩减存储和传输数据的体积。它支持多种形状，如多边形、线串、点、圆、曲线等。WKB还能存储坐标参考系统（CRS）信息，与WKT类似，其扩展版本以E为前缀（如EWKB、EWKT）。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

What Successful Brick-and-Mortar Retailers Get Right

Publisher Resources

ISBN: 0642572292300

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business