book

使用 Apache Sedona 进行云原生地理空间分析 (Chinese Edition)

Name: 使用 Apache Sedona 进行云原生地理空间分析 (Chinese Edition)
ISBN: 0642572292300

by Pawel Tokaj, Jia Yu, Mo Sarwat

December 2025

Beginner to intermediate

325 pages

4h 23m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
序言
关于本书我们为何撰写本书书中内容如何使用本书本书采用的规范代码示例的使用O'Reilly在线学习联系我们鸣谢Paweł Tokaj Jia Yu
1. Apache Sedona 简介
云原生地理空间分析及其挑战导论地理空间分析生态系统利用云原生架构Apache Sedona 概述空间查询处理Apache Spark 概述理解 Apache Sedona 的架构与组件Apache Sedona 数据结构空间 SQL空间查询优化空间文件格式支持可视化与PyData生态系统的集成Apache Sedona的优势开发者体验Apache Sedona 的使用者Apache Sedona 常见使用场景社区采用情况项目未来展望资源总结
2. Apache Sedona 入门指南
如何运行 Apache Sedona Python 程序Apache Sedona Docker 镜像笔记本环境概述空间数据帧空间 SQL 简介使用数据框 API数据可视化总结
3. 将地理空间数据加载到 Apache Sedona
加载向量数据格式向量数据序列化Apache Sedona序列化向量数据格式差异分布式与非分布式文件读取平面文件读取Shapefile读取 GeoJSON读取GeoPackage读取GeoParquet栅格数据格式（GeoTIFF）简介Sedona如何处理栅格数据从数据库加载数据从 PostgreSQL (PostGIS) 读取从 MySQL 读取从MongoDB读取数据同步PostgreSQL 到 GeoParquet 源的 CDC实践案例：纽约出租车数据分析最热门的取货和送货区域十大热门路线总结
4. 点、线与面：基于空间SQL的向量数据分析
向量数据模型与空间关系空间关系维度扩展的九交叉模型（DE-9IM）空间参考系统与地理模型坐标参考系统基准面地图投影转换空间SQL与向量数据操作空间查询Spark分布式连接空间连接空间索引优化空间连接空间分区分布式空间连接分布式KNN连接实践案例：房地产分析总结
5. 栅格数据分析
栅格数据模型栅格SQL与栅格数据操作栅格加载器向栅格格式写入像素函数几何函数栅格访问器光栅条带访问器光栅谓词基于光栅的运算符栅格瓦片地图代数函数栅格可视化区域统计地图代数栅格数据连接实践案例：保险风险建模人口密度（建筑人口）洪水风险（flood_stats）火灾风险（fire_risk_stats）最近的警察局和消防局住宅建筑密度（building_density）摘要
6. Apache Sedona 与 PyData 生态系统
处理地理空间向量数据使用GeoPandas和Shapely栅格数据工具地理空间代码调度使用dbt转换地理空间数据使用Apache Sedona编写dbt应用程序使用Apache Sedona测试dbt应用程序向量地理空间可视化Kepler.glGeoPandasPyDeck栅格地理空间可视化总结
7. 地理空间数据科学与机器学习
Apache Sedona（DBSCAN）地理空间聚类异常值检测（局部异常因子）热点分析（局部Getis-Ord Gi*）自相关分析（莫兰指数）基于栅格数据的分类、分割与目标检测使用MLlib创建地理空间机器学习模型实践案例：分析德国道路交通事故总结
8. 基于Apache Parquet与Apache Iceberg构建地理空间数据湖仓
数据湖屋架构概述Parquet深度解析列式数据格式与行式数据格式的对比Parquet数据格式GeoParquet冰山桌数据事务模式演进Apache Iceberg 规范Apache Iceberg 功能Iceberg 地理空间类型实践案例：地理空间数据湖屋深度解析总结

9. 结合 Cloud 数据提供商使用 Apache Sedona
前提条件塞多纳闪光DatabricksAWS EMRAWS GlueMicrosoft FabricGCP DataprocWherobots Cloud雪松雪花中的雪松雪Sedona EWKB编码几何构造函数Snowflake GeoJSON编码几何构造函数空间连接Sedona Flink（Ververica）概要
10. 优化 Apache Sedona 应用程序
优化Apache Sedona程序仅选择所需列尽早过滤减少顶点数量限制球面距离在连接中的使用缓存重复使用的数据框修改连接操作的分区数避免不必要的洗牌避免宽表操作避免为应用程序驱动程序收集大量数据使用窗口函数替代GROUP BY和连接操作使用原生Sedona Apache方法使用 Apache Sedona 序列化器避免偏斜连接空间分区空间连接Apache Sedona PythonPython（向量）UDF 与 Apache Sedona SQL 函数的对比Apache Sedona数据框转换为GeoPandas数据框（含/不含GeoArrow）GeoPandas数据框转换为Apache Sedona数据框（含/不含GeoArrow）GeoParquet 与 Spatial ParquetApache Iceberg总结
索引
关于作者

Content preview from 使用 Apache Sedona 进行云原生地理空间分析 (Chinese Edition)

第四章点、线与面：基于空间SQL的向量数据分析

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

向量数据是空间数据分析中最常用的数据类型，它简化了我们描述周边物体的方式。通过一组称为点的坐标，可以确定跳点、道路交叉口和地震震中的位置。描述道路网络或河流时，可使用线串；而城市中的建筑物、禁入区域或公园则用多边形来表示。简而言之，向量基本元素是任何地理空间框架的基础，是不可或缺的核心要素。

MapReduce（）作为谷歌推出的分布式执行框架，使海量数据分析成为可能。随后，Apache Hive通过SQL封装层简化了MapReduce交互方式。当分析操作愈发便捷之际，Apache Spark更以精简高效的数据处理与转换能力实现了突破性进展。大数据框架的早期阶段曾试图淘汰SQL，但SQL始终是表达数据转换的最优方案。人们越是试图摒弃SQL，它就越发彰显其价值。

向量数据分析的复杂性不仅取决于DataFrame中的记录数量，更与单个向量观测值的规模及其相对空间位置密切相关. Apache Spark等大数据工具虽擅长大规模数据处理，却未针对地理空间数据进行优化。举例而言，若用非适配框架处理海量地理空间数据，可能耗时数日乃至数年，甚至永远无法完成。

Apache Sedona融合了Apache Spark的优势与优化的地理空间算法，提供了一个直观的平台，能够快速处理小规模、中规模乃至难以想象的大量数据，同时支持使用广为人知的SQL语言。

向量数据（亦称几何与地理数据）通过坐标对描述空间对象。采用有限数量的点可简化计算并提升查询性能。此处"有限"至关重要，但更关键的是识别几何形状何时过于复杂——这如同维生素：缺乏有害，过量亦毒。若几何体已能以可接受精度表示对象，则不宜添加更多顶点。

正如原子构成整个地球的基石，几何体亦是空间分析的基石。研究单个原子的特性固然引人入胜，但它们之间的关系、联结及相互影响才能帮助我们理解宇宙。空间分析中的几何体与空间关系亦遵循此理。空间关系正是从地理空间数据中获取洞察的关键——最近的商店在哪里？哪些区域面临洪水风险？出租车司机最常行驶的城市路段是哪些？这些案例都体现了空间关系与空间向量数据的结合应用。

Apache Sedona的诞生旨在简化地理空间数据处理与分析流程，使其惠及更广泛人群。该框架能统一处理小规模、中等规模乃至海量向量数据，并支持各类空间查询操作。

向量数据模型与空间关系

我们已在前一章使用过几何术语，现在让我们深入探讨。Apache Sedona通过Geometry类型定义通用抽象，其可能包含（多）边形、（多）点、（多）线串，或几何集合。Apache Sedona遵循中OGC简单特征规范的指导原则：

点: 最基础的几何类型。它可能是2D坐标XY或3D坐标XYZ。Apache Sedona还允许为2D和3D点（即XYM和XYZM）保存额外数值，称为M值（只要是数值型即可添加，如时间戳）。地图上显示的所有Google地点都是点。
线串: 由有限点集连通构成的几何体，具有非零长度但面积为零。可表现为直线或曲线，现实世界中的河流、道路及路径即为此类。
多边形: 一组点，其首尾点相连。该几何体同时具有大于0的长度和面积。多边形可能存在孔洞，处理时需特别注意。孔洞指多边形内部不相互重叠的边界线，这些边界线围成的区域不计入多边形面积。

为减少存储上述各类几何数据所需空间，可使用多元素对应类型。例如可定义多点、多线串或多边形集合。具体而言，可将建筑物各部分存储为单个多边形集合，并将所有非地理空间字段集中存放于一行，从而降低处理所需空间。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

What Successful Brick-and-Mortar Retailers Get Right

Publisher Resources

ISBN: 0642572292300

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

使用 Apache Sedona 进行云原生地理空间分析 (Chinese Edition)

by Pawel Tokaj, Jia Yu, Mo Sarwat

第四章点、线与面：基于空间SQL的向量数据分析

向量数据模型与空间关系

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.