book

使用 Python 和 JavaScript 进行数据可视化，第二版

by Kyran Dale

May 2025

Intermediate to advanced

568 pages

7h 31m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

第 I 部分：基本工具包第二部分：获取数据第三部分：使用 pandas 清理和探索数据第 IV 部分：提供数据第五部分：使用 D3 和 Plotly 实现数据可视化第二版本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢第二版
本书适合人群使用本书的最低要求为什么选择 Python 和 JavaScript？为什么不在浏览器中使用 Python？为什么使用 Python 进行数据处理Python 一直在进步您将了解到图书馆的选择序言Dataviz 工具链1.使用 Scrapy 抓取数据2.使用 pandas 清理数据3.使用 pandas 和 Matplotlib 探索数据4.使用 Flask 交付数据5.利用 Plotly 和 D3 将数据转化为交互式可视化效果小型图书馆使用本书背景介绍摘要推荐书籍
配套代码Python蟒蛇安装额外的库虚拟环境JavaScript内容交付 Network+在本地安装图书馆数据库启动并运行 MongoDB使用 Docker 轻松实现 MongoDB集成开发环境摘要
异同与代码互动PythonJavaScript基础桥梁工程风格指南》、PEP 8 和使用严格的驼峰字体与下划线字体导入模块，包括脚本JavaScript 模块保持命名空间整洁输出 "Hello World!简单的数据处理弦乐结构重要的空格与大括号注释和文档字符串使用 let 或 var 声明变量字符串和数字布尔数据容器：字典、对象、列表、数组功能迭代：for 循环和功能替代方案条件式：if、elif、switch文件输入和输出类和原型实践中的差异方法链枚举列表元组拆包收藏品中坚力量功能数组方法和列表理解使用 Python 的 Lambda 进行映射、还原和过滤JavaScript 关闭和模块模式小册子摘要
轻松搞定传递数据处理系统文件CSV、TSV 和行列数据格式JSON处理日期和时间SQL创建数据库引擎定义数据库表使用会话添加实例查询数据库使用数据集简化 SQLMongoDB处理日期、时间和复杂数据摘要
大局观单页面应用程序工具准备集成开发环境、框架和工具的神话文本编辑工具带开发工具的浏览器终端或命令提示符创建网页使用 HTTP 服务页面DOMHTML 骨架标记内容CSSJavaScript数据Chrome 浏览器开发工具元素选项卡来源 "选项卡其他工具带占位符的基本页面使用 Flex 定位和调整容器大小用内容填充占位符可缩放矢量图形<g> 元素圆圈应用 CSS 样式直线、矩形和多边形文本路径缩放和旋转与小组合作分层和透明JavaScript 化 SVG摘要
使用请求库获取网络数据通过请求获取数据文件使用 Python 从网络 API 中获取数据通过请求使用 RESTful Web API为诺贝尔数据集获取国家数据使用库访问网络 API使用谷歌电子表格用 Tweepy 使用 Twitter API扫描数据我们为什么需要 "刮"？美丽的汤和 lxml首次刮削尝试取汤选择标签制作选择模式缓存网页筛选获奖者的国籍摘要
设置 Scrapy确定目标用 Xpaths 定位 HTML用 Scrapy Shell 测试 Xpaths使用相对 X 路径选择第一只废旧蜘蛛翻阅个人传记页面连锁请求和生成数据缓存页面满足要求Scrapy 管道使用管道扫描文本和图像使用多个蜘蛛指定管道摘要

NumPy 数组创建数组数组索引和切片一些基本操作创建数组函数计算移动平均数摘要
为什么说 pandas 是为 Dataviz 量身定制的？为什么要开发熊猫对数据和测量进行分类数据帧指数行和列选择组别创建和保存数据框JSONCSVExcel 文件SQLMongoDB将系列转换为数据框摘要
坦白肮脏数据检查数据指数和熊猫数据选择选择多行清理数据寻找混合类型更换琴弦删除行查找重复数据排序删除重复文件处理缺失字段处理时间和日期完整的 clean_data 函数添加出生日期列合并数据框保存清理后的数据集摘要
pyplot 和面向对象的 Matplotlib开始互动会话使用 pyplot 的全局状态进行交互式绘图配置 Matplotlib设置图形大小点，而不是像素标签与传说标题和轴标签保存图表数字和面向对象的 Matplotlib坐标轴和子图情节类型柱状图散点图海生面网格对网格摘要
开始探索用熊猫绘制地图性别差异解叠组历史趋势全国趋势人均获奖人数各类奖项奖金分配的历史趋势获奖者的年龄和预期寿命获奖时的年龄获奖者的预期寿命随着时间的推移不断延长的预期寿命散居海外的诺贝尔奖获得者摘要
数据服务整理 Flask 文件用 Flask 提供数据交付数据文件使用 Flask API 获取动态数据使用 Flask 的简单数据应用程序接口使用静态或动态传输摘要
RESTful 工作的工具创建数据库Flask RESTful 数据服务器使用棉花糖进行序列化添加 RESTful API 路由向应用程序接口发布数据使用方法视图扩展应用程序接口将数据返回分页使用 Heroku 远程部署应用程序接口CORS使用 JavaScript 调用应用程序接口摘要
使用 Matplotlib 绘制静态图表适应屏幕尺寸使用远程图像或资产使用 Plotly 绘制图表基本图表Plotly ExpressPlotly 图形对象使用 Plotly 制图使用 Plotly 添加自定义控件使用 Plotly 从笔记本到网络使用 Plotly 绘制原生 JavaScript 图表获取 JSON 文件使用 JavaScript 和 HTML 的用户驱动 Plotly摘要
为谁而设？选择视觉元素菜单栏按年份分列的奖项部分诺贝尔奖国家示意图显示各国获奖者人数的柱状图部分获奖者名单带图片的迷你传记盒完全可视化摘要
序言核心部件整理您的文件数据服务HTML 骨架CSS 造型JavaScript 引擎导入脚本使用导入的模块化 JS基本数据流核心代码初始化诺贝尔奖可视化准备 Go数据驱动的更新使用交叉过滤器过滤数据运行诺贝尔奖可视化应用程序摘要
确定问题的框架使用选件添加 DOM 元素利用 D3用 D3 的天平衡量量表序数标尺通过数据绑定/连接释放 D3 的力量用数据更新 DOM组合柱形图坐标轴和标签过渡更新柱形图摘要
建立框架天平轴类别标签数据嵌套使用嵌套数据连接添加获奖者过渡时期的小闪亮更新柱形图摘要
可用地图D3 的映射数据格式GeoJSONTopoJSON将地图转换为 TopoJSOND3 地理、预测和路径预测路径网格将各要素组合在一起更新地图增值指标我们已完成的地图创建简单的工具提示更新地图摘要
建立名单建造生物箱更新获奖者名单摘要
用 D3 创建 HTML 元素创建菜单栏创建类别选择器添加性别选择器添加国家选择器连接公制单选按钮摘要
回顾第 I 部分：基本工具包第二部分：获取数据第三部分：使用 pandas 清理和探索数据第 IV 部分：提供数据第五部分：使用 D3 和 Plotly 实现数据可视化未来进展可视化社交媒体 Network+机器学习可视化最终想法
输入法访问绑定数据

Content preview from 使用 Python 和 JavaScript 进行数据可视化，第二版

第 8 章大熊猫简介熊猫介绍

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

pandas 是我们dataviz 工具链中的一个关键元素，因为我们将用它来清理和探索最近的数据集（见第 6 章）。上一章介绍了作为 pandas 基础的 Python 数组处理库 NumPy。在继续应用 pandas 之前，本章将介绍其关键概念，并展示它如何与现有数据文件和数据库表交互。其余的 pandas 学习将在接下来的几章中进行。

为什么说 pandas 是为 Dataviz 量身定制的？

无论是基于网络还是印刷品的任何数据可视化，其可视化数据都有可能曾经以行列形式存储在 Excel 等电子表格、CSV 文件或 HDF5 中。 pandas 的核心数据类型 DataFrame 就是为处理行列式数据表而量身定做的，它可以被看作是一种非常快速、程序化的电子表格。

为什么要开发熊猫

Pandas 由 Wes Kinney 于 2008 年首次披露，它的建立是为了解决一个特殊的问题--即虽然 Python 在处理数据方面非常出色，但在数据分析和建模方面却很薄弱，当然，与 R 等大公司相比更是如此。

pandas 设计用于处理行列式电子表格中的异质数据。¹但又巧妙地利用了数学家、物理学家、计算机图形学家等所使用的NumPy同质数值数组的一些速度。结合 Jupyter 笔记本和 Matplotlib 绘图库（以及 seaborn 等辅助库），pandas 是一流的交互式数据分析工具。由于它是 NumPy 生态系统的一部分，它的数据建模很容易通过 SciPy、statsmodels 和 scikit-learn 等库来增强。

对数据和测量进行分类

我将在下一节介绍 pandas 的核心概念，重点是 DataFrame 以及如何通过常见的数据存储、CSV 文件和 SQL 数据库将数据输入和输出。不过，首先让我们转移一下注意力，考虑一下我们所说的异构数据集到底是什么意思，pandas 就是为了处理这些数据集而设计的，而且这些数据集也是数据可视化工具的主流。

，也许是用于说明文章或现代网络仪表盘的条形图或折线图，呈现的是现实世界中的测量结果，如商品价格随时间的变化、一年中降雨量的变化、各民族的投票意向等等。这些测量结果大致可分为两类：数值型和分类型。数值可分为区间尺度和比率尺度，而分类数值又可分为名义测量和顺序测量。这样，数据可视化工具就有了四大类观察数据。

让我们以一组推文为例，引出这些测量类别。每条推文都有不同的数据字段：

{
  "text": "#Python and #JavaScript sitting in a tree...", 
  "id": 2103303030333004303, 
  "favorited": true, 
  "filter_level":"medium", 
  "created_at": "Wed Mar 23 14:07:43 +0000 2015", 
  "retweet_count" ...