第 8 章 大熊猫简介 熊猫介绍
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
pandas 是我们dataviz 工具链中的一个关键元素,因为我们将用它来清理和探索最近的数据集(见第 6 章)。上一章介绍了作为 pandas 基础的 Python 数组处理库 NumPy。在继续应用 pandas 之前,本章将介绍其关键概念,并展示它如何与现有数据文件和数据库表交互。其余的 pandas 学习将在接下来的几章中进行。
为什么说 pandas 是为 Dataviz 量身定制的?
无论是基于网络还是印刷品的任何数据可视化,其可视化数据都有可能曾经以行列形式存储在 Excel 等电子表格、CSV 文件或 HDF5 中。 pandas 的核心数据类型 DataFrame 就是为处理行列式数据表而量身定做的,它可以被看作是一种非常快速、程序化的电子表格。
为什么要开发熊猫
Pandas 由 Wes Kinney 于 2008 年首次披露,它的建立是为了解决一个特殊的问题--即虽然 Python 在处理数据方面非常出色,但在数据分析和建模方面却很薄弱,当然,与 R 等大公司相比更是如此。
pandas 设计用于处理行列式电子表格中的异质数据。1但又巧妙地利用了数学家、物理学家、计算机图形学家等所使用的NumPy同质数值数组的一些速度。 结合 Jupyter 笔记本和 Matplotlib 绘图库(以及 seaborn 等辅助库),pandas 是一流的交互式数据分析工具。由于它是 NumPy 生态系统的一部分,它的数据建模很容易通过 SciPy、statsmodels 和 scikit-learn 等库来增强。
对数据和测量进行分类
我将在下一节介绍 pandas 的核心概念,重点是 DataFrame 以及如何通过常见的数据存储、CSV 文件和 SQL 数据库将数据输入和输出。 不过,首先让我们转移一下注意力,考虑一下我们所说的异构数据集到底是什么意思,pandas 就是为了处理这些数据集而设计的,而且这些数据集也是数据可视化工具的主流。
,也许是用于说明文章或现代网络仪表盘的条形图或折线图,呈现的是现实世界中的测量结果,如商品价格随时间的变化、一年中降雨量的变化、各民族的投票意向等等。这些测量结果大致可分为两类:数值型和分类型。数值可分为区间尺度和比率尺度,而分类数值又可分为名义测量和顺序测量。这样,数据可视化工具就有了四大类观察数据。
让我们以一组推文为例,引出这些测量类别。每条推文都有不同的数据字段:
{"text":"#Python and #JavaScript sitting in a tree...","id":2103303030333004303,"favorited":true,"filter_level":"medium","created_at":"Wed Mar 23 14:07:43 +0000 2015","retweet_count" ...