第4章 pandas入门
pandas是一个流行的开源Python项目,其名称取panel data(面板数据,一个计量经济学的术语)与Python data analysis(Python数据分析)之意。本章将向读者介绍pandas的基本功能,其中包括pandas的数据结构与运算。
提示:
pandas的官方文档强调,pandas项目名称中的字母应该全部采用小写形式,同时还约定导入这个程序库时使用的语句为import pandas as pd。编程时,我们可以尽可能地遵循这些惯例。
在本章中,我们首先安装并概要介绍pandas,然后开始探索pandas的两个最重要的数据结构:DataFrame
和Series
。最后,我们将学习如何对存放在这些数据结构中的数据进行类似SQL这样的运算,并举例说明包括时间序列例程在内的统计学工具。本章涉及的主题如下所示。
- pandas的安装与概览。
- 数据结构:
DataFrame
与Series。
- 利用pandas查询数据。
- 利用pandas的DataFrames进行统计计算。
- 利用pandas的DataFrames聚合数据。
- DataFrames的串联(concatenating)、连接(joining)与附加(appending)操作。
- 处理缺失数据问题。
- 处理日期数据。
- 数据透视表(pivot tables)。
- 访问远程数据。
4.1 pandas的安装与概览
对于pandas来说,最小的依赖项集合如下所示。
- NumPy:这是一个处理数值数组的基础软件包,我们已经在前面的章节介绍过其安装方法和简单用法。
- python-dateutil:这是一个专门用来处理日期数据的程序库。
- pytz:这是一个处理时区问题的程序库。
Get Python数据分析 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.