第4章 pandas入门

pandas是一个流行的开源Python项目,其名称取panel data(面板数据,一个计量经济学的术语)与Python data analysis(Python数据分析)之意。本章将向读者介绍pandas的基本功能,其中包括pandas的数据结构与运算。

提示:

pandas的官方文档强调,pandas项目名称中的字母应该全部采用小写形式,同时还约定导入这个程序库时使用的语句为import pandas as pd。编程时,我们可以尽可能地遵循这些惯例。

在本章中,我们首先安装并概要介绍pandas,然后开始探索pandas的两个最重要的数据结构:DataFrameSeries。最后,我们将学习如何对存放在这些数据结构中的数据进行类似SQL这样的运算,并举例说明包括时间序列例程在内的统计学工具。本章涉及的主题如下所示。

  •  pandas的安装与概览。
  •  数据结构:DataFrameSeries。
  •  利用pandas查询数据。
  •  利用pandas的DataFrames进行统计计算。
  •  利用pandas的DataFrames聚合数据。
  •  DataFrames的串联(concatenating)、连接(joining)与附加(appending)操作。
  •  处理缺失数据问题。
  •  处理日期数据。
  •  数据透视表(pivot tables)。
  •  访问远程数据。

对于pandas来说,最小的依赖项集合如下所示。

  • NumPy:这是一个处理数值数组的基础软件包,我们已经在前面的章节介绍过其安装方法和简单用法。
  • python-dateutil:这是一个专门用来处理日期数据的程序库。
  • pytz:这是一个处理时区问题的程序库。

Get Python数据分析 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.