第5章 数据的检索、加工与存储

现实中,各种形式的数据随处可见。我们不仅可以从网络、电子邮件和FTP中取得数据,也可通过实验研究或者市场调查来获得数据。要想全面总结不同格式数据的获取方法,恐怕要占用大量的篇幅,不是几页就能讲全的。大部分情况下,数据在分析之前或之后我们都需要将其存储起来。关于数据的存储问题,本章也有讨论。第8章将讲解各种数据库(关系数据库和NoSQL数据库)及其API的有关知识。本章探讨的主题如下。

  • 利用NumPy和Pandas对CSV文件进行写操作
  • 二进制.npy格式和pickle格式
  • 利用PyTables储存数据
  • Pandas DataFrame与HDF5仓库之间的读写操作
  • 用pandas读写Excel
  • 使用REST web服务和JSON
  • 使用Pandas读写JSON
  • 解析RSS和Atom订阅
  • 利用Beautiful Soup解析HTML

前几章我们学过读取CSV文件的内容,其实,对CSV文件进行写操作同样也很简单,只不过使用的函数和方法不同罢了。首先,生成一些数据,将来它们会以CSV格式保存。下面的代码给随机数生成器指定种子并生成一个3×4的NumPy数组。

我们将一个数组元素的值设为NaN。

np.random.seed(42)

a = np.random.randn(3, 4)
a[2][2] = np.nan
print(a)

上述代码打印输出的数组如下。

[[ 0.49671415 -0.1382643   0.64768854  1.52302986]
 [-0.23415337 -0.23413696  1.57921282  0.76743473]
 [-0.46947439 0.54256004 ...

Get Python数据分析(第2版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.