第5章 数据的检索、加工与存储
现实中,各种形式的数据随处可见。我们不仅可以从网络、电子邮件和FTP中取得数据,也可通过实验研究或者市场调查来获得数据。要想全面总结不同格式数据的获取方法,恐怕要占用大量的篇幅,不是几页就能讲全的。大部分情况下,数据在分析之前或之后都需要将其存储起来。关于数据的存储问题,本章也有讨论。第8章“应用数据库”将讲解各种数据库(关系数据库和NoSQL数据库)及其API的有关知识。本章探讨的主题如下所示。
- 利用NumPy和pandas对CSV文件进行写操作。
- 二进制
.npy
格式和pickle格式。 - 用pandas读写Excel。
- JSON。
- REST web服务。
- 解析RSS订阅(RSS feeds)。
- 抓取Web内容。
- 解析HTML。
- 用PyTables存储数据。
- HDF5 pandas I/O。
5.1 利用NumPy和pandas对CSV文件进行写操作
前几章,我们学过读取CSV文件的内容,其实,对CSV文件进行写操作同样也很简单,只不过使用的函数和方法不同罢了。首先,生成一些数据,将来它们会以CSV格式保存。下面的代码给随机数生成器指定种子,并生成一个3×4的NumPy数组。
将一个数组元素的值设为NaN
:
np.random.seed(42)
a = np.random.randn(3, 4)
a[2][2] = np.nan
print a
上述代码打印输出的数组如下所示:
[[ 0.49671415 -0.1382643 0.64768854 1.52302986] [-0.23415337 -0.23413696 1.57921282 0.76743473] [-0.46947439 0.54256004 ...
Get Python数据分析 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.