第9章 处理不同类型的文件
本章我们将学习如何处理不同类型的文件,如PDF文件、Excel文件、CSV文件和文本文件,Python包含处理这些文件的模块,其中涉及如何使用Python打开文件、编辑文件以及从这些文件中读取数据。
本章将介绍以下主题。
- 处理PDF文件。
- 处理Excel文件。
- 处理CSV文件。
- 处理文本文件。
9.1 处理PDF文件
本节我们将学习如何使用Python模块处理PDF文件。PDF是一种广泛使用的文档格式,一般具有扩展名.pdf
。Python拥有一个名为PyPDF2
的模块,它在对PDF文件进行各种操作时很有用,该模块是第三方Python模块。
首先我们需要安装这个模块。在终端中运行以下命令即可安装。
pip3 install PyPDF2
接下来将介绍一些处理PDF文件的方法,如读取PDF文件、获取页数、提取文本和旋转PDF页面。
9.1.1 读取PDF文件并获取页数
本节我们将使用PyPDF2
模块读取PDF文件,另外还将获取该PDF文件的页数。该模块的PdfFileReader()
函数可以用于读取PDF文件。现在请确保工作目录中有一个PDF文件。在我的系统中,存在一个名为test.pdf
的文件,本节将使用此文件。这里只需要使用自己的PDF文件名代替test.pdf
即可。
下面我们创建一个脚本,命名为read_pdf.py
,并在其中添加以下代码。
import PyPDF2
with open('test.pdf', 'rb') as pdf:
read_pdf= PyPDF2.PdfFileReader(pdf)
print("Number of pages in pdf : ", read_pdf.numPages)
运行脚本程序,如下所示。 ...
Get 写给系统管理员的Python脚本编程指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.