第7章 文本处理和正则表达式
本章我们将学习文本处理和正则表达式。文本处理是指创建文本或修改文本的过程。Python有一个非常强大的库,即正则表达式,它可以用来搜索数据和提取数据,本章学习如何对文件进行这些操作,并学习如何读取和写入文件。
此外,我们将学习使用Python的textwrap
模块实现文本包装,并学习Python的re
模块以及使用Python进行文本处理,这将涉及re
模块的match()
、search()
、findall()
和sub()
函数。最后我们将了解Unicode
字符串。
本章将介绍以下主题。
- 文本包装。
- 正则表达式。
- Unicode字符串。
7.1 文本包装
本节我们将学习Python的textwrap
模块,该模块提供了TextWrapper
类,使用该类可以完成所有需要的操作。textwrap
模块用于格式化文本和包装文本,该模块主要提供5个函数:wrap()
、fill()
、dedent()
、indent()
和shorten()
。现在我们逐一学习这些函数。
7.1.1 wrap()函数
wrap()
函数用于将整个文本段落包装到单个字符串中,并输出由行组成的列表。
语法格式是textwrap.wrap(text,width)
。
text
:要包装的文本。width
:每行允许的最大宽度,默认值为70
。
现在我们来看wrap()
函数的示例程序。创建一个脚本,命名为wrap_example.py
,并添加以下代码。
import textwrap
sample_string = '''Python is an interpreted high-level programming language
for general-purpose programming. Created ...
Get 写给系统管理员的Python脚本编程指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.