
21
第 2 章
Python 语法基础、IPython 和
Jupyter notebook
当我在
2011
年和
2012
年写作本书的第
1
版时,学习
Python
数据分析的可用资源很少。
我们现在使用的库,比如
pandas
、
scikit-learn
和
statsmodels
,那时相对来说并不成熟。
来到
2022
年,数据科学、数据分析和机器学习的资源已经很多,原先仅面向通用科学
计算的工作也拓展到了计算机科学家、物理学家和其他研究领域的工作人员。此外,也
出现了大量学习
Python
编程和成为卓越软件工程师的优秀书籍。
因为本书是专注于
Python
数据处理的,从数据处理的角度,我认为很有必要独立成章地
概述
Python
内置的数据结构和库的重要功能特性。因此,本章和第
3
章将介绍一些基本
知识,这些内容足以确保读者学习本书的后续章节。
本书大部分内容关注的是基于表格数据的分析和处理数据集的数据准备工具,数据集并
不大,可以在个人计算机上运行。为了使用这些工具,必须首先将混乱的数据规整为整
洁的表格(或结构化)形式。幸好,
Python
是一门理想的语言,可以快速整理数据。对
Python
的内置数据类型使用得越熟练,越容易准备新数据集以进行分析。
最好在
IPython
和
Jupyter
中亲自尝试本书中使用的工具。当你学会了如何启动
IPython
和
Jupyter
,我建议你跟随示例代码进行练习。与任何键盘控制的操作环境一样,熟练掌
握常用命令也是学习曲线的一部分。
本章没有介绍
Python
的某些概念,例如类和面向对象编程,你可能会发现它 ...