book

Python数据处理

Name: Python数据处理
ISBN: 9787115459190

by Jacqueline Kazil, Katharine Jarmul

July 2017

Intermediate to advanced

398 pages

11h 54m

Chinese

Posts & Telecom Press

Read now

Unlock full access

排版约定
使用代码示例
Safari® Books Online
联系我们
致谢
电子书
第1章 Python简介
1.1 为什么选择Python
1.2 开始使用Python
1.2.1 Python版本选择
1.2.2 安装Python
1.2.3 测试Python
1.2.4 安装pip
1.2.5 安装代码编辑器
1.2.6 安装IPython（可选）
1.3 小结
第2章 Python基础
2.1 基本数据类型
2.1.1 字符串2.1.2 整数和浮点数
2.2 数据容器
2.2.1 变量
2.2.2 列表
2.2.3 字典
2.3 各种数据类型的用途
2.3.1 字符串方法：字符串能做什么
2.3.2 数值方法：数字能做什么
2.3.3 列表方法：列表能做什么
2.3.4 字典方法：字典能做什么
2.4 有用的工具：type、dir和help
2.4.1 type2.4.2 dir
2.4.3 help
2.5 综合运用
2.6 代码的含义
2.7 小结
第3章供机器读取的数据
3.1 CSV数据
3.1.1 如何导入CSV数据
3.1.2 将代码保存到文件中并在命令行中运行
3.2 JSON数据
3.3 XML数据 (1/3)
3.3 XML数据 (2/3)
3.3 XML数据 (3/3)
3.4 小结
第4章处理Excel文件
4.1 安装Python包
4.2 解析Excel文件
4.3 开始解析 (1/3)
4.3 开始解析 (2/3)
4.3 开始解析 (3/3)
4.4 小结
第5章处理PDF文件，以及用Python解决问题
5.1 尽量不要用PDF
5.2 解析PDF的编程方法
5.2.1 利用slate库打开并读取PDF
5.2.2 将PDF转换成文本
5.3 利用pdfminer解析PDF (1/3)
5.3 利用pdfminer解析PDF (2/3)
5.3 利用pdfminer解析PDF (3/3)
5.4 学习解决问题的方法
5.4.1 练习：使用表格提取，换用另一个库
5.4.2 练习：手动清洗数据
5.4.3 练习：试用另一种工具
5.5 不常见的文件类型
5.6 小结
第6章数据获取与存储
6.1 并非所有数据生而平等
6.2 真实性核查
6.3 数据可读性、数据清洁度和数据寿命
6.4 寻找数据6.4.1 打电话
6.4.2 美国政府数据
6.4.3 全球政府和城市开放数据
6.4.4 组织数据和非政府组织数据
6.4.5 教育数据和大学数据6.4.6 医学数据和科学数据
6.4.7 众包数据和API
6.5 案例研究：数据调查实例
6.5.1 埃博拉病毒危机6.5.2 列车安全
6.5.3 足球运动员的薪水
6.5.4 童工
6.6 数据存储
6.7 数据库简介
6.7.1 关系型数据库：MySQL和PostgreSQL
6.7.2 非关系型数据库：NoSQL
6.7.3 用Python创建本地数据库
6.8 使用简单文件
6.8.1 云存储和Python
6.8.2 本地存储和Python
6.9 其他数据存储方式6.10 小结
第7章数据清洗：研究、匹配与格式化
7.1 为什么要清洗数据
7.2 数据清洗基础知识
7.2.1 找出需要清洗的数据 (1/2)
7.2.1 找出需要清洗的数据 (2/2)
7.2.2 数据格式化
7.2.3 找出离群值和不良数据
7.2.4 找出重复值
7.2.5 模糊匹配
7.2.6 正则表达式匹配
7.2.7 如何处理重复记录
7.3 小结
第8章数据清洗：标准化和脚本化
8.1 数据归一化和标准化
8.2 数据存储
8.3 找到适合项目的数据清洗方法
8.4 数据清洗脚本化 (1/3)
8.4 数据清洗脚本化 (2/3)
8.4 数据清洗脚本化 (3/3)
8.5 用新数据测试
8.6 小结
第9章数据探索和分析
9.1 探索数据
9.1.1 导入数据
9.1.2 探索表函数
9.1.3 联结多个数据集
9.1.4 识别相关性
9.1.5 找出离群值
9.1.6 创建分组
9.1.7 深入探索
9.2 分析数据
9.2.1 分离和聚焦数据
9.2.2 你的数据在讲什么
9.2.3 描述结论
9.2.4 将结论写成文档
9.3 小结
第10章展示数据
10.1 避免讲故事陷阱
10.1.1 怎样讲故事
10.1.2 了解听众
10.2 可视化数据
10.2.1 图表
10.2.2 时间相关数据
10.2.3 地图
10.2.4 交互式元素
10.2.5 文字
10.2.6 图片、视频和插画
10.3 展示工具
10.4 发布数据
10.4.1 使用可用站点
10.4.2 开源平台：创建一个新网站
10.4.3 Jupyter（曾名IPython notebook）
10.5 小结
第11章网页抓取：获取并存储网络数据
11.1 抓取什么和如何抓取
11.2 分析网页
11.2.1 检视：标记结构 (1/2)
11.2.1 检视：标记结构 (2/2)
11.2.2 网络/时间线：页面是如何加载的
11.2.3 控制台：同JavaScript交互
11.2.4 页面的深入分析
11.3 得到页面：如何通过互联网发出请求
11.4 使用Beautiful Soup读取网页
11.5 使用lxml读取网页 (1/2)
11.5 使用lxml读取网页 (2/2)
11.6 小结
第12章高级网页抓取：屏幕抓取器与爬虫
12.1 基于浏览器的解析
12.1.1 使用Selenium进行屏幕读取 (1/2)
12.1.1 使用Selenium进行屏幕读取 (2/2)
12.1.2 使用Ghost.py进行屏幕读取
12.2 爬取网页
12.2.1 使用Scrapy创建一个爬虫
12.2.2 使用Scrapy爬取整个网站 (1/2)
12.2.2 使用Scrapy爬取整个网站 (2/2)
12.3 网络：互联网的工作原理，以及为什么它会让脚本崩溃
12.4 变化的互联网（或脚本为什么崩溃）
12.5 几句忠告
12.6 小结
第13章应用编程接口
13.1 API特性
13.1.1 REST API与流式API13.1.2 频率限制
13.1.3 分级数据卷
13.1.4 API key和token
13.2 一次简单的Twitter REST API数据拉取
13.3 使用Twitter REST API进行高级数据收集
13.4 使用Twitter流式API进行高级数据收集
13.5 小结
第14章自动化和规模化
14.1 为什么要自动化
14.2 自动化步骤
14.3 什么会出错
14.4 在哪里自动化
14.5 自动化的特殊工具
14.5.1 使用本地文件、参数及配置文件
14.5.2 在数据处理中使用云
14.5.3 使用并行处理
14.5.4 使用分布式处理
14.6 简单的自动化
14.6.1 CronJobs
14.6.2 Web接口
14.6.3 Jupyter notebook
14.7 大规模自动化
14.7.1 Celery：基于队列的自动化
14.7.2 Ansible：操作自动化
14.8 监控自动化程序
14.8.1 Python日志
14.8.2 添加自动化信息
14.8.3 上传和其他报告
14.8.4 日志和监控服务
14.9 没有万无一失的系统
14.10 小结
第15章结论
15.1 数据处理者的职责
15.2 数据处理之上
15.2.1 成为一名更优秀的数据分析师15.2.2 成为一名更优秀的开发者
15.2.3 成为一名更优秀的视觉化讲故事者
15.2.4 成为一名更优秀的系统架构师15.3 下一步做什么
附录A 编程语言对比
A.1 C、C++、Java与Python
A.2 R或MATLAB与Python
A.3 HTML与PythonA.4 JavaScript与PythonA.5 Node.js与PythonA.6 Ruby和Ruby on Rails与Python
附录B 初学者的Python学习资源
B.1 在线资源B.2 线下小组
附录C 学习命令行
C.1 bashC.1.1 跳转命令
C.1.2 修改文件
C.1.3 运行文件
C.1.4 利用命令行进行搜索
C.1.5 更多资源
C.2 Windows cmd/PowerShellC.2.1 跳转命令
C.2.2 修改文件
C.2.3 运行文件
C.2.4 利用命令行进行搜索
C.2.5 更多资源
附录D 高级Python设置
D.1 第1步：安装GCC
D.2 第2步：（只在Mac上）安装Homebrew
D.3 第3步：（Mac系统）告诉系统去哪里寻找Homebrew
D.4 第4步：安装Python 2.7
D.5 第5步：安装virtualenv（Windows、Mac、Linux）
D.6 第6步：创建一个新目录
D.7 第7步：安装virtualenvwrapper
D.7.1 安装virtualenvwrapper（Mac和Linux）
D.7.2 安装virtualenvwrapper-win（Windows）
D.7.3 测试你的虚拟环境（Windows、Mac、Linux）
D.8 学习我们的新环境（Windows、Mac、Linux）
D.9 高级设置回顾
附录E Python陷阱
E.1 空白
E.2 可怕的GIL
E.3 =、==与is，以及何时只是复制
E.4 默认函数参数
E.5 Python作用域与内置函数：变量名称的重要性
E.6 定义对象与修改对象
E.7 修改不可变对象
E.8 类型检查
E.9 捕获多个异常
E.10 调试的力量
附录F IPython 指南
F.1 为什么使用IPythonF.2 IPython起步
F.3 魔法函数
F.4 最后的思考：一个简单的终端
附录G 使用亚马逊网络服务
G.1 启动AWS服务器
G.1.1 AWS步骤1：选择一个亚马逊机器镜像（AMI）
G.1.2 AWS步骤2：选择一个实例类型G.1.3 AWS步骤7：学习实例启动G.1.4 AWS额外问题：选择一个存在的键对或创建一个新的G.2 登录AWS服务器
G.2.1 得到实例的公共DNS名称
G.2.2 准备你的私钥G.2.3 登录你的服务器
G.3 小结
关于作者
关于封面

Content preview from Python数据处理

网页抓取：获取并存储网络数据

｜

223

对于很多站点来说，页面的顶部部分包含到站点主要部分或者相关主题的导航和链接。链

接或者广告通常出现在页面两边向下延展的位置。页面的中间部分通常包含你想要抓取的内容。

熟悉大多数网页的结构（元素的视觉位置和它们在标记语言中的位置）会帮

助你从互联网上抓取数据。如果可以聚焦到数据源，你就可以快速地构建抓

取器。

一旦知道了在页面上寻找什么，并且通过学习页面源代码的结构分析了页面的组成，你就

可以确定如何收集页面中的重要的部分。许多网页在第一次页面加载的时候提供内容，或

者提供一个已加载好内容的缓存页面。对于这些页面，可以使用简单的

XML

或

HTML

解

析器（我们会在本章学习它们），并且从第一个

HTTP

响应（在你请求一个

URL

时浏览器

加载的内容）中直接读取内容。这与读取文档类似，只是需要一个初始的页面请求。

如果你需要首先同页面交互来获取数据（也就是输入数据和点击按钮），并且它不仅仅是

一个简单的

URL

的改变，你需要使用一个基于浏览器的抓取器，在浏览器中打开页面同

它交互。

如果需要遍历整个网站来收集数据，你会想要一个

爬虫

：一个机器人，它爬取网页，并且

根据规则识别好的内容或跟踪更多页面。我们在爬取中使用的库非常地快速、灵活，让编

写这些类型的脚本变得十分简单。

在开始编写抓取器代码之前，我们会查看一些网站，习惯于分析要使用那个类型的抓取器

（页面读取器、浏览器读取器或爬虫），以及抓取数据会多难或多简单。有时，确定数据值

得付出多少努力是很重要的。我们会介绍一些工具来确定为抓取数据需要付出多少努力 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9787115459190

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Python数据处理

by Jacqueline Kazil, Katharine Jarmul

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

数据科学中的实用统计学(第2版)

Java持续交付

解密金融数据

数据库可靠性工程：数据库系统设计与运维指南

Publisher Resources