book

Python机器学习基础教程

Name: Python机器学习基础教程
ISBN: 9787115475619

by Andreas C. Müller, Sarah Guido

January 2018

Intermediate to advanced

301 pages

8h 54m

Chinese

Posts & Telecom Press

Read now

Unlock full access

来自Sarah的致谢
电子书
第1章引言
1.1 为何选择机器学习
1.1.1 机器学习能够解决的问题
1.1.2 熟悉任务和数据
1.2 为何选择Python1.3 scikit-learn
1.4 必要的库和工具
1.4.1 Jupyter Notebook
1.4.2 NumPy1.4.3 SciPy
1.4.4 matplotlib
1.4.5 pandas
1.4.6 mglearn
1.5 Python 2与Python 3的对比
1.6 本书用到的版本
1.7 第一个应用：鸢尾花分类
1.7.1 初识数据
1.7.2 衡量模型是否成功：训练数据与测试数据
1.7.3 要事第一：观察数据
1.7.4 构建第一个模型：k近邻算法
1.7.5 做出预测
1.7.6 评估模型
1.8 小结与展望
第2章监督学习
2.1 分类与回归
2.2 泛化、过拟合与欠拟合
模型复杂度与数据集大小的关系
2.3 监督学习算法
2.3.1 一些样本数据集
2.3.2 k近邻 (1/2)
2.3.2 k近邻 (2/2)
2.3.3 线性模型 (1/4)
2.3.3 线性模型 (2/4)
2.3.3 线性模型 (3/4)
2.3.3 线性模型 (4/4)
2.3.4 朴素贝叶斯分类器
2.3.5 决策树 (1/2)
2.3.5 决策树 (2/2)
2.3.6 决策树集成 (1/2)
2.3.6 决策树集成 (2/2)
2.3.7 核支持向量机 (1/2)
2.3.7 核支持向量机 (2/2)
2.3.8 神经网络（深度学习） (1/3)
2.3.8 神经网络（深度学习） (2/3)
2.3.8 神经网络（深度学习） (3/3)
2.4 分类器的不确定度估计
2.4.1 决策函数
2.4.2 预测概率
2.4.3 多分类问题的不确定度
2.5 小结与展望
第3章无监督学习与预处理
3.1 无监督学习的类型
3.2 无监督学习的挑战
3.3 预处理与缩放
3.3.1 不同类型的预处理
3.3.2 应用数据变换
3.3.3 对训练数据和测试数据进行相同的缩放
3.3.4 预处理对监督学习的作用
3.4 降维、特征提取与流形学习
3.4.1 主成分分析
3.4.2 非负矩阵分解 (1/2)
3.4.2 非负矩阵分解 (2/2)
3.4.3 用t-SNE进行流形学习
3.5 聚类
3.5.1 k均值聚类
3.5.2 凝聚聚类
3.5.3 DBSCAN
3.5.4 聚类算法的对比与评估 (1/3)
3.5.4 聚类算法的对比与评估 (2/3)
3.5.4 聚类算法的对比与评估 (3/3)
3.5.5 聚类方法小结
3.6 小结与展望
第4章数据表示与特征工程
4.1 分类变量
4.1.1 One-Hot编码（虚拟变量）
4.1.2 数字可以编码分类变量
4.2 分箱、离散化、线性模型与树
4.3 交互特征与多项式特征 (1/2)
4.3 交互特征与多项式特征 (2/2)
4.4 单变量非线性变换
4.5 自动化特征选择
4.5.1 单变量统计
4.5.2 基于模型的特征选择
4.5.3 迭代特征选择
4.6 利用专家知识 (1/2)
4.6 利用专家知识 (2/2)
4.7 小结与展望
第5章模型评估与改进
5.1 交叉验证
5.1.1 scikit-learn中的交叉验证
5.1.2 交叉验证的优点
5.1.3 分层k折交叉验证和其他策略
5.2 网格搜索
5.2.1 简单网格搜索
5.2.2 参数过拟合的风险与验证集
5.2.3 带交叉验证的网格搜索 (1/2)
5.2.3 带交叉验证的网格搜索 (2/2)
5.3 评估指标与评分
5.3.1 牢记最终目标
5.3.2 二分类指标 (1/4)
5.3.2 二分类指标 (2/4)
5.3.2 二分类指标 (3/4)
5.3.2 二分类指标 (4/4)
5.3.3 多分类指标
5.3.4 回归指标
5.3.5 在模型选择中使用评估指标
5.4 小结与展望
第6章算法链与管道
6.1 用预处理进行参数选择
6.2 构建管道
6.3 在网格搜索中使用管道
6.4 通用的管道接口
6.4.1 用make_pipeline方便地创建管道
6.4.2 访问步骤属性
6.4.3 访问网格搜索管道中的属性
6.5 网格搜索预处理步骤与模型参数
6.6 网格搜索选择使用哪个模型
6.7 小结与展望
第7章处理文本数据
7.1 用字符串表示的数据类型
7.2 示例应用：电影评论的情感分析
7.3 将文本数据表示为词袋
7.3.1 将词袋应用于玩具数据集
7.3.2 将词袋应用于电影评论
7.4 停用词
7.5 用tf-idf缩放数据
7.6 研究模型系数
7.7 多个单词的词袋（n元分词）
7.8 高级分词、词干提取与词形还原
7.9 主题建模与文档聚类 (1/2)
7.9 主题建模与文档聚类 (2/2)
7.10 小结与展望
第8章全书总结
8.1 处理机器学习问题
8.2 从原型到生产
8.3 测试生产系统
8.4 构建你自己的估计器
8.5 下一步怎么走
8.5.1 理论8.5.2 其他机器学习框架和包
8.5.3 排序、推荐系统与其他学习类型
8.5.4 概率建模、推断与概率编程
8.5.5 神经网络
8.5.6 推广到更大的数据集
8.5.7 磨练你的技术
8.6 总结
关于作者
关于封面

Content preview from Python机器学习基础教程

数据表示与特征工程

｜

171

图 4-2：在分箱特征上比较线性回归和决策树回归

虚线和实线完全重合，说明线性回归模型和决策树做出了完全相同的预测。对于每个箱

子，二者都预测一个常数值。因为每个箱子内的特征是不变的，所以对于一个箱子内的所

有点，任何模型都会预测相同的值。比较对特征进行分箱前后模型学到的内容，我们发

现，线性模型变得更加灵活了，因为现在它对每个箱子具有不同的取值，而决策树模型的

灵活性降低了。分箱特征对基于树的模型通常不会产生更好的效果，因为这种模型可以学

习在任何位置划分数据。从某种意义上来看，决策树可以学习如何分箱对预测这些数据最

为有用。此外，决策树可以同时查看多个特征，而分箱通常针对的是单个特征。不过，线

性模型的表现力在数据变换后得到了极大的提高。

对于特定的数据集，如果有充分的理由使用线性模型——比如数据集很大、维度很高，但

有些特征与输出的关系是非线性的——那么分箱是提高建模能力的好方法。

4.3

　交互特征与多项式特征

想要丰富特征表示，特别是对于线性模型而言，另一种方法是添加原始数据的

交互特征

（

interaction feature

）和

多项式特征

（

polynomial feature

）。这种特征工程通常用于统计建模，

但也常用于许多实际的机器学习应用中。

作为第一个例子，我们再看一次图

4-2

。线性模型对

wave

数据集中的每个箱子都学到一个

常数值。但我们知道，线性模型不仅可以学习偏移，还可以学习斜率。想要向分箱数据上

的线性模型添加斜率，一种方法是重新加入原始特征（图中的

轴） ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9787115475619

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Python机器学习基础教程

by Andreas C. Müller, Sarah Guido

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.