book

基于scikit-learn和PyTorch的实践机器学习

Name: 基于scikit-learn和PyTorch的实践机器学习
Author: Aurélien Géron
ISBN: 0642572270117

by Aurélien Géron

October 2025

Intermediate to advanced

878 pages

12h 53m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
项目中的机器学习目标和方法代码示例先决条件路线图TensorFlow 和 PyTorch 版本之间的变化其他资源本书中使用的约定O'Reilly 在线学习如何联系我们致谢
I.机器学习基础
1.机器学习领域
什么是机器学习？为什么要使用机器学习？应用实例机器学习系统的类型训练监督批量学习与在线学习基于实例的学习与基于模型的学习机器学习的主要挑战训练数据数量不足非代表性训练数据数据质量差无关特征过度拟合训练数据训练数据拟合不足部署问题后退测试与验证超参数调整和模型选择数据不匹配练习
2.端到端机器学习项目
使用真实数据纵观全局问题框架选择性能衡量标准检查假设获取数据使用 Google Colab 运行代码示例保存代码修改和数据交互的力量与危险书本代码与笔记本代码下载数据快速查看数据结构创建测试集探索和可视化数据以获得洞察力地理数据可视化查找相关性尝试属性组合为机器学习算法准备数据清理数据处理文本和分类属性特征缩放和转换自定义转换器转换管道选择并训练模型在训练集上进行训练和评估使用交叉验证进行更好的评估微调模型网格搜索随机搜索集合方法分析最佳模型及其误差在测试集上评估系统启动、监控和维护系统试用！练习
3.分类
MNIST训练二元分类器性能测量使用交叉验证测量准确度混淆矩阵精度和召回率精度/召回率权衡ROC 曲线多类分类误差分析多标签分类多输出分类练习
4.训练模型
线性回归正态方程计算复杂性梯度下降批量梯度下降随机梯度下降小批量梯度下降多项式回归学习曲线正则化线性模型岭回归拉索回归弹性网回归早期停止逻辑回归估计概率训练和成本函数决策边界软最大回归练习
5.决策树
决策树的训练和可视化进行预测估计类别概率CART 训练算法计算复杂性吉尼杂质还是熵？正则化超参数回归对坐标轴方向的敏感性决策树具有高方差练习
6.集合学习和随机森林
投票分类器套袋和粘贴Scikit-Learn 中的装袋和粘贴袋外评估随机补丁和随机子空间随机森林额外树特征重要性提升AdaBoost梯度提升基于直方图的梯度提升堆叠练习
7.降维
维度的诅咒降维的主要方法投影多模态学习PCA保持方差主成分向下投影到 d 维使用 Scikit-Learn解释方差比选择合适的维数压缩 PCA随机 PCA递增 PCA随机投影LLE其他降维技术练习
8.无监督学习技术
聚类算法：k-means 和 DBSCANk-均值聚类k-Means 的局限性利用聚类进行图像分割使用聚类进行半监督学习DBSCAN其他聚类算法高斯混合物使用高斯混合物进行异常检测选择聚类数量贝叶斯高斯混杂模型用于异常和新颖性检测的其他算法练习

II.神经网络与 Deep Learning
9.人工神经网络简介
从生物神经元到人工神经元生物神经元神经元的逻辑运算感知器多层感知器和反向传播使用 Scikit-Learn 构建和训练 MLP回归 MLP分类 MLP超参数调整指南隐藏层数每个隐藏层的神经元数量学习率批量大小其他超参数练习
10.用 PyTorch 构建神经网络
PyTorch 基础知识PyTorch 张量硬件加速自回归实现线性回归使用张量和 Autograd 进行线性回归使用 PyTorch 高级 API 进行线性回归实施回归 MLP使用数据加载器实现小批量梯度下降模型评估使用自定义模块构建非序列模型构建多输入模型构建具有多个输出的模型用 PyTorch 构建图像分类器使用 TorchVision 加载数据集构建分类器使用 Optuna 微调神经网络超参数保存和加载 PyTorch 模型编译和优化 PyTorch 模型练习
11.训练深度神经网络
消失/爆炸梯度问题Glorot 初始化和 He 初始化更好的激活函数批量归一化层归一化梯度剪切重复使用预训练层利用 PyTorch 进行迁移学习无监督预训练辅助任务预训练更快的优化器动量奈斯特罗夫梯度加速法AdaGradRMSProp亚当AdaMaxNAdamAdamW学习率调度指数调度余弦退火性能调度预热学习率余弦退火与热重启1 周期调度通过正则化避免过拟合ℓ1 和 ℓ2 正则化剔除蒙特卡罗剔除最大正则化实用指南练习
12.使用卷积神经网络的深度计算机视觉
视觉皮层的结构卷积层滤波器堆叠多个特征图用 PyTorch 实现卷积层池化层使用 PyTorch 实现池化层CNN 架构LeNet-5AlexNetGoogLeNetResNetXceptionSENet其他值得关注的架构选择合适的 CNN 架构GPU 内存需求：推理与训练可逆残差网络 (RevNets)使用 PyTorch 实现 ResNet-34 CNN使用 TorchVision 的预训练模型用于迁移学习的预训练模型分类和定位物体检测全卷积网络只看一次物体跟踪语义分割练习
13.使用 RNN 和 CNN 处理序列
递归神经元和层存储单元输入和输出序列训练 RNN预测时间序列ARMA 模型系列为机器学习模型准备数据使用线性模型进行预测使用简单 RNN 进行预测使用深度 RNN 进行预测预测多变量时间序列提前几个时间步进行预测使用序列到序列模型进行预测处理长序列解决不稳定梯度问题解决短期记忆问题练习
14.利用 RNN 和注意力进行自然语言处理
使用字符 RNN 生成莎士比亚文本创建训练数据集嵌入建立和训练 Char-RNN 模型生成假莎士比亚文本使用拥抱面部库进行情感分析使用 "拥抱脸 "代词化器库进行代词化重复使用预训练的标记符建立和训练情感分析模型双向 RNN重复使用预训练嵌入和语言模型特定任务类训练器 API拥抱面部管道用于神经机器翻译的编码器-解码器网络光束搜索注意机制练习
15.自然语言处理和聊天机器人的变形器
注意力就是一切原始变换器架构位置编码多头注意力构建变换器的其余部分构建英语-西班牙语转换器用于自然语言理解的仅编码器变换器BERT 的架构BERT 预训练BERT 微调其他仅编码器模型仅限解码器的变换器GPT-1 架构和生成式预训练GPT-2 和零点学习GPT-3、上下文学习、单次学习和少次学习使用 GPT-2 生成文本使用 GPT-2 进行问题解答下载并运行更大的模型：Mistral-7B将大型语言模型转化为聊天机器人使用 SFT 和 RLHF 微调聊天和遵循指令的模型直接偏好优化 (DPO)使用 TRL 库微调模型从聊天机器人模型到完整聊天机器人系统模型上下文协议库和工具编码器-解码器模型练习
16.视觉和多模态变换器
视觉变换器具有视觉注意力的 RNNDETR：用于物体检测的 CNN-变换器混合体原始 ViT数据高效图像变换器用于密集预测任务的金字塔视觉变换器Swin 变换器：快速多用的视觉变换器DINO：自监督视觉表征学习其他主要视觉模型和技术多模态变换器VideoBERT：文本加视频的 BERT 变体ViLBERT：文本加图像的双流变换器CLIP：使用对比预训练的双编码器文本加图像模型DALL-E：根据文本提示生成图像感知器：连接高分辨率模态与潜在空间Perceiver IO：感知器的灵活输出机制火烈鸟开放式视觉对话BLIP和BLIP-2其他多模态模型练习
17.加速变压器
18.自动编码器、GAN 和扩散模型
高效数据表示使用不完全线性自编码器执行 PCA堆叠自动编码器使用 PyTorch 实现堆叠自动编码器可视化重构使用自动编码器进行异常检测可视化时尚 MNIST 数据集使用堆叠式自动编码器进行无监督预训练绑定权重一次训练一个自动编码器卷积自编码器去噪自编码器稀疏自编码器变异自编码器生成时尚 MNIST 图像离散变异自动编码器生成式对抗网络训练 GAN 的困难扩散模型练习
19.强化学习
什么是强化学习？策略梯度体育馆图书馆简介神经网络策略评估行动：学分分配问题使用策略梯度解决 CartPole 问题基于值的方法马尔可夫决策过程时差学习Q 学习探索策略近似 Q 学习和深度 Q 学习实现深度 Q 学习DQN 改进行为批判算法使用 Stable-Baselines3 PPO 实现掌握 Atari Breakout一些流行的强化学习算法概述练习谢谢
A.Autodiff
手动微分有限差分法正向模式自动微分反向模式自动微分
B.混合精度和量化
常用数表示法降低精度模型混合精度训练量化线性量化使用 torch.ao.quantization 进行训练后量化量化感知训练 (QAT)使用 bitsandbytes 库量化 LLMs使用预量化模型
索引
关于作者

Content preview from 基于scikit-learn和PyTorch的实践机器学习

第 4 章. 训练模型

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

到目前为止，我们一直把机器学习模型及其训练算法当作黑盒子。如果你浏览了前面几章中的一些练习，你可能会惊讶地发现，你可以在完全不了解引擎盖下内容的情况下完成很多事情：你优化了一个回归系统，改进了一个数字图像分类器，甚至从头开始构建了一个垃圾邮件分类器，而这一切都不需要知道它们究竟是如何工作的。事实上，在很多情况下，你并不需要知道实现的细节。

但是，充分了解其工作原理可以帮助您快速找到合适的模型、正确的训练算法以及适合您任务的超参数集。了解引擎盖下的工作原理还能帮助您更高效地调试问题和进行错误分析。最后，本章讨论的大部分主题都将是理解、构建和训练神经网络（本书第二部分将讨论）的基本内容。

在本章中，我们将从线性回归模型开始，它是最简单的模型之一。我们将讨论两种截然不同的训练方法：

利用 "闭式 "方程¹直接计算出最适合训练集的模型参数（即在训练集上使成本函数最小化的模型参数）。
使用一种称为梯度下降（GD）的迭代优化方法，逐步调整模型参数，使训练集上的代价函数最小化，最终收敛到与第一种方法相同的参数集。我们将在第二部分研究神经网络时反复使用梯度下降法的几个变体：批量 GD、迷你批量 GD 和随机 GD。

接下来，我们将了解多项式回归，这是一种更复杂的模型，可以适应非线性数据集。由于该模型比线性回归有更多参数，因此更容易过度拟合训练数据。我们将探讨如何利用学习曲线检测是否存在这种情况，然后我们将研究几种可以降低训练集过拟合风险的正则化技术。

最后，我们还将研究两种常用于分类任务的模型：逻辑回归和软最大回归。

警告

本章将使用线性代数和微积分的基本概念给出大量数学公式。要理解这些方程，你需要熟悉向量和矩阵--如何对它们进行转置、相乘和反转--以及偏导数。如果不熟悉这些概念，请查看在线补充材料中提供的线性代数和微积分入门 Jupyter 笔记本。如果你真的对数学过敏，你可以直接跳过方程；课文仍然可以帮助你掌握大部分概念。尽管如此，学习数学形式主义还是非常有用的，因为它可以让你阅读 ML 论文。本章包含的代码可以帮助你理解方程。

线性回归

在第 1 章中，我们研究了一个简单的生活满意度线性模型（方程 4-1）。

方程 4-1. 生活满意度的简单线性模型

生活_满意度 = θ_{0} + θ_{1} \times 国内生产总值_每_人均

该模型只是输入特征GDP_per_capita 的线性函数。θ₀和_θ1是模型的参数。

一般来说，线性模型只需计算输入特征的加权和，再加上一个称为偏置项的常数（也称为截距项），即可进行预测，如等式 4-2 所示。

方程 4-2. 线性回归模型预测

\hat{y} = θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + \dots + θ_{n} x_{n}

在这个等式中：

ŷ是预测值。
n是特征个数。
_xi是第 i^个特征值。
_θj是第^j 个模型参数，包括偏置项_θ0和特征权重_θ1,_θ2, ⋯, θ_n。

如等式 4-3 所示，使用向量化形式可以更简洁地写出。

方程 4-3. 线性回归模型预测（向量形式）

\hat{y} = h_{θ} (x) = θ - x

在这个等式中：

_hθ是使用模型参数θ 的假设函数。
θ是模型的参数向量，，包含偏置项_θ0和特征权重_θ1至 θ_n。
x是实例的特征向量，，包含_x0至_xn，其中_x0始终等于 1。
θ-

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572270117

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

基于scikit-learn和PyTorch的实践机器学习

by Aurélien Géron

第 4 章. 训练模型

警告