Skip to Content
学习 AutoML (Chinese Edition)
book

学习 AutoML (Chinese Edition)

by Kerem Tomak
April 2026
Intermediate
586 pages
7h 41m
Chinese
O'Reilly Media, Inc.
Content preview from 学习 AutoML (Chinese Edition)

第 5 章. 超参数 优化

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

我记得第一次在生产环境中遇到调优不当的机器学习模型时的情景( )。那是2018年,我供职于一家已部署欺诈检测系统的银行。该模型采用梯度提升分类器,特征选择完全正确,理论上无可挑剔,但实际性能却平平无奇。 误报率极高,导致合法交易频频被标记,不仅让客户感到沮丧,还给公司带来了额外成本。问题并不出在算法或数据上,而是出在超参数上。

仅用两天时间系统地调整超参数——结合领域直觉与交叉验证的随机搜索,将学习率调整为0.05,估计器数量增加到300个,并将最大深度设为4——我们在保持召回率不变的同时,将模型的精确度提高了15%。 业务影响立竿见影:误报率下降了30%,客户投诉减少,欺诈检测系统终于兑现了其承诺。

这次经历让我深刻领悟了职业生涯中一直积累的经验:超参数优化不仅仅是一种技术上的精妙之处——它往往决定了一个模型能否真正发挥作用。我曾多次见证,经过精心调优的“简单”模型,其表现始终优于调优不当的复杂模型。

Melis等人2018年发表的里程碑式研究《关于神经语言模型评估的最新进展》有力地验证了这一原则:他们精心调优的LSTM语言模型,表现优于研究界备受瞩目的若干新提出的架构,仅仅是因为那些新模型的调优不够彻底。 该论文表明,当控制超参数优化投入时,“最先进”架构之间的差距往往会消失——这一发人深省的发现突显了适当调优的关键重要性。

然而,超参数优化仍是机器学习中最具挑战性的环节之一。搜索空间广阔,评估成本高昂,且最优设置往往违背直觉。这一难题困扰着从业者数十年,至今仍是部署高效机器学习系统的一大瓶颈。

在本章中,我们将探讨超参数优化技术的演变历程,从基础的搜索策略到能够以最低计算成本找到优秀配置的复杂方法。我们将考察可立即实施的实用方法,并探索正在重塑我们对模型调优认知的前沿技术。最重要的是,我们将重点关注在时间和计算资源受限的现实世界中切实有效的方法。

超参数优化的挑战

超参数优化本质上是一个黑箱优化问题 。与模型在训练过程中学习到的参数(如神经网络中的权重)不同,超参数是我们在训练开始前必须选择的配置设置。这些包括学习率、正则化强度、网络架构、树深度、批量大小以及众多其他选项,它们都会对模型性能产生重大影响。

该问题的“黑箱”性质意味着我们没有解析公式来引导我们找到最优设置。我们无法求导或应用梯度下降法。相反,我们必须通过实际训练和验证模型来评估每个候选配置。根据模型的复杂程度和数据集的大小,这个过程可能需要几分钟到几天不等。

不妨看看我最近在为医学图像分析调优计算机视觉模型时遇到的挑战。超参数空间包括:

  • 学习率:范围可从 1e-5 到 1e-1(最佳实践建议采用对数级别的数值)

  • 批量大小:2 的幂值,范围从 8 到 128,受 GPU 内存限制

  • 网络深度:层数范围为 18 到 152

  • Dropout 率:取值范围为 0.0 至 0.8

  • 权重衰减:正则化强度范围为 1e-6 至 1e-2

  • 优化器选择:Adam、SGD、RMSprop 或 AdamW

  • 学习率调制方案:恒定、阶梯衰减、余弦退火或指数衰减

即便仅包含这七个超参数,搜索空间中也存在数百万种可能的组合。评估每种配置都需要在包含10万张图像的数据集上对模型进行50个 epoch 的训练,这在现代GPU上大约需要两小时。如果采用简单的穷举搜索,则需要数百年时间。

计算成本的挑战

随着大型语言模型()的兴起,超参数评估的计算成本 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

向量数据库 (Chinese Edition)

向量数据库 (Chinese Edition)

Nitin Borwankar

Publisher Resources

ISBN: 0642572369361