Skip to Content
PyTorch 中的 AI 和 ML 编码
book

PyTorch 中的 AI 和 ML 编码

by Laurence Moroney
July 2025
Beginner to intermediate
444 pages
6h 20m
Chinese
O'Reilly Media, Inc.
Content preview from PyTorch 中的 AI 和 ML 编码

第 19 章 通过拥抱脸扩散器使用生成模型

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

在过去的几章中,我们 ,一直在研究生成模型的推理,并主要使用 LLMs(又称文本到文本模型)来探索不同的场景。然而,生成式人工智能并不局限于基于文本的模型,另一个重要的创新当然是图像生成(又称文本到图像)。如今,大多数图像生成模型都基于一种叫做扩散的过程,这也是用来根据文本提示创建图像的抱脸 API 的名称diffusers的灵感来源。在本章中,我们将探讨扩散模型的工作原理,以及如何启动并运行自己的应用程序,根据提示生成图像。

什么是扩散模型?

现在,我们中的大多数人都见过 人工智能创建的图像,我们很可能已经惊叹于这些图像从抽象、粗糙的表述到近乎逼真地呈现出我们通过提示所要求的内容的速度之快。由于模型允许更长的提示、更多的细节,而且随着其训练集的增加,我们已经看到人工智能图像生成的改进几乎是无穷无尽的。

但这一切是如何实现的呢?这要从扩散的概念说起。

您可以通过创建一个图像数据集及其相关噪声来开始这一过程。请看图 19-1

图 19-1. 图像噪声

然后,一旦你有了这样一组噪声图像,你就可以训练一个模型,学习如何去噪,使图像恢复到原始状态。将噪声视为数据,将原始图像视为标签。因此,在图 19-1 中,右边的噪音可以作为数据,而小狗的图像可以作为标签。在这一点上,你可以训练一个模型,当它看到噪声时,就能知道如何将噪声转化为图像。逻辑上的延伸是,你可以产生噪音,而模型会找出如何将噪音转化为图像,而图像看起来会有点像训练集中的图像。

但是,如果你回到创建噪声图像的步骤 ,并在其中添加文字,进行非常冗长的描述呢?这样,你的噪声图像就会附加一个文本标签(用嵌入表示)(见图 19-2)!

图 19-2. 在扩散过程中添加文本编码

现在,噪声图像上附带了描述它的嵌入式数据。简单来说,描述噪声的嵌入式数据增强了噪声的强度,因此在去噪过程中,将该图像还原为小狗的原始图像就有了额外的数据来指导如何去噪。因此,同样,如果以噪声加嵌入作为数据,以原始图像作为标签来训练模型,那么模型现在就能更有效地学习如何将噪声加嵌入转化为图像。

你可能已经明白了 Go 的意思。一旦模型训练好了,将来如果有人在提示中给它一段文字,就可以将文字编码成嵌入式数据,生成一组随机噪声,然后模型就可以尝试找出如何将随机噪声去噪,并在文字的引导下将其转化为图像。无论出于何种意图和目的,它都会生成一幅全新的图像(见图 19-3)。

图 19-3. 开始对图像进行去噪处理

在这里,我们可以从纯随机噪音和提示开始。提示的内容很可能不在训练集中--没有已知的泰迪熊在火星表面吃披萨的图像(当然,除了人工智能生成的图像)。

因此,模型可以通过多个步骤对其进行去噪处理。可以想象,第一步将是随机噪音,第二步是模型尝试让噪音与提示相匹配,第三步将让噪音更接近提示,以此类推。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

在企业中实施 MLOps

在企业中实施 MLOps

Yaron Haviv, Noah Gift
图解大模型 : 生成式AI 原理与实战

图解大模型 : 生成式AI 原理与实战

Jay Alammar, Maarten Grootendorst

Publisher Resources

ISBN: 9798341662599