Skip to Content
大型语言模型的隐私与安全 (Chinese Edition)
book

大型语言模型的隐私与安全 (Chinese Edition)

by Baihan Lin
January 2026
Beginner to intermediate
318 pages
3h 38m
Chinese
O'Reilly Media, Inc.
Content preview from 大型语言模型的隐私与安全 (Chinese Edition)

第七章. LLMs微调中的伦理 考量

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

在前几章探讨了隐私保护式微调的技术层面之后,现在让我们将目光转向负责任人工智能开发中的另一个关键维度:伦理。当为个性化应用对大型语言模型进行微调时,您需要直面公平性、透明度和责任归属等根本性问题。 在微调过程中做出的选择不仅影响模型性能,更决定着这些系统如何在现实世界中影响个人与群体。

当隐私与公平性产生交集时,伦理化微调的挑战尤为复杂:如何确保隐私保护技术不会无意中引入或放大偏见?如何在保护敏感信息的模型中维持透明度与可解释性?这些问题不仅具有学术意义,更关乎数百万使用者的实际权益。

本章将探讨在维持前几章确立的隐私保障前提下,应对这些伦理挑战的实用方法。您将学习检测与缓解微调模型偏见的技术、提升透明度与可解释性的方法,以及平衡隐私约束与公平目标的策略。全章提供可直接运用于实践的具体代码示例与操作指南。

个性化中的偏见与公平性问题

当针对个性化应用对LLMs进行微调时,开发者必然需要决策:优先满足哪些用户的偏好?优化哪些群体的需求?如何处理边缘案例与少数群体。这些决策对公平性与公正性具有深远影响,尤其当模型部署于医疗、金融或刑事司法等高风险领域时。

基于用户特定或领域特定数据对LLMs进行微调,可能无意中放大偏见。这些偏见可能源于训练数据偏差、社会刻板印象或有害关联的强化。通常,LLMs微调中的偏见主要来自三个方面:

数据失衡

导致特定群体过度代表

情境偏差

另一常见问题:模型仅从狭窄语境中学习,无法反映现实场景的多样性,导致少数群体声音被排除

反馈循环

可能导致个性化强化用户既有偏见,形成排斥循环

理解微调LLMs中的偏见

基于三大偏见来源,LLMs在微调过程中可能呈现多种偏见形态。

当特定群体在微调数据集中代表性不足时,就会产生表征偏见。例如,若为医疗问答任务微调模型,但数据集主要包含城市医院案例,则模型在农村医疗场景中可能表现欠佳。

历史偏见是另一常见问题,因微调数据常承载历史歧视或不平等模式。 以基于历史招聘数据训练的模型为例,它可能习得延续对特定人群的既有偏见。这两类偏见均与前文提及的数据失衡问题相关——训练数据未能充分反映人群多样性。这可能导致差异性影响:即使模型本身不存在明确偏见,其预测结果仍会对特定群体产生不成比例的偏袒。

评估偏见则源于模型性能评估指标本身的偏差。若仅在狭窄测试集上衡量准确率,可能忽视对不同子群体的差异化影响。这涉及前文提及的语境偏差——模型性能评估方式未能考量用户需求的多元性。

聚合偏见是另一项值得关注的问题,尤其在个性化应用场景中。当我们聚合用户数据进行模型微调,并通过优化所有用户的平均表现来调整模型时,可能无意中优先考虑多数群体的偏好而非少数群体。这可能导致模型在平均表现良好,却无法满足特定子群体需求。

个性化与公平性的关系复杂且有时违背直觉。个性化虽旨在为用户提供定制化体验,但若管理不当,可能导致不同群体遭受差异化对待。例如,个性化贷款审批系统可能根据训练数据中的人口统计模式向申请人提供不同条款,即便这些模式反映了历史歧视现象

衡量微调模型的公平性

要解决偏见问题,首先需建立衡量标准。机器学习系统已开发出多种公平性指标,其中多数可适配于微调后的LLMs。下面我们将探讨关键指标及其数学表达式

人口统计平等(统计平等)

人口统计学均衡要求模型预测结果与种族、性别等敏感属性无关。数学上,对于包含敏感属性A的二元分类器,其预测公式为 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

产品思维工程师 (Chinese Edition)

产品思维工程师 (Chinese Edition)

Drew Hoskins

Publisher Resources

ISBN: 0642572313869