book

大型语言模型的隐私与安全 (Chinese Edition)

Name: 大型语言模型的隐私与安全 (Chinese Edition)
Author: Baihan Lin
ISBN: 0642572313869

by Baihan Lin

January 2026

Beginner to intermediate

318 pages

3h 38m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
本书读者对象为何撰写本书阅读指南本书采用的规范代码示例使用说明O'Reilly在线学习联系我们鸣谢
1. 引言
大型语言模型的崛起LLMs中的隐私与安全问题本书内容涵盖您在此旅程中的角色总结
2. 理解大型语言模型
大型语言模型的基础原理语言模型的基础构建模块LLMs核心概念LLM架构Transformer架构专家混合架构热门LLM模型LLM训练技术预训练技术微调技术检索增强生成总结
3. 评估LLMs的隐私与安全风险
隐私度量差分隐私隐私损失k-匿名性RAG系统中的隐私考量安全指标攻击成功率 (ASR)成员关系推断的误报率（FPR）模型逆向工程的重建误差大型LLM的隐私与安全审计攻击模拟LLMPrivacySecurityEvaluator：全能审计工具现代评估框架与基准测试摘要
4. 隐私保护训练技术
训练阶段隐私泄露的真实案例 LLM的差分隐私用于隐私评估的合成数据如何在您的数据上应用LLMPrivacySecurityEvaluatorLLMs的差分隐私技术数学基础为LLMs实现差分隐私随机梯度下降隐私会计实践权衡与考量将差分隐私应用于检索增强生成基于LLMs的联邦学习概念为LLMs实现联邦学习联合学习的优势与挑战LLMs中的同态加密概念为LLMs实现同态加密同态加密的优势与挑战安全聚合的多方计算概念基于现代库实现MPCMPC的优势与挑战参数高效的隐私保护微调低秩自适应量化低秩适应隐私保护数据转换数据匿名化与去标识化隐私保护数据增强隐私保护数据增强的优势与挑战数据增强摘要
5. LLMs的安全部署
安全模型托管与基础设施理解基础设施组件隔离策略网络安全资源管理与监控安全API与通信API设计原则安全API的实现身份验证与授权安全通信安全模型版本控制与更新模型注册表与版本控制安全更新流程摘要
6. 对抗性攻击与防御策略
理解针对LLMs的对抗性攻击针对LLMs的对抗性攻击分类典型攻击方法嵌入空间攻击LLM代理攻击模型规模与架构的影响案例研究：防御越狱攻击鲁棒微调技术对抗性训练鲁棒优化技术数据增强与鲁棒性前缀调优与基于prompt的鲁棒性集成方法可验证鲁棒微调针对LLMs的红队测试红队对抗方法论实施红队计划红队工具与框架自动化多轮红队演练案例研究：实战中的红队演练对抗性评估与鲁棒性指标稳健性基准分布偏移下的稳健性人机协同评估基于代理的评估标准化攻击成功指标防御评估指标鲁棒性评估的挑战最佳实践大型LLM鲁棒性的未来方向摘要
7. 深度微调LLMs的伦理考量
个性化中的偏见与公平性问题理解微调LLMs中的偏见在微调模型中衡量公平性偏见缓解策略隐私保护偏见缓解的挑战微调模型中的透明度与可解释性LLMs可解释性挑战解释LLM行为的技术隐私保护下的可解释性在隐私约束下解决AI偏见隐私与公平的权衡群体感知隐私机制偏见感知联邦学习隐私保护偏见审计摘要
8. 应对文化、社会与法律环境
新型社会技术系统人工智能驱动的文化演进浪潮中前行人工智能生成内容的兴起与信任的侵蚀个性化人工智能与身份危机在监控资本主义时代人机交互中的存在主义问题揭开生成式人工智能供应链的面纱机器文化的兴起适应性法律框架：监管与问责机制LLMs时代的版权与知识产权困境个性化人工智能系统中的数据隐私与保护案例算法偏见与歧视案例研究 ——人工智能驱动决策中的伦理困境人工智能驱动系统中的责任与问责案例技术法律解决方案主义面临的普遍挑战构建负责任的人工智能文化超越算法的人工智能安全：人类因素摘要
9. 构建隐私保护型人工智能能力
医疗健康AI实践：基于差分隐私的临床病历分析医疗隐私挑战合成数据作为隐私保护基础LoRA：高效且隐私友好的微调方案基于RDP的隐私核算现实世界部署考量法律AI实践：跨律所或法院的联合学习法律保密性要求法律人工智能的联合学习架构安全聚合与模型更新联合法律人工智能的法律与伦理考量性能与实用性评估构建以隐私为先的人工智能能力组织准备度与实施策略团队架构与技术决策治理整合与成效衡量为明日隐私格局预作准备技术融合与监管演进市场动态与竞争定位面向未来的战略定位摘要结论您所见证的变革我们正在走的路您在塑造未来中的角色

索引
关于作者

Content preview from 大型语言模型的隐私与安全 (Chinese Edition)

第七章. LLMs微调中的伦理考量

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在前几章探讨了隐私保护式微调的技术层面之后，现在让我们将目光转向负责任人工智能开发中的另一个关键维度：伦理。当为个性化应用对大型语言模型进行微调时，您需要直面公平性、透明度和责任归属等根本性问题。在微调过程中做出的选择不仅影响模型性能，更决定着这些系统如何在现实世界中影响个人与群体。

当隐私与公平性产生交集时，伦理化微调的挑战尤为复杂：如何确保隐私保护技术不会无意中引入或放大偏见？如何在保护敏感信息的模型中维持透明度与可解释性？这些问题不仅具有学术意义，更关乎数百万使用者的实际权益。

本章将探讨在维持前几章确立的隐私保障前提下，应对这些伦理挑战的实用方法。您将学习检测与缓解微调模型偏见的技术、提升透明度与可解释性的方法，以及平衡隐私约束与公平目标的策略。全章提供可直接运用于实践的具体代码示例与操作指南。

个性化中的偏见与公平性问题

当针对个性化应用对LLMs进行微调时，开发者必然需要决策：优先满足哪些用户的偏好？优化哪些群体的需求？如何处理边缘案例与少数群体。这些决策对公平性与公正性具有深远影响，尤其当模型部署于医疗、金融或刑事司法等高风险领域时。

基于用户特定或领域特定数据对LLMs进行微调，可能无意中放大偏见。这些偏见可能源于训练数据偏差、社会刻板印象或有害关联的强化。通常，LLMs微调中的偏见主要来自三个方面：

数据失衡: 导致特定群体过度代表
情境偏差: 另一常见问题：模型仅从狭窄语境中学习，无法反映现实场景的多样性，导致少数群体声音被排除
反馈循环: 可能导致个性化强化用户既有偏见，形成排斥循环

理解微调LLMs中的偏见

基于三大偏见来源，LLMs在微调过程中可能呈现多种偏见形态。

当特定群体在微调数据集中代表性不足时，就会产生表征偏见。例如，若为医疗问答任务微调模型，但数据集主要包含城市医院案例，则模型在农村医疗场景中可能表现欠佳。

历史偏见是另一常见问题，因微调数据常承载历史歧视或不平等模式。以基于历史招聘数据训练的模型为例，它可能习得延续对特定人群的既有偏见。这两类偏见均与前文提及的数据失衡问题相关——训练数据未能充分反映人群多样性。这可能导致差异性影响：即使模型本身不存在明确偏见，其预测结果仍会对特定群体产生不成比例的偏袒。

评估偏见则源于模型性能评估指标本身的偏差。若仅在狭窄测试集上衡量准确率，可能忽视对不同子群体的差异化影响。这涉及前文提及的语境偏差——模型性能评估方式未能考量用户需求的多元性。

聚合偏见是另一项值得关注的问题，尤其在个性化应用场景中。当我们聚合用户数据进行模型微调，并通过优化所有用户的平均表现来调整模型时，可能无意中优先考虑多数群体的偏好而非少数群体。这可能导致模型在平均表现良好，却无法满足特定子群体需求。

注

个性化与公平性的关系复杂且有时违背直觉。个性化虽旨在为用户提供定制化体验，但若管理不当，可能导致不同群体遭受差异化对待。例如，个性化贷款审批系统可能根据训练数据中的人口统计模式向申请人提供不同条款，即便这些模式反映了历史歧视现象。

衡量微调模型的公平性

要解决偏见问题，首先需建立衡量标准。机器学习系统已开发出多种公平性指标，其中多数可适配于微调后的LLMs。下面我们将探讨关键指标及其数学表达式。

人口统计平等（统计平等）

人口统计学均衡要求模型预测结果与种族、性别等敏感属性无关。数学上，对于包含敏感属性A的二元分类器，其预测公式为 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572313869

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

大型语言模型的隐私与安全 (Chinese Edition)

by Baihan Lin

第七章. LLMs微调中的伦理考量

个性化中的偏见与公平性问题

理解微调LLMs中的偏见

注