book

大型语言模型的隐私与安全 (Chinese Edition)

Name: 大型语言模型的隐私与安全 (Chinese Edition)
Author: Baihan Lin
ISBN: 0642572313869

by Baihan Lin

January 2026

Beginner to intermediate

318 pages

3h 38m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
本书读者对象为何撰写本书阅读指南本书采用的规范代码示例使用说明O'Reilly在线学习联系我们鸣谢
1. 引言
大型语言模型的崛起LLMs中的隐私与安全问题本书内容涵盖您在此旅程中的角色总结
2. 理解大型语言模型
大型语言模型的基础原理语言模型的基础构建模块LLMs核心概念LLM架构Transformer架构专家混合架构热门LLM模型LLM训练技术预训练技术微调技术检索增强生成总结
3. 评估LLMs的隐私与安全风险
隐私度量差分隐私隐私损失k-匿名性RAG系统中的隐私考量安全指标攻击成功率 (ASR)成员关系推断的误报率（FPR）模型逆向工程的重建误差大型LLM的隐私与安全审计攻击模拟LLMPrivacySecurityEvaluator：全能审计工具现代评估框架与基准测试摘要
4. 隐私保护训练技术
训练阶段隐私泄露的真实案例 LLM的差分隐私用于隐私评估的合成数据如何在您的数据上应用LLMPrivacySecurityEvaluatorLLMs的差分隐私技术数学基础为LLMs实现差分隐私随机梯度下降隐私会计实践权衡与考量将差分隐私应用于检索增强生成基于LLMs的联邦学习概念为LLMs实现联邦学习联合学习的优势与挑战LLMs中的同态加密概念为LLMs实现同态加密同态加密的优势与挑战安全聚合的多方计算概念基于现代库实现MPCMPC的优势与挑战参数高效的隐私保护微调低秩自适应量化低秩适应隐私保护数据转换数据匿名化与去标识化隐私保护数据增强隐私保护数据增强的优势与挑战数据增强摘要
5. LLMs的安全部署
安全模型托管与基础设施理解基础设施组件隔离策略网络安全资源管理与监控安全API与通信API设计原则安全API的实现身份验证与授权安全通信安全模型版本控制与更新模型注册表与版本控制安全更新流程摘要
6. 对抗性攻击与防御策略
理解针对LLMs的对抗性攻击针对LLMs的对抗性攻击分类典型攻击方法嵌入空间攻击LLM代理攻击模型规模与架构的影响案例研究：防御越狱攻击鲁棒微调技术对抗性训练鲁棒优化技术数据增强与鲁棒性前缀调优与基于prompt的鲁棒性集成方法可验证鲁棒微调针对LLMs的红队测试红队对抗方法论实施红队计划红队工具与框架自动化多轮红队演练案例研究：实战中的红队演练对抗性评估与鲁棒性指标稳健性基准分布偏移下的稳健性人机协同评估基于代理的评估标准化攻击成功指标防御评估指标鲁棒性评估的挑战最佳实践大型LLM鲁棒性的未来方向摘要
7. 深度微调LLMs的伦理考量
个性化中的偏见与公平性问题理解微调LLMs中的偏见在微调模型中衡量公平性偏见缓解策略隐私保护偏见缓解的挑战微调模型中的透明度与可解释性LLMs可解释性挑战解释LLM行为的技术隐私保护下的可解释性在隐私约束下解决AI偏见隐私与公平的权衡群体感知隐私机制偏见感知联邦学习隐私保护偏见审计摘要
8. 应对文化、社会与法律环境
新型社会技术系统人工智能驱动的文化演进浪潮中前行人工智能生成内容的兴起与信任的侵蚀个性化人工智能与身份危机在监控资本主义时代人机交互中的存在主义问题揭开生成式人工智能供应链的面纱机器文化的兴起适应性法律框架：监管与问责机制LLMs时代的版权与知识产权困境个性化人工智能系统中的数据隐私与保护案例算法偏见与歧视案例研究 ——人工智能驱动决策中的伦理困境人工智能驱动系统中的责任与问责案例技术法律解决方案主义面临的普遍挑战构建负责任的人工智能文化超越算法的人工智能安全：人类因素摘要
9. 构建隐私保护型人工智能能力
医疗健康AI实践：基于差分隐私的临床病历分析医疗隐私挑战合成数据作为隐私保护基础LoRA：高效且隐私友好的微调方案基于RDP的隐私核算现实世界部署考量法律AI实践：跨律所或法院的联合学习法律保密性要求法律人工智能的联合学习架构安全聚合与模型更新联合法律人工智能的法律与伦理考量性能与实用性评估构建以隐私为先的人工智能能力组织准备度与实施策略团队架构与技术决策治理整合与成效衡量为明日隐私格局预作准备技术融合与监管演进市场动态与竞争定位面向未来的战略定位摘要结论您所见证的变革我们正在走的路您在塑造未来中的角色

索引
关于作者

Content preview from 大型语言模型的隐私与安全 (Chinese Edition)

第六章对抗性攻击与防御

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在上一章中，您从工程和组织双重视角探索了LLMs的安全部署。您考察了各类基础设施考量、API设计模式及访问控制机制，这些措施有助于在生产环境中守护这些强大的模型。然而，若底层模型本身可被操控，即便是部署最严谨的系统仍将面临风险。

本章将聚焦于LLM领域中攻防双方展开的精彩博弈。您将扮演攻击者的角色，理解这些模型如何遭受攻击，继而转向探讨可保护模型的防御措施。与其他Deep Learning系统类似，LLMs同样易受对抗性攻击——即精心设计的输入数据，旨在以非预期且潜在有害的方式操纵模型行为。

这场博弈的 stakes 至关重大。随着LLMs日益融入金融服务、医疗健康、内容审核及安全系统等关键应用领域，其漏洞可能引发严重后果。攻击者若成功操控LLM，便能绕过内容过滤器生成有害内容，提取训练过程中使用的私密信息，甚至危及依赖模型输出的下游系统。

本章将深入探讨LLM安全的四大核心维度。首先全面解析针对LLMs的对抗性攻击，涵盖攻击分类、实施方法及影响评估。您将剖析从微妙词汇替换到复杂越狱策略、嵌入空间操纵等各类技术手段。

其次，您将研究增强LLM对抗性输入韧性的稳健微调技术。从对抗性训练、数据增强到TRADES优化、可验证稳健方法等高级手段，您将探索如何在训练过程中强化模型防御能力。

随后，您将深入实践针对LLMs的红队测试：在部署前系统性地探测模型漏洞。您将研究手动与自动化方法，设计能识别并缓解安全风险的有效程序。

最后，您将探索评估对抗鲁棒性的专业指标与方法论，突破标准性能指标的局限，全面评估LLM抵御蓄意攻击的能力。

本章贯穿实用案例与实施策略，在安全性和可用性间寻求平衡。完成学习后，您将深入理解LLMs领域的安全格局，掌握开发更稳健可靠模型的具体技术。

让我们踏上探索LLMs对抗性机器学习的旅程——在这里，巧妙prompt工程与安全漏洞利用的界限常被模糊，攻防博弈推动着持续创新。

理解针对LLMs的对抗性攻击

在大规模语言模型（LLMs）领域，对抗性攻击可呈现多种形态，从微妙的词汇替换到精心设计的绕过对齐过滤器的prompt。这些攻击利用模型固有漏洞，常导致生成有害内容、泄露敏感信息或破坏模型与伦理准则的对齐性等非预期后果。

针对LLMs的对抗性攻击分类体系

针对LLMs的对抗性攻击可从多维度进行分类。理解对抗性攻击的分类体系有助于防御者构建全面的安全策略，因为它揭示了攻击可能发起的不同角度。我们根据四个关键维度对攻击进行分类，这些维度涵盖了攻击方法论中最关键的变化。

图6-1展示了针对LLMs的对抗性攻击分层分类体系，呈现了不同维度（知识访问权限、攻击目标、攻击面、扰动类型）。该分类体系有助于我们理解攻击者操纵LLMs时可能采用的多元策略。

Diagram illustrating the taxonomy of adversarial attacks on LLMs categorized by attack goals, knowledge access, and attack surfaces, showing relationships and potential defense strategies.

首先，攻击差异取决于攻击者获取模型知识的程度：能否窥见模型架构与权重（白盒攻击）、仅能通过API查询（黑盒攻击），或掌握部分信息（灰盒攻击）。¹ 该维度至关重要，因其决定了可行攻击技术及防御优先级。白盒攻击威力更强但需开源模型，而黑盒攻击对部署系统更具现实意义。

白盒攻击: 攻击者可完全访问模型架构、参数及梯度，通过优化技术实现精准操控。此类攻击威力最强，但实践中最为不切实际，仅适用于开源模型。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572313869

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business