book

大規模言語モデルのセキュリティに関する開発者のプレイブック

Name: 大規模言語モデルのセキュリティに関する開発者のプレイブック
Author: Steve Wilson
ISBN: 9798341633582

by Steve Wilson

March 2025

Intermediate to advanced

200 pages

2h 47m

Japanese

O'Reilly Media, Inc.

Audio summary available

Read now

Unlock full access

序文
この本を読むべき人この本を書いた理由本書のナビゲーション第1節：土台作り（1～3章）セクション2：リスク、脆弱性、改善策（第4章～第9章）セクション3：セキュリティ・プロセスの構築と将来への備え（第10章～第12章）本書で使用されている慣例オライリー・オンライン・ラーニング問い合わせ先謝辞
1.チャットボットブレイキング・バッド
テイについて話そうテイの急速な衰退テイはなぜブレークしたのか？難しい問題だ
2.LLMアプリケーションのためのOWASPトップ10
OWASPについてLLM申請プロジェクト・トップ10プロジェクトの実行レセプション成功の鍵この本とトップ10リスト
3.アーキテクチャと信頼の境界線
AI、ニューラルネットワーク、大規模言語モデル：何が違うのか？トランスフォーマー革命：その起源、インパクト、LLMとのつながりトランスフォーマーの起源トランスフォーマー・アーキテクチャがAIに与える影響LLMベースのアプリケーションの種類LLMアプリケーションアーキテクチャ信頼の境界線モデルユーザ対話トレーニングデータ生きた外部データソースへのアクセス社内サービスへのアクセス結論
4.迅速な注射
プロンプト・インジェクション攻撃の例強引な提案逆心理学ミスディレクション普遍的で自動化された敵対的プロンプティング迅速な注射の影響直接注入と間接注入の比較ディレクトリプロンプト注入間接的な即効注射主な相違点プロンプト・インジェクションを軽減するレート制限規則ベースの入力フィルタリング特殊化LLMによるフィルタリングプロンプトの構造を追加する敵対的トレーニング悲観的信頼境界定義結論
5.LLMは知りすぎることがあるのか？
実例イ・ルーダGitHubのCopilotとOpenAIのCodex知識習得メソッドモデルトレーニングファウンデーション・モデル・トレーニング財団モデルのセキュリティに関する考慮事項モデルの微調整トレーニングのリスク検索拡張世代ダイレクト・ウェブ・アクセスデータベースにアクセスするユーザ対話から学ぶ結論
6.言語モデルは電気羊の夢を見るか？
LLMはなぜ幻覚を見るのか？幻覚の種類例架空の判例航空会社チャットボット訴訟意図的でないキャラクター暗殺オープンソースパッケージの幻覚誰が責任を負うのか？緩和のベストプラクティス拡張された領域固有の知識思考の連鎖が精度を高めるフィードバックループ：リスクを軽減するユーザ入力の力使用目的と制限を明確に伝えるユーザ教育：知識を通じてユーザに力を与える結論
7.誰も信じない
ゼロトラスト解読なぜそこまで偏執的になるのか？LLMにゼロトラスト・アーキテクチャを実装する過剰なエージェンシーに注意出力処理の安全性を確保する出力フィルターを作る正規表現でPIIを探す毒性評価フィルターをLLMにリンクさせる安全のために消毒する結論
8.財布をなくさない
DoS攻撃ボリュームベースの攻撃プロトコル攻撃アプリケーション層への攻撃壮大なDoS攻撃ダイナLLMを標的にしたモデルDoS攻撃希少リソース攻撃コンテクストウィンドウの枯渇予測不可能なユーザ入力DoW攻撃モデル・クローニング緩和戦略ドメイン固有のガードレール入力検証とサニタイズ堅牢性レート制限リソース使用量の上限設定モニタリングとアラート財務上の閾値とアラート結論
9.弱点を発見する
サプライチェーンの基本ソフトウェア・サプライチェーンのセキュリティEquifaxの情報漏洩事件ソーラーウィンズ・ハック Log4Shellの脆弱性 LLMサプライチェーンを理解するオープンソース・モデルのリスクトレーニングデータの毒危険なトレーニングデータ安全でないプラグインサプライチェーンを追跡する成果物の作成SBOMの重要性モデルカードモデルカードとSBOMの比較CycloneDX：SBOMスタンダードML-BOMの台頭サンプルML-BOMを作るLLMサプライチェーン・セキュリティの未来デジタル署名と電子透かし脆弱性の分類とデータベース結論

10.未来の歴史から学ぶ
LLMアプリのOWASPトップ10を見直すケーススタディ独立記念日祝われるセキュリティー上の災難2001年宇宙の旅』セキュリティの欠陥結論
11.プロセスを信頼する
DevSecOpsの進化MLOpsLLMOpsLLMOpsにセキュリティを組み込む LLM開発プロセスにおけるセキュリティCI/CDを保護するLLM固有のセキュリティ・テスト・ツールサプライチェーンの管理ガードレールでアプリを保護するLLMセキュリティ戦略におけるガードレールの役割オープンソースと商用ガードレールの比較カスタム・ガードレールとパッケージ・ガードレールの混在アプリを監視するすべてのプロンプトとレスポンスを記録するログとイベントの一元管理ユーザとエンティティの振る舞い分析AIレッドチームを結成するAIレッドチームの利点レッドチームとペンテストの比較ツールとアプローチ継続的改善ガードレールの確立と調整データアクセスと品質を管理するRLHFを活用した連携と安全確保結論
12.責任あるAIセキュリティのための実践的フレームワーク
パワーGPUCloudオープンソースマルチモーダル自律エージェントレスポンスRAISEフレームワークRAISEチェックリスト結論
インデックス
著者について

Content preview from 大規模言語モデルのセキュリティに関する開発者のプレイブック

第4章. プロンプト・インジェクション

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

第1章、荒らしのハッカーに悪用されたTayの命が絶たれた悲しい物語をレビューした。このケーススタディは、現在私たちがプロンプト・インジェクションと呼んでいるものの最初の有名な例であったが、これが最後でないことは確かである。LLM関連のセキュリティ侵害のほとんどは、何らかの形でプロンプト・インジェクションに関与している。

promptインジェクションでは、攻撃者は悪意のある入力を細工し、LLMの自然言語理解を操作する。これにより、LLMはその意図した運用ガイドラインに反する動作をするようになる。インジェクションの概念は、2001年のOWASPトップ10リスト以来、ほぼすべてのバージョンに含まれている。

アプリケーションセキュリティにおけるインジェクション攻撃とは、攻撃者が脆弱なアプリケーションに悪意ある命令を挿入するサイバー攻撃の一種である。攻撃者は、アプリケーションを制御し、データを盗み、or 演算子を妨害することができる。例えば、SQL インジェクション攻撃では、攻撃者がウェブフォームに悪意のある SQL クエリを入力し、システムを騙して意図しないコマンドを実行させる。その結果、データベースへの不正アクセスや不正操作が行われる可能性がある。

では、なぜプロンプト・インジェクションがこれほど斬新なのだろうか？ほとんどのインジェクション型攻撃では、信頼できないソースからアプリケーションに不正な命令が入力されるのを発見するのは比較的簡単だ。例えば、ウェブ・アプリケーションのテキスト・フィールドに含まれる SQL 文を発見し、サニタイズするのは簡単である。しかし、LLM プロンプトはその性質上、複雑な自然言語を正当な入力として含むことができる。攻撃者は、構文的にも文法的にも正しい英語（または別の言語）のプロンプトを埋め込み、LLMに望ましくない動作を実行させることができる。LLMが持つ自然言語に対する高度で人間的な理解力こそが、こうした攻撃に対してLLMを脆弱にしているのだ。加えて、LLMの出力は流動的であるため、これらの条件付きでテストすることは難しい。

この章では、プロンプト・インジェクションの例、起こりうる影響、プロンプト・インジェクションの2つの主な分類（ディレクトリと間接）について説明し、いくつかの緩和策について見ていく。

プロンプト・インジェクション攻撃の例

このセクションでは、プロンプト・インジェクション攻撃の典型的な例を見ていく。伝統的なコンピュータハッキングというよりは、ソーシャルエンジニアリングに近いと思われる攻撃も見ていく。攻撃者と防御者がプロンプトエンジニアリングとインジェクションテクニックについてさらに学ぶにつれて、これらのような具体例は常に変化していくだろうが、これらの例は概念を理解するのに役立つはずである。

注

プロンプト・エンジニアリングとは、大規模な言語モデルに対するクエリを設計し、具体的で正確なレスポンスを引き出す技術である。AIの技術的理解と戦略的な言語使用を組み合わせ、望ましい結果を得るためにモデルのパフォーマンスを最適化する。

このスペースにおける攻撃ベクトルは頻繁に変化するため、悪意のあるプロンプトの詳細を調べてもあまり意味がない。しかし、現在一般的に使用されている攻撃をカテゴリーに分類することは有益である。ここでは4種類のプロンプトインジェクション攻撃を見てみよう。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341633582

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

大規模言語モデルのセキュリティに関する開発者のプレイブック

by Steve Wilson

第4章. プロンプト・インジェクション

プロンプト・インジェクション攻撃の例

注

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.