Skip to Content
データセキュリティのブループリント
book

データセキュリティのブループリント

by Federico Castanedo
May 2025
Beginner to intermediate
48 pages
29m
Japanese
O'Reilly Media, Inc.
Content preview from データセキュリティのブループリント

第3章. AI時代のデータ保護

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

現在のAIシステムは、構造化データと非構造化データの両方を活用して、洞察に満ちたレスポンスを提供している。社内のデータを活用する効果的なメソッドのひとつに、検索-拡張-生成(RAG)システムがある。RAGは、検索モデルと生成モデルを統合し、ドメイン固有の知識を取り入れることで、AIのレスポンスの精度を向上させる。このプロセスには、社内ソースから関連データを検索するステップと、生成モデルを使用してコンテキストに沿った正確な出力を生成するステップの2つがある。

なぜそれが重要なのか

ジェネレーティブAI(GenAI)、特にRAGは、企業のデータ活用を一変させた。AIコパイロットツールはデータへのアクセスを簡素化し、技術者でないユーザでもSQLのような特殊化スキルを持たずに企業データをクエリできるようにする。

RAGシステムは、ゼロからモデルを構築したり微調整したりする代わりに、費用対効果の高い選択肢を提供する。一般的なモデルで生成されるレスポンスよりも正確で適切なレスポンスを提供するため、独自のデータを組み込むことができる。

検索モジュールは、ユーザの質問に関連する情報を取得する。この情報はベクトル・データベースに格納され、次にオーグメンテーション・モジュールがユーザのクエリに関連する検索されたコンテンツを追加する。最後に、生成モジュールは、最新の情報を使って、より正確で、引用され、文脈に沿ったレスポンスを提供する。

しかし、こうしたシステムの急速な普及は、いくつかの課題をもたらしている。アクセスが容易になることで、データ分析が民主化される一方で、より多くの個人が潜在的にセンシティブな情報にアクセスできるようになるため、データ漏洩のリスクも高まる。一般データ保護規則(GDPR)、カリフォルニア州消費者プライバシー法(CCPA)、HIPAAなどのデータ規制へのコンプライアンスの確保も、構造化データと非構造化データの両方に関連するセキュリティリスクの管理と同様に課題となっている。

非構造化データを処理するGenAIの能力は、堅牢性セキュリティ対策の必要性をより重要なものにしている。適切に管理されなければ、これらのシステムは不注意に機密情報を暴露する可能性があり、プライバシーとセキュリティの標準に沿ったデータ保護ポリシーとガードレールを実装することが重要になる。

課題

AIアプリケーションにRAGベースのシステムを実装するには、独特の障害を乗り越えなければならない。これらの障害は、技術、セキュリティ、コンプライアンスの各領域にまたがり、これらのシステムが安全かつ効果的にデプロイされることを保証するための包括的なアプローチが必要となる:

データ漏洩と不正アクセス

RAGシステムの主な懸念事項のひとつは、データ漏洩や不正アクセスの可能性である。これらのシステムは機密情報や専有情報にアクセスすることが多いため、セキュリティ対策が不十分だと機密データが漏洩する恐れがある。これは、機密性の高い顧客情報やビジネス情報が漏洩する危険性があるだけでなく、組織に多大な金銭的損害や風評被害をもたらす可能性もある。こうしたリスクを軽減するためには、効果的なアクセス・コントロール対策と暗号化テクニックが不可欠である。

データ完全性の問題

RAGシステムで使用されるデータの完全性を維持することは極めて重要である。データの完全性は、偶発的なエラー、システム障害、あるいはデータポイズニングのような悪意のある行為によって損なわれる可能性がある。データポイズニングとは、AIモデルの学習に使用するデータを意図的に破損させ、歪んだ出力や偏った出力に導くことである。このような操作はAIシステムの精度と信頼性を著しく損なうため、堅牢性のあるデータ検証と監視プロセスを実装することが極めて重要である。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

LLMsとヘルスケアのためのジェネレーティブAI

LLMsとヘルスケアのためのジェネレーティブAI

Kerrie Holley, Manish Mathur
AWS上のレジリエントなシステムの構築

AWS上のレジリエントなシステムの構築

Kevin Schwarz, Jennifer Moran, Nate Bachmeier

Publisher Resources

ISBN: 9798341647701