第3章. ジェネレーティブAIの安全性とセキュリティ
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
効果的な安全・安心の枠組みの目的は、AIのイノベーションを止めることではなく、適切なリスクとリターンのトレードオフを満たす質の高いAIプロジェクトの提供を増やすことだ。
信頼は、生成AIアプリケーションの採用における重要な障壁として、部分的にはコンシューマ・アプリケーションにおいて、また、企業にとってはより重要な障壁として浮上している。このセクションでは、信頼の要素を検討し、風評被害、データ漏洩、規制遵守の問題などの害を軽減するための提案とテクニックを提供する。
リスクを軽減することはできても、排除することは決してできないということを理解することは非常に重要だ。この記事を書いている2025年初頭の時点で、ChatGPT-4oや同等の画像ジェネレーターのような最新のジェネレーティブAIアプリケーションでさえ、すべてハッキングやジェイルブレイクされており、そのコードは広く共有されている。
簡単にアクセスできるLLMの利点は、しばしば検出されず管理もされないまま、AIの利用が広まることにもつながっている。多くの企業では、どのモデルが稼働しているのか、モデルがどのような情報にアクセスできるのか、どのようなリスクが存在するのかを検知する方法がない。
企業にとって、"信頼できる "アシスタントが卑猥な言葉を発したり、偏った振る舞いをしたりしたことが公になることによる風評被害は、重大な問題となり、顧客の信頼を失うことになりかねない。被害者である組織は、すぐに不安で信頼できない組織と認識され、その結果、顧客からの収益を失う可能性がある。
特に自律型エージェントの利用が増えるにつれて、より深刻な問題となる可能性があるのは、データ損失のリスク、特にPIIのような機密データである。バックエンドデータベースに接続されたエージェントは、LLMがしばしばデータベースへのクエリに使用されるコードを生成するように設定されていることから、流出攻撃に対する脆弱性がある。このような脆弱性は、標準的なデータアクセス制御を持つ従来のアーキテクチャの脆弱性と比べてより顕著であり、対策も難しい。
AIバイアス
バイアスとは、モデルが脆弱と思われる人間のグループにペナルティを課しているように見えることである。バイアスは主観的なものであるため、定義がやや不正確であることに注意されたい。ワシントン大学の研究によると、GoogleでCEOを画像検索したところ、描かれていた人物の11%が女性であったのに対し、米国のCEOの27%は女性であった。しかし、公正で偏りのない結果とはどのようなものだろうか?27%だろうか?本当に公正で偏りのない結果は、50%の女性CEOの画像を返すという意見もあるだろう。
バイアスは主観的なものであるだけでなく、それを測定するための適切なメトリックを選択することも重要である。最も単純化された測定方法である格差影響は、保護されたグループと多数派のグループを比較して、有利な結果の割合を見るものだが、偏りを測定するメソッドは他にもたくさんある。
ほとんどのLLMの学習データは基本的にインターネット全体であるため、バイアスは生成AIでは特に難しい。このような広範なデータセットでは、注意深い調整や安全な訓練なしに、モデルはソースデータを反映することになる。ごく最近まで、最先端のチャット・モデルのほとんどは、以下のエレベーター・テストに失敗していた。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access