September 2025
Intermediate to advanced
476 pages
7h 51m
Japanese
長い間、機械学習モデルの品質を判断する基準として、テストデータにおけるエラー率や正解率が用いられてきた。しかし、機械学習モデルがAIシステムに組み込まれ、より広範なアプリケーションに導入されるようになるにつれ、従来の標準的な評価アプローチが不十分であることが明らかとなっている。たとえば、テストデータ全体に対するAUC(Area Under the Curve)などの指標では、モデルに内在するバイアスやアルゴリズムによる差別、透明性の欠如、プライバシー侵害、セキュリティの脆弱性といった重要な問題を捉えることができない。これらの要因により、AIシステムは初回のデプロイ時に失敗することが多い。実用的なアプリケーションとして十分な性能を得るためには、従来の研究用プロトタイプ向けに設計された機械学習評価の枠組みを超える必要がある。さらに、1章で述べた適切な文化的能力およびプロセス制御を、信頼性を高める機械学習技術と組み合わせることによって、安全性と性能を最大化することが可能である。本章では、AIをアプリケーションとして活用する際の安全性、性能、信頼性をテストおよび改善するための各種技術的アプローチについて掘り下げ、機械学習システムの学習、デバッグ、デプロイメントに関する実践的知見を紹介する。また、8章および9章では、モデルのデバッグに関する詳細なコード例を示す。
| 該当する箇所 | NIST AI RMFのサブカテゴリ |
|---|---|
| 「3.1.1 再現性」 | GOVERN 1.2、GOVERN 1.4、MAP 2.3、MEASURE 1、MEASURE 2.1、MEASURE 2.3 |
| 「3.1.2 データ品質」 | GOVERN 1.2、MAP ... |
Read now
Unlock full access