book

機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決

Name: 機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決
ISBN: 9784873119564

by Valliappa Lakshmanan, Sara Robinson, Michael Munn, 鷲崎弘宜, 竹内広宜, 名取直毅, 吉岡信和

October 2021

Beginner to intermediate

414 pages

6h 25m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

大扉
原書大扉
クレジット
はじめに
本書の想定読者本書が扱わない内容コードサンプル本書の表記法連絡先謝辞
1章　機械学習デザインパターンの必要性
1.1　デザインパターンとは1.2　本書の利用方法1.3　機械学習の用語1.3.1　モデルとフレームワーク1.3.2　データと特徴量エンジニアリング1.3.3　機械学習のプロセス1.3.4　データおよびモデルに関するツールの活用1.3.5　役割分担1.4　機械学習の共通課題1.4.1　データ品質1.4.2　再現性1.4.3　データドリフト1.4.4　規模1.4.5　複数の異なる目的1.5　まとめ
2章　データ表現のパターン
2.1　シンプルなデータ表現2.1.1　数値入力2.1.1.1　スケーリングが望ましい理由なぜ数値を[－1, 1]の範囲に収めるのか2.1.1.2　線形スケーリング「外れ値」を破棄してはならない2.1.1.3　非線形変換2.1.1.4　数字の配列2.1.2　カテゴリ型入力2.1.2.1　ワンホットエンコーディングダミー変数化とワンホットエンコーディング2.1.2.2　カテゴリ型変数の配列2.2　デザインパターン1：特徴量ハッシュ（Hashed Feature）2.2.1　問題2.2.2　解決2.2.3　うまくいく理由2.2.3.1　語彙に含まれない入力2.2.3.2　値の種類の多さ2.2.3.3　コールドスタート2.2.4　トレードオフと代替案2.2.4.1　バケットの衝突2.2.4.2　分布の歪み2.2.4.3　集約的な特徴量2.2.4.4　ハイパーパラメータチューニング2.2.4.5　暗号化ハッシュ2.2.4.6　処理の順番2.2.4.7　空のハッシュバケット2.3　デザインパターン2：埋め込み（Embeddings）2.3.1　問題2.3.2　解決2.3.2.1　テキストの埋め込み2.3.2.2　画像の埋め込み2.3.3　うまくいく理由2.3.4　トレードオフと代替案2.3.4.1　埋め込み次元の選択2.3.4.2　オートエンコーダ2.3.4.3　文脈言語モデル2.3.4.4　データウェアハウス内の埋め込み2.4　デザインパターン3：特徴量クロス（Feature Cross）2.4.1　問題2.4.2　解決2.4.2.1　BigQuery ML内の特徴量クロス2.4.2.2　TensorFlowの特徴量クロス2.4.3　うまくいく理由2.4.4　トレードオフと代替案2.4.4.1　数値特徴量の取り扱い2.4.4.2　値の種類の多さの扱い2.4.4.3　正則化の必要性2.5　デザインパターン4：マルチモーダル入力（Multimodal Input）2.5.1　問題2.5.2　解決2.5.3　トレードオフと代替案2.5.3.1　表形式データの複数の表現方法2.5.3.2　テキストのマルチモーダル表現bag-of-words（BOW）が機能する仕組み2.5.3.3　画像のマルチモーダル表現畳み込みニューラルネットワークにおける層2.5.3.4　マルチモーダル特徴量表現とモデルの解釈可能性2.6　まとめ
3章　問題表現のパターン
3.1　デザインパターン5：問題再設定（Reframing）3.1.1　問題3.1.2　解決3.1.3　うまくいく理由3.1.3.1　不確実性を捉える3.1.3.2　目的を変える3.1.4　トレードオフと代替案3.1.4.1　バケット化した出力3.1.4.2　不確実性を捉える他の方法3.1.4.3　予測の精度3.1.4.4　予測範囲の制限3.1.4.5　ラベルバイアス3.1.4.6　マルチタスク学習3.2　デザインパターン6：マルチラベル（Multilabel）3.2.1　問題3.2.2　解決シグモイド活性化関数とソフトマックス活性化関数3.2.3　トレードオフと代替案3.2.3.1　2つのクラスを持つモデルにおけるシグモイド出力3.2.3.2　どの損失関数を使うべきか3.2.3.3　シグモイド関数の出力の解析3.2.3.4　データセットに対する考慮3.2.3.5　ラベルが重複している入力3.2.3.6　一対他3.3　デザインパターン7：アンサンブル学習（Ensemble）3.3.1　問題3.3.2　解決3.3.2.1　バギング3.3.2.2　ブースティング3.3.2.3　スタッキング3.3.3　うまくいく理由3.3.3.1　バギング3.3.3.2　ブースティング3.3.3.3　スタッキング3.3.4　トレードオフと代替案3.3.4.1　訓練と設計にかかる時間の増加3.3.4.2　バギングとしてのドロップアウト3.3.4.3　モデルの解釈可能性の低下3.3.4.4　問題に対する適切なツールの選択3.3.4.5　他のアンサンブル学習の手法3.4　デザインパターン8：カスケード（Cascade）3.4.1　問題3.4.2　解決3.4.3　トレードオフと代替案3.4.3.1　決定的な入力3.4.3.2　単一のモデル3.4.3.3　内部整合性3.4.3.4　訓練済みのモデル3.4.3.5　カスケードの代用としての問題再設定3.4.3.6　稀な状況での回帰3.5　デザインパターン9：中立クラス（Neutral Class）3.5.1　問題3.5.2　解決3.5.3　うまくいく理由3.5.3.1　合成データの場合3.5.3.2　現実世界での場合3.5.4　トレードオフと代替案3.5.4.1　専門家の意見が分かれる場合3.5.4.2　顧客満足度の予測の場合3.5.4.3　埋め込み表現を改善する方法3.5.4.4　中立クラスを用いた問題再設定3.6　デザインパターン10：リバランシング（Rebalancing）3.6.1　問題3.6.2　解決3.6.2.1　評価指標の選択3.6.2.2　ダウンサンプリング3.6.2.3　クラスの重み付け出力層のバイアス3.6.2.4　アップサンプリング3.6.3　トレードオフと代替案3.6.3.1　問題の再設定とカスケード3.6.3.2　異常検知3.6.3.3　少数派クラスに含まれるサンプルの数3.6.3.4　異なる手法の組み合わせ3.6.3.5　モデルアーキテクチャの選択3.6.3.6　説明可能性の重要性3.7　まとめ
4章　モデル訓練のパターン
4.1　典型的な訓練ループ4.1.1　確率的勾配降下法4.1.2　Kerasの訓練ループ4.1.3　訓練デザインパターン4.2　デザインパターン11：価値ある過学習（Useful Overfitting）4.2.1　問題4.2.2　解決4.2.3　うまくいく理由4.2.4　トレードオフと代替案4.2.4.1　補間とカオス理論4.2.4.2　モンテカルロ法4.2.4.3　データ駆動離散化ディープガラーキン法4.2.4.4　非有界の入力空間4.2.4.5　ニューラルネットワークの知識蒸留4.2.4.6　1つのバッチによる過学習4.3　デザインパターン12：チェックポイント（Checkpoints）4.3.1　問題4.3.2　解決PyTorchでのチェックポイント4.3.3　うまくいく理由4.3.4　トレードオフと代替案4.3.4.1　早期打ち切り4.3.4.2　ファインチューニング4.3.4.3　エポック再定義4.4　デザインパターン13：転移学習（Transfer Learning）4.4.1　問題4.4.2　解決4.4.2.1　ボトルネック層4.4.2.2　転移学習の実装4.4.2.3　訓練済み埋め込み4.4.3　うまくいく理由4.4.4　トレードオフと代替案4.4.4.1　特徴量抽出とファインチューニング4.4.4.2　画像とテキストに焦点を当てる理由4.4.4.3　単語埋め込みと文埋め込み4.5　デザインパターン14：分散戦略（Distribution Strategy）4.5.1　問題4.5.2　解決4.5.2.1　同期訓練PyTorchにおける分散データ並列化4.5.2.2　非同期訓練4.5.3　うまくいく理由4.5.4　トレードオフと代替案4.5.4.1　モデル並列化モデル並列化かデータ並列化か4.5.4.2　より良い性能をより低コストで実現するASIC4.5.4.3　バッチサイズの選択4.5.4.4　I/Oウエイトの最小化4.6　デザインパターン15：ハイパーパラメータチューニング（Hyperparameter Tuning）4.6.1　問題4.6.1.1　手動チューニング4.6.1.2　グリッドサーチと組み合わせ爆発4.6.2　解決4.6.3　うまくいく理由4.6.3.1　非線形最適化4.6.3.2　ベイズ最適化4.6.4　トレードオフと代替案4.6.4.1　フルマネージドハイパーパラメータチューニング4.6.4.2　遺伝的アルゴリズム4.7　まとめ
5章　対応性のある運用のパターン
5.1　デザインパターン16：ステートレスサービング関数（Stateless Serving Function）ステートレス関数5.1.1　問題5.1.2　解決5.1.2.1　モデルのエクスポート5.1.2.2　Pythonでの推論5.1.2.3　Webエンドポイントの作成5.1.3　うまくいく理由5.1.3.1　オートスケーリング5.1.3.2　フルマネージド5.1.3.3　言語中立5.1.3.4　強力なエコシステム5.1.4　トレードオフと代替案5.1.4.1　カスタムサービング関数5.1.4.2　多重シグネチャ5.1.4.3　オンライン予測5.1.4.4　予測ライブラリ5.2　デザインパターン17：バッチサービング（Batch Serving）5.2.1　問題5.2.2　解決5.2.3　うまくいく理由5.2.4　トレードオフと代替案5.2.4.1　バッチとストリームのパイプライン5.2.4.2　バッチサービング結果のキャッシュ5.2.4.3　ラムダアーキテクチャ5.3　デザインパターン18：継続的モデル評価（Continued Model Evaluation）5.3.1　問題5.3.2　解決5.3.2.1　コンセプト5.3.2.2　モデルのデプロイ5.3.2.3　予測結果の保存5.3.2.4　正解値の取得5.3.2.5　モデルの性能評価5.3.2.6　継続的な評価5.3.3　うまくいく理由5.3.4　トレードオフと代替案5.3.4.1　再訓練のトリガーサーバレストリガー5.3.4.2　スケジュールされた再訓練5.3.4.3　TFXを用いたデータ検証5.3.4.4　再訓練間隔の推定5.4　デザインパターン19：2段階予測（Two-Phase Predictions）5.4.1　問題5.4.2　解決5.4.2.1　第1段階：オフラインモデルの構築エッジに適したモデルとは何か5.4.2.2　第2段階：クラウドモデルの構築5.4.3　トレードオフと代替案5.4.3.1　スタンドアロン単一段階モデル5.4.3.2　特定の使用場面でのオフラインサポート5.4.3.3　準リアルタイム多予測処理5.4.3.4　オフラインモデル向けの継続的な評価5.5　デザインパターン20：キー付き予測（Keyed Predictions）5.5.1　問題5.5.2　解決5.5.2.1　Kerasでのパススルーキーの渡し方5.5.2.2　既存モデルへのキー付き予測機能の追加5.5.3　トレードオフと代替案5.5.3.1　非同期サービング5.5.3.2　継続的な評価5.6　まとめ
6章　再現性のパターン
6.1　デザインパターン21：変換（Transform）6.1.1　問題6.1.2　解決6.1.3　トレードオフと代替案6.1.3.1　TensorFlowやKerasでの変換6.1.3.2　tf.transformを使った効率的な変換6.1.3.3　テキストと画像の変換6.1.3.4　他のパターンによる解決6.2　デザインパターン22：繰り返し可能な分割（Repeatable Splitting）6.2.1　問題6.2.2　解決6.2.3　トレードオフと代替案6.2.3.1　単一のクエリ6.2.3.2　ランダムな分割6.2.3.3　複数カラムを考慮した分割6.2.3.4　繰り返しが可能なサンプリング6.2.3.5　時系列の分割6.2.3.6　分類された分割6.2.3.7　非構造化データ6.3　デザインパターン23：スキーマブリッジ（Bridged Schema）6.3.1　問題6.3.2　解決6.3.2.1　スキーマブリッジ6.3.2.2　拡張されたデータ6.3.3　トレードオフと代替案6.3.3.1　スキーマの統合6.3.3.2　カスケード法6.3.3.3　新しい特徴量の処理6.3.3.4　データの精度向上の扱い6.4　デザインパターン24：ウィンドウ推論（Windowed Inference）6.4.1　問題6.4.2　解決6.4.3　トレードオフと代替案6.4.3.1　計算オーバーヘッドの軽減6.4.3.2　ストリーミングSQL6.4.3.3　一連の系列のモデル6.4.3.4　状態を持つ特徴量6.4.3.5　予測リクエストをバッチ処理する6.5　デザインパターン25：ワークフローパイプライン（Workflow Pipeline）6.5.1　問題6.5.2　解決6.5.2.1　TFXパイプラインの構築6.5.2.2　Cloud AI Platform上でパイプラインを実行する6.5.3　うまくいく理由6.5.4　トレードオフと代替案6.5.4.1　カスタムコンポーネントの作成6.5.4.2　パイプラインにCI/CDを統合する6.5.4.3　Apache AirflowとKubeflow Pipelines6.5.4.4　開発と本番環境のパイプライン6.5.4.5　問題領域特化のパイプライン6.5.4.6　機械学習のパイプラインにおける系統追跡6.6　デザインパターン26：特徴量ストア（Feature Store）6.6.1　問題6.6.2　解決6.6.2.1　Feast特徴量集合の作成時のストリーミングデータソースの定義6.6.2.2　Feastからデータを取得する6.6.3　うまくいく理由6.6.4　トレードオフと代替案6.6.4.1　他の実装6.6.4.2　変換パターン6.7　デザインパターン27：モデルバージョニング（Model Versioning）6.7.1　問題6.7.2　解決6.7.2.1　モデルユーザのタイプ6.7.2.2　管理サービスによるモデルのバージョニング新たに入手したデータを管理するバージョン管理6.7.3　トレードオフと代替案6.7.3.1　他のサーバレスのバージョン管理ツール6.7.3.2　TensorFlow Serving6.7.3.3　複数のサービング関数6.7.3.4　新しいモデルと新しいバージョン6.8　まとめ

7章　責任あるAIのパターン
7.1　デザインパターン28：経験的ベンチマーク（Heuristic Benchmark）7.1.1　問題7.1.2　解決7.1.3　トレードオフと代替案7.1.3.1　開発時のチェック7.1.3.2　人間の専門家7.1.3.3　利用価値7.2　デザインパターン29：説明可能な予測（Explainable Predictions）7.2.1　問題7.2.2　解決7.2.2.1　モデルのベースラインベースラインの決定経験的ベンチマークとモデルのベースライン7.2.2.2　SHAP7.2.2.3　デプロイしたモデルによる説明7.2.3　トレードオフと代替案7.2.3.1　データ選択の偏り7.2.3.2　対比分析とサンプルに基づく説明7.2.3.3　説明可能性の限界7.3　デザインパターン30：公平性レンズ（Fairness Lens）7.3.1　問題7.3.2　解決7.3.2.1　訓練前他の形式のデータにおけるバイアス7.3.2.2　訓練後7.3.3　トレードオフと代替策7.3.3.1　Fairness Indicators7.3.3.2　データ評価の自動化7.3.3.3　許容リストと禁止リスト7.3.3.4　データの拡張7.3.3.5　Model Cards7.3.3.6　公平性と説明可能性7.4　まとめ
8章　パターンのつながり
8.1　パターンの一覧8.2　パターン間の相互作用8.3　機械学習プロジェクトにおけるパターン8.3.1　機械学習ライフサイクル8.3.1.1　発見段階8.3.1.2　開発段階8.3.1.3　デプロイ段階8.3.2　AI活用成熟度8.3.2.1　戦術的段階：手動開発8.3.2.2　戦略的段階：パイプラインの活用8.3.2.3　変革的段階：完全に自動化されたプロセス8.4　利用場面とデータ種別ごとに共通のパターン8.4.1　自然言語理解8.4.2　コンピュータビジョン8.4.3　予測分析8.4.4　推薦システム8.4.5　不正・異常検知
訳者あとがき
著者・訳者紹介
奥付

Content preview from 機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決

6章再現性のパターン

単体テストのようなベストプラクティスでは、プログラムを走らせたらいつも同じ結果が決定的に返されることを前提としています。

def sigmoid(x):
    return 1.0 / (1 + np.exp(-x))

class TestSigmoid(unittest.TestCase):
    def test_zero(self):
        self.assertAlmostEqual(sigmoid(0), 0.5)

    def test_neginf(self):
        self.assertAlmostEqual(sigmoid(float("-inf")), 0)

    def test_inf(self):
        self.assertAlmostEqual(sigmoid(float("inf")), 1)

このような実行の再現性は、機械学習を使う上では確保困難となります。訓練中、機械学習のモデルのパラメータは乱数で初期化され、訓練データによって調整されるためです。そこで例えばscikit-learnで実装された単純なk平均法のアルゴリズムでは、毎回同じ結果を返すために以下にあるようにrandom_stateの値を設定します。

def cluster_kmeans(X):
    from sklearn import cluster
    k_means = cluster.KMeans(n_clusters=10, random_state=10)
    labels = k_means.fit(X).labels_[::]
    return labels

訓練における再現性を保つためには、乱数のシードだけではなく、いろいろな管理要素の値を固定する必要があります。さらに機械学習には、訓練やデプロイ、再訓練など、さまざまな工程があります。そのため、しばしばそれらの工程をまたがって再現性を保つことが重要になります。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784873119564Other

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決

by Valliappa Lakshmanan, Sara Robinson, Michael Munn, 鷲崎弘宜, 竹内広宜, 名取直毅, 吉岡信和

6章再現性のパターン

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.