2.1 シンプルなデータ表現2.1.1 数値入力2.1.1.1 スケーリングが望ましい理由なぜ数値を[-1, 1]の範囲に収めるのか2.1.1.2 線形スケーリング「外れ値」を破棄してはならない2.1.1.3 非線形変換2.1.1.4 数字の配列2.1.2 カテゴリ型入力2.1.2.1 ワンホットエンコーディングダミー変数化とワンホットエンコーディング2.1.2.2 カテゴリ型変数の配列2.2 デザインパターン1:特徴量ハッシュ(Hashed Feature)2.2.1 問題2.2.2 解決2.2.3 うまくいく理由2.2.3.1 語彙に含まれない入力2.2.3.2 値の種類の多さ2.2.3.3 コールドスタート2.2.4 トレードオフと代替案2.2.4.1 バケットの衝突2.2.4.2 分布の歪み2.2.4.3 集約的な特徴量2.2.4.4 ハイパーパラメータチューニング2.2.4.5 暗号化ハッシュ2.2.4.6 処理の順番2.2.4.7 空のハッシュバケット2.3 デザインパターン2:埋め込み(Embeddings)2.3.1 問題2.3.2 解決2.3.2.1 テキストの埋め込み2.3.2.2 画像の埋め込み2.3.3 うまくいく理由2.3.4 トレードオフと代替案2.3.4.1 埋め込み次元の選択2.3.4.2 オートエンコーダ2.3.4.3 文脈言語モデル2.3.4.4 データウェアハウス内の埋め込み2.4 デザインパターン3:特徴量クロス(Feature Cross)2.4.1 問題2.4.2 解決2.4.2.1 BigQuery ML内の特徴量クロス2.4.2.2 TensorFlowの特徴量クロス2.4.3 うまくいく理由2.4.4 トレードオフと代替案2.4.4.1 数値特徴量の取り扱い2.4.4.2 値の種類の多さの扱い2.4.4.3 正則化の必要性2.5 デザインパターン4:マルチモーダル入力(Multimodal Input)2.5.1 問題2.5.2 解決2.5.3 トレードオフと代替案2.5.3.1 表形式データの複数の表現方法2.5.3.2 テキストのマルチモーダル表現bag-of-words(BOW)が機能する仕組み2.5.3.3 画像のマルチモーダル表現畳み込みニューラルネットワークにおける層2.5.3.4 マルチモーダル特徴量表現とモデルの解釈可能性2.6 まとめ