
93
4
章
異常検出
「3章 次元削減」では、代表的な次元削減アルゴリズムを紹介し、
MNIST
数字データセットの重要
な 情 報 を 、元 の
784
次元よりもはるかに少ない次元数で捉えられることを見てきた。ラベルを使わずに、
わずか
2
次元で文字がおおよそ分離できた。これが教師なし学習アルゴリズムの威力だ。ラベルがなく
ても、データの背後にある情報を学習し、隠されたパターンを発見する手助けとなる。
これらの次元削減手法を用いた機械学習応用システムを構築してみよう。問題を「2 章 機械学習プ
ロジェクトのはじめから終わりまで」で紹介したものに切り替えて、クレジットカード不正検出システ
ムをラベルなしで作ろう。
実世界では、不正の多くは見つかることはない。ラベルには見つかった不正だけしか反映されない。
さらに、不正のパターンは時間の経過に従って変化する。
2
章で構築したような教師あり学習を用いた
システムでは、不正のラベルが陳腐化すると、昔のパターン通りの不正は捉えられるが、新しく発生し
たパターンを捉えることはできない。
これらの理由(十分なラベルがないことと、新しく発生した不正パターンに可能な限り素早く適応す
る必要があること)から、教師なし学習を用いた不正検出システムが広く用いられている。
本章では、そのようなシステムを
3
章で見た次元削減のいくつかを用いて構築する。
4.1
クレジットカード不正検出
2
章で見たクレジットカード不正検出問題を振り返ってみよう。
4.1.1
データの準備
2
章で行ったように、クレジッ ...