
203
9
章
半教師あり学習
これまでは、教師あり学習と教師なし学習を独立した機械学習の
2
つの分野として扱ってきた。教師
あり学習はデータセットにラベル付けされている場合に適しており、ラベル付けされていなければ教師
なし学習が必要になる。
しかし実際にはこの区別はそれほど明確ではない。データセットの一部だけがラベル付けされてい
る場合も多い。そのような場合には、ラベル付けされたデータの情報を活用して、ラベル付けされて
いない観測点のラベルを効率的に得る必要がある。教師あり学習だけではラベル付けされていないデー
タセットの大部分を捨ててしまうことになる。教師なし学習はデータセットをすべて使うことができる
が、教師なし学習だけでは少数のラベル付けされたデータを活用することができない。
半教師あり学習は、教師あり学習と教師なし学習の両方のメリットを組み合わせるもので、利用でき
るわずかなラベルの情報を活用して、データセットの構造を明らかにし、残りのデータのラベル付けの
補助とする。
本章では、これまでも使ってきたクレジットカードトランザクションデータセットを使って半教師あ
り学習を紹介する。
9.1
データの準備
いつものように、必要なライブラリをロードしデータを準備しよう。
"""Main"""
import numpy as np
import pandas as pd
import os, time, re
import pickle, gzip
"""Data Viz"""
import matplotlib.pyplot ...