8章ベクトル化
ニューヨークシティ、オールドセントジョー、アルバカーキ、ニューメキシコ
おんぼろトラックは歌いながら進む、問題なしさ
こいつがどうなったか聞くやつがいたら
この白い線の果てをめざしているんだと伝えてくれ
—— Sturgill Simpson, 『Long White Line』
8.1 機械学習でのベクトル化入門
この章は、機械学習の世界で使われるさまざまなデータをベクトル化する際のガイドラインを示します。ディープラーニングの解説書の中で、なぜベクトル化に寄り道するのかと思われるかもしれません。しかしこれには大きな理由があります。機械学習に関する解説書のほとんどはアルゴリズム自体にのみ注力しており、データマイニングでの全体的なライフサイクルについては軽視していると感じられるからです。機械学習のツールを使っていち早くデータを扱えるようになるにはと考えた結果、テキストデータに対するカスタムのベクトル化といったトピックの解説にとても多くのページが割かれることになりました。
テキストの分類を行おうとしている顧客企業との経験の中で、テキストからベクトルへの変換に関する基礎を議論してばかりで実際には何もできなかったということがありました。企業にはシンプルなデータソースが多数あります。例えばスプレッドシートは、CSV(comma-separated values)形式にエクスポートできます。しかし、これをさらにベクトルへと変換する必要があります。また、テキストデータをベクトル化するための無数の方法について説明しなければならなかったこともあります。使われるツールや望まれる分類アルゴリズムによっては、統計的モデル化自体とは無関係な大規模なプログラミングを行わないとテキストのベクトル化を試みることさえできません。 ...
Get 詳説 Deep Learning ―実務者のためのアプローチ now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.