7章テキストデータの処理

4章 データの表現と特徴量エンジニアリング」で、データの性質を示す2種類の特徴量について述べた。量を表現する連続特徴量と、決められたリストの中のアイテムを示すカテゴリ特徴量の2つだ。しかし、多くのアプリケーションに現れる3種類目の特徴量がある。テキストだ。例えば、メールのメッセージを正常なメールかスパムかに分類したい場合を考えてみよう。このクラス分類タスクに重要な情報は、明らかにメールの内容に含まれている。ある政治家の移民問題に関する意見を知りたい場合には、その人の演説やツイートから有用な情報が得られるだろう。顧客サービスにおいては、メッセージが苦情なのか単なる質問なのかを識別したい場合がある。メッセージのタイトルや内容を見て、自動的に顧客の意図を判断することができれば、メッセージを適切な部署に送ることもできるし、場合によっては完全な自動応答も可能だろう。

テキストデータは通常、文字から構成される文字列として表現される。上で述べた例でも、テキストデータの長さはまちまちだ。このような特徴量は、これまで議論してきた数値特徴量とは明らかに異なり、機械学習アルゴリズムを適用する前に処理をする必要がある。

7.1 文字列として表現されているデータのタイプ

テキストデータを機械学習向けの表現に処理するステップに進む前に、よくあるテキストデータの種類について簡単に説明しよう。テキストは、データセット上は単なる文字列として表現される。しかし、すべての文字列特徴量が、テキストデータとして扱うべきものではない。文字列特徴量は、「5章 モデルの評価と改良」で述べたようにカテゴリ変数を表す場合もある。データの中身を見ないと文字列特徴量をどう扱うべきかはわからない。

文字列データには次の4つの種類がある。 ...

Get Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.