7章テキストデータの処理

「4章　データの表現と特徴量エンジニアリング」で、データの性質を示す2種類の特徴量について述べた。量を表現する連続特徴量と、決められたリストの中のアイテムを示すカテゴリ特徴量の2つだ。しかし、多くのアプリケーションに現れる3種類目の特徴量がある。テキストだ。例えば、メールのメッセージを正常なメールかスパムかに分類したい場合を考えてみよう。このクラス分類タスクに重要な情報は、明らかにメールの内容に含まれている。ある政治家の移民問題に関する意見を知りたい場合には、その人の演説やツイートから有用な情報が得られるだろう。顧客サービスにおいては、メッセージが苦情なのか単なる質問なのかを識別したい場合がある。メッセージのタイトルや内容を見て、自動的に顧客の意図を判断することができれば、メッセージを適切な部署に送ることもできるし、場合によっては完全な自動応答も可能だろう。

テキストデータは通常、文字から構成される文字列として表現される。上で述べた例でも、テキストデータの長さはまちまちだ。このような特徴量は、これまで議論してきた数値特徴量とは明らかに異なり、機械学習アルゴリズムを適用する前に処理をする必要がある。

7.1　文字列として表現されているデータのタイプ

テキストデータを機械学習向けの表現に処理するステップに進む前に、よくあるテキストデータの種類について簡単に説明しよう。テキストは、データセット上は単なる文字列として表現される。しかし、すべての文字列特徴量が、テキストデータとして扱うべきものではない。文字列特徴量は、「5章　モデルの評価と改良」で述べたようにカテゴリ変数を表す場合もある。データの中身を見ないと文字列特徴量をどう扱うべきかはわからない。

文字列データには次の4つの種類がある。 ...

Get Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 by Andreas C. Muller, Sarah Guido, 中田秀基

7章テキストデータの処理

7.1　文字列として表現されているデータのタイプ

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

7章テキストデータの処理

7.1 文字列として表現されているデータのタイプ

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

7.1　文字列として表現されているデータのタイプ