Skip to Content
Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎
book

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

by Andreas C. Muller, Sarah Guido, 中田 秀基
May 2017
Intermediate to advanced
392 pages
6h 14m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

7章テキストデータの処理

4章 データの表現と特徴量エンジニアリング」で、データの性質を示す2種類の特徴量について述べた。量を表現する連続特徴量と、決められたリストの中のアイテムを示すカテゴリ特徴量の2つだ。しかし、多くのアプリケーションに現れる3種類目の特徴量がある。テキストだ。例えば、メールのメッセージを正常なメールかスパムかに分類したい場合を考えてみよう。このクラス分類タスクに重要な情報は、明らかにメールの内容に含まれている。ある政治家の移民問題に関する意見を知りたい場合には、その人の演説やツイートから有用な情報が得られるだろう。顧客サービスにおいては、メッセージが苦情なのか単なる質問なのかを識別したい場合がある。メッセージのタイトルや内容を見て、自動的に顧客の意図を判断することができれば、メッセージを適切な部署に送ることもできるし、場合によっては完全な自動応答も可能だろう。

テキストデータは通常、文字から構成される文字列として表現される。上で述べた例でも、テキストデータの長さはまちまちだ。このような特徴量は、これまで議論してきた数値特徴量とは明らかに異なり、機械学習アルゴリズムを適用する前に処理をする必要がある。

7.1 文字列として表現されているデータのタイプ

テキストデータを機械学習向けの表現に処理するステップに進む前に、よくあるテキストデータの種類について簡単に説明しよう。テキストは、データセット上は単なる文字列として表現される。しかし、すべての文字列特徴量が、テキストデータとして扱うべきものではない。文字列特徴量は、「5章 モデルの評価と改良」で述べたようにカテゴリ変数を表す場合もある。データの中身を見ないと文字列特徴量をどう扱うべきかはわからない。

文字列データには次の4つの種類がある。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

機械学習システムデザイン ―実運用レベルのアプリケーションを実現する継続的反復プロセス

機械学習システムデザイン ―実運用レベルのアプリケーションを実現する継続的反復プロセス

Chip Huyen, 江川 崇, 平山 順一
詳説 イーサネット 第2版

詳説 イーサネット 第2版

Charles E. Spurgeon, Joann Zimmerman, 三浦 史光, 豊沢 聡
仕事ではじめる機械学習 第2版

仕事ではじめる機械学習 第2版

有賀 康顕, 中山 心太, 西林 孝

Publisher Resources

ISBN: 9784873117980Other