6章テキストの取り扱い

レシピ6.0 はじめに

 本やツイートのような、構造化されていないテキストデータは、最も興味深い特徴量を抽出できるデータなのだが、同時に最も取り扱いが難しいデータでもある。本章では、テキストを情報量に富んだ特徴量に変換する戦略を説明する。ここで紹介するレシピは、網羅的ではない。テキストや類似したデータの処理については、1つ学問の分野ができているほどで、すべてのテクニックを紹介するには小さめの図書館が1つ必要なくらいだ。とはいえ、一般的に使われる技術とその背後にある知識を紹介して、我々の前処理の道具箱に有用な道具を追加することにしよう。

レシピ6.1 テキストのクリーニング

問題

 何らかの非構造テキストデータに対して、基本的なクリーニングを行いたい。

解決策

 最も基本的なクリーニング処理方法は、Pythonの文字列操作を用いることだ。中でも、stripreplacesplitが特に有用だ。

# テキストを生成
text_data = ["   Interrobang. By Aishwarya Henriette     ",
             "Parking And Going. By Karl Gautier",
             "    Today Is The night. By Jarek Prakash   "]

# ホワイトスペースを削除
strip_whitespace = [string.strip() for string in text_data]

# テキストを表示
strip_whitespace
['Interrobang. By Aishwarya Henriette', 'Parking And Going. By Karl Gautier', 'Today Is The ...

Get Python機械学習クックブック now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.