
234
7
章 データのクリーニングと前処理
メソッド 説明
casefold
文字列内のアルファベット文字を小文字に変換する。その際に、地域固有の変種文
字(ダイアクリティカルマーク付きの文字やエスツェットなど)は、同等の標準アル
ファベット文字での表現に置き換える。
ljust, rjust
文字列が指定した幅以上になるように空白を詰める。その際に、文字列をそれぞれ
左揃えと右揃えにする。反対側の余ったスペースは空白文字(またはそれ以外の穴
埋め文字)で埋める。
7.3.2
正規表現
正規表現を用いると、(場合によってはかなり複雑な)文字列パターンを用いた、テキスト内での柔
軟な文字列検索やパターンマッチが可能になります。個々の正規表現(regexとも呼ばれます)は、正
規表現言語の文法に従って書かれた文字列です。正規表現を文字列に適用する役割を担っているのが、
Python
組み込みの
re
モジュールです。ここではその使い方の例をいくつか紹介しましょう。
正規表現を書くコツはそれだけでも
1
つの章になるようなテーマですので、この本の範疇を
超えています。インターネット上や他の書籍には素晴らしいチュートリアルやリファレンス
がたくさんありますので、それらを参照してください。
re
モジュールの関数は、パターンマッチング、文字列置換、文字列分割の
3
つのカテゴリに分類で
きます。当然ながら、これら
3
つはすべてつながっています。正規表現で文字列パターンを記述すると、
その文字列パターンに沿ってテキスト内で文字列の検索が行わ