
3.11
文字列操作のベクトル化
179
この短い例で示したように、これまでに紹介した
Python
と
pandas
機能を組み合わせれば、さま
ざまなデータセットからの洞察を得ることができます。こうしたデータ操作の、さらに洗練された
応用を、今後の節で紹介します。
3.11
文字列操作のベクトル化
文字列データの扱いが比較的容易である点も、
pandas
の強みの
1
つです。
pandas
はこれを基に、
ベクトル化した文字列操作の包括的な機能群を提供します。これは、実世界のデータを使いやすい
形式に変換(クリーンアップ)するためには必要不可欠な要素です。この節では、まず
pandas
の文
字列操作について説明し、それらを使ってインターネットから収集したレシピに関する乱雑なデー
タセットを部分的にクリーンアップする方法について紹介します。
3.11.1
pandas
文字列操作の基礎
以前の節では、
NumPy
や
pandas
が算術演算を一般化して、多くの配列要素に対する同じ操作を
簡単かつ迅速に実行できるようになっていることを説明しました。例で振り返ってみましょう。
In[1]: import numpy as np
x = np.array([2, 3, 5, 7, 11, 13])
x * 2
Out[1]: array([ 4, 6, 10, 14, 22, 26])
このベクトル化により、データ配列を操作する構文は簡素化されました。つまり、配列のサイズ
や形状について気にすることなく処理が記述できます。しかし文字列の配