book

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池彰

May 2018

Intermediate to advanced

556 pages

13h 21m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

Content preview from Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

3.11

文字列操作のベクトル化

179

この短い例で示したように、これまでに紹介した

Python

と

pandas

機能を組み合わせれば、さま

ざまなデータセットからの洞察を得ることができます。こうしたデータ操作の、さらに洗練された

応用を、今後の節で紹介します。

3.11

文字列操作のベクトル化

文字列データの扱いが比較的容易である点も、

pandas

の強みの

つです。

pandas

はこれを基に、

ベクトル化した文字列操作の包括的な機能群を提供します。これは、実世界のデータを使いやすい

形式に変換（クリーンアップ）するためには必要不可欠な要素です。この節では、まず

pandas

の文

字列操作について説明し、それらを使ってインターネットから収集したレシピに関する乱雑なデー

タセットを部分的にクリーンアップする方法について紹介します。

3.11.1

pandas

文字列操作の基礎

以前の節では、

NumPy

や

pandas

が算術演算を一般化して、多くの配列要素に対する同じ操作を

簡単かつ迅速に実行できるようになっていることを説明しました。例で振り返ってみましょう。

In[1]: import numpy as np

x = np.array([2, 3, 5, 7, 11, 13])

x * 2

Out[1]: array([ 4, 6, 10, 14, 22, 26])

このベクトル化により、データ配列を操作する構文は簡素化されました。つまり、配列のサイズ

や形状について気にすることなく処理が記述できます。しかし文字列の配

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Pythonデータサイエンスハンドブック第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池彰

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

Andreas C. Muller, Sarah Guido, 中田秀基

PythonによるAIプログラミング入門 ―ディープラーニングを始める前に身につけておくべき15の基礎技術

Prateek Joshi, 相川愛三

初めてのGraphQL ―Webサービスを作って学ぶ新世代API

Eve Porcello, Alex Banks, 尾崎沙耶, あんどうやすし

Publisher Resources

ISBN: 9784873118413Other