3章データラングリング

レシピ3.0 はじめに

 データラングリング(data wrangling)とは、生データからゴミを取り去り、使いやすい形に整形することを言う。我々にとっては、データの前処理の1つの段階に過ぎないが、重要な段階でもある。

 データラングリングに用いられるデータ構造として最も広く用いられているのはデータフレーム(Data-Frame)だ。これは直感的であると同時に驚くほどさまざまな目的に利用できる万能のツールだ。データフレームは、表のような構造、つまりスプレッドシートのように行と列を持つ。タイタニック号の乗客のデータから作ったデータフレームを見てみよう。pandasのDataFrameオブジェクトを用いている。

# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをデータフレームとしてロード
dataframe = pd.read_csv(url)

# 最初の5行を表示
dataframe.head(5)
 NamePClassAgeSexSurvivedSexCode
0Allen, Miss Elisabeth Walton1st29.00female11
1Allison, Miss Helen Loraine1st2.00female01
2Allison, Mr Hudson Joshua Creighton1st30.00male00
3Allison, Mrs Hudson JC (Bessie Waldo Daniels)1st25.00 ...

Get Python機械学習クックブック 第2版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.