3章データラングリング
レシピ3.0 はじめに
データラングリング(data wrangling)とは、生データからゴミを取り去り、使いやすい形に整形することを言う。我々にとっては、データの前処理の1つの段階に過ぎないが、重要な段階でもある。
データラングリングに用いられるデータ構造として最も広く用いられているのはデータフレーム(Data-Frame)だ。これは直感的であると同時に驚くほどさまざまな目的に利用できる万能のツールだ。データフレームは、表のような構造、つまりスプレッドシートのように行と列を持つ。タイタニック号の乗客のデータから作ったデータフレームを見てみよう。pandasのDataFrameオブジェクトを用いている。
# ライブラリをロード import pandas as pd # URLを作成 url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv' # データをデータフレームとしてロード dataframe = pd.read_csv(url) # 最初の5行を表示 dataframe.head(5)
Name | PClass | Age | Sex | Survived | SexCode | |
---|---|---|---|---|---|---|
0 | Allen, Miss Elisabeth Walton | 1st | 29.00 | female | 1 | 1 |
1 | Allison, Miss Helen Loraine | 1st | 2.00 | female | 0 | 1 |
2 | Allison, Mr Hudson Joshua Creighton | 1st | 30.00 | male | 0 | 0 |
3 | Allison, Mrs Hudson JC (Bessie Waldo Daniels) | 1st | 25.00 ... |
Get Python機械学習クックブック 第2版 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.