Skip to Content
Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
book

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池 彰
February 2024
Intermediate to advanced
576 pages
9h 17m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

18章データセットの連結:concatとappend

興味深い研究成果の多くは、異なるデータソースの組み合わせから得られます。組み合わせ操作は、2つの異なるデータセットの単純な連結から、データセット間の重複を正しく処理するデータベーススタイルの結合やマージにまでさまざまであり、SeriesDataFrameはこの種の操作を念頭に置いて設計されています。またpandasはこうしたデータを素早く簡単に扱うための関数とメソッドを提供しています。

最初に、pd.concat関数を使用してSeriesDataFrameを単純に連結します。続いてpandasで提供される、より洗練されたインメモリのマージと結合を取り上げます。

まず、標準のimportを行います。

In [1]: import pandas as pd
        import numpy as np

以降の説明で使用する、特定形式のDataFrameを簡単に作成する関数を定義します。

In [2]: def make_df(cols, ind):
            """DataFrameの簡易作成関数"""
            data = {c: [str(c) + str(i) for i in ind]
                    for c in cols}
            return pd.DataFrame(data, ind)

        # サンプルDataFrame
        make_df('ABC', range(3))
Out[2]:     A   B   C
        0  A0  B0  C0
        1  A1  B1  C1
        2  A2  B2  C2

さらに、複数のDataFrameを並べて表示する簡単なクラスを作成します†1。このコードでは、IPython/Jupyterがオブジェクトの整形された表示を実装する特別なrepr_html ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池 彰
推薦システム実践入門 ―仕事で使える導入ガイド

推薦システム実践入門 ―仕事で使える導入ガイド

風間 正弘, 飯塚 洸二郎, 松村 優也
プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

Matt LeMay, 永瀬 美穂, 吉羽 龍太郎, 原田 騎郎, 高橋 一貴

Publisher Resources

ISBN: 9784814400638Publisher Website