Skip to Content
Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
book

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池 彰
February 2024
Intermediate to advanced
576 pages
9h 17m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

第III部pandasによるデータ操作

「Ⅱ部 NumPyの基礎」では、NumPyとndarrayオブジェクトを解説しました。このオブジェクトは、Pythonで高密度の型付き配列を効率的に格納する手段と、効果的に操作する機能を提供します。Ⅲ部では、pandasライブラリが提供するデータ構造を詳しく調べ、その知識を習得します。pandasは、NumPyの上に構築された新しいパッケージで、効率的なDataFrameの実装を提供します。DataFrameは基本的に行と列のラベルが付加された多次元の配列であり、異なる型のデータや欠落したデータを許容します。pandasはラベル付きデータを格納するための便利なインターフェイスを提供するだけでなく、データベースやスプレッドシート・プログラムのユーザにとって強力で使い慣れたデータ操作も多数実装しています。

NumPyのデータ構造ndarrayは、数値計算作業でよく見られる、きれいで整然としたデータに対して必要不可欠な機能を提供します。こうしたデータには非常にうまく機能するものの、世界中に溢れるさまざまな形式の非構造化データを分析するために必要となる、柔軟なデータ操作(データへのラベル付けや欠損値の扱いなど)や、要素ごとのブロードキャストではうまく対応できない操作(グループ化やピボットなど)に対しては、NumPyの限界が明らかになります。pandas、特にSeriesDataFrameオブジェクトは、NumPyの配列構造を基にしており、データサイエンティストの作業時間の大部分を占める、このような「データ操作」を効率的に実行する手段を提供します。

このⅢ部では、SeriesDataFrame、および関連する構造を効果的に使用する方法に焦点を当てます。実際のデータセットから抽出した例を使用しますが、必ずしもこれらの例自体が重要なわけではありません。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池 彰
推薦システム実践入門 ―仕事で使える導入ガイド

推薦システム実践入門 ―仕事で使える導入ガイド

風間 正弘, 飯塚 洸二郎, 松村 優也
プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

Matt LeMay, 永瀬 美穂, 吉羽 龍太郎, 原田 騎郎, 高橋 一貴

Publisher Resources

ISBN: 9784814400638Publisher Website