2章Pythonの基礎、IPythonとJupyter Notebook
私がこの本の初版を書いた2011年から2012年の時点では、Pythonでのデータ分析を学習しようと思ったときに利用できるリソースはごく限られていました。ある意味これは鶏と卵の問題に近いのですが、現在私たちが当たり前に利用しているpandas、scikit-learnやstatsmodelsといったライブラリは、当時はまだ成熟しきっていない状態でした。それが2022年現在では、データサイエンス、データ分析、また機械学習といった分野の文献が増え続けていて、それらは、計算機科学者、物理学者といった特定の分野の研究者を対象としていたそれまでの大規模科学計算の業績を補完しています。またPython言語そのものを学ぶための書籍や、素晴らしいソフトウェアエンジニアになるのに役立つ書籍も多く存在しています。
私は、この本をPythonでデータ分析するための入門テキストとして位置づけたいと考えています。そこで、データ分析の観点から、Python組み込みのデータ型とライブラリについて重要な機能をまとめて紹介したいと思います。したがって、この章と「3章 Python組み込みのデータ構造と関数、ファイルの扱い」では概要を示すに留め、細かな部分については残りの章で補足できるようにします。
この本の大半は、テーブル形式の分析と、個人のPCで扱うのに適した小さい量のデータを操作する前処理ツールを中心に扱っています。これらのツールを使うためには、ごちゃごちゃしたデータを、整ったテーブル形式、あるいは構造化された形式にする操作が必要な場合もあります。幸いなことに、Pythonはこの操作をするのに理想的な言語です。Pythonとその組み込みのデータ型に慣れ親しむほど、分析対象となる新しいデータセットの準備が簡単になることでしょう。 ...
Get Pythonによるデータ分析入門 第3版 ―pandas、NumPy、Jupyterを使ったデータ処理 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.