August 2023
Intermediate to advanced
612 pages
9h 33m
Japanese
データを読み込んでアクセス可能にすること(しばしばデータのロードと呼ばれます)は、本書で登場するツールの大半を使用する上で必要となる最初のステップです。また、テキストデータを読み込み、それをテーブルやさまざまなデータ型として解釈することを、パース(parse)という言葉で表現することもあります。ここではpandasを用いたデータの入出力に話を絞りますが、さまざまなファイル形式のデータの読み書きを助けてくれるツールは、他のライブラリにもたくさんあります。
入出力は一般に、いくつかの大きなカテゴリに分類されます。テキストファイルやもっと効率の良い形式のファイルをディスクから読み込むパターン、データベースからデータを読み込むパターン、Web APIなど、ネットワーク上のソースのデータを読み込むパターンなどです。
pandasの特徴は、テーブル形式のデータをデータフレーム(DataFrame)オブジェクトとして読み込む関数がたくさんあることです。表6-1にはそれらの関数のうちいくつかをまとめています。これらのうち、pandas.read_csvは本書で最もよく使う関数の1つです。バイナリデータ形式については、後ほど「6.2 バイナリデータ形式」で見ていきます。
表6-1 pandasのテキストデータやバイナリデータ読み込み用の関数
| 関数 | 説明 |
|---|---|
read_csv |
ファイルやURL、ファイル系オブジェクトから、区切り文字で区切られたデータを読み込む。デフォルトの区切り文字はコンマ。 |
read_fwf |
列の幅が固定されている形式のデータ(つまり区切り文字のないデータ)を読み込む。 |