
202
6
章 データの読み込み、書き出しとファイル形式
pandas.read_hdf
関数を用いると、これらのツールを簡単に使うことができます
*
1
。
In [101]: frame.to_hdf('mydata.h5', 'obj3', format='table')
In [102]: pd.read_hdf('mydata.h5', 'obj3', where=['index < 5'])
Out[102]:
a
0 -0.204708
1 0.478943
2 -0.519439
3 -0.555730
4 1.965781
Amazon S3
や
HDFS
*
2
などのリモートのサーバ上に保存されたデータを処理する場合は、
分散ストレージ向けに設計された
Apache Parquet
(
http://parquet.apache.org
)など、他
のバイナリ形式を用いる方が適しているかもしれません。
Parquet
など他の保存形式の
Python
サポートはまだ開発段階にあるので、この本では特に記載しません。
ローカルで大量のデータを取り扱う場合、
PyTables
と
h5py
がニーズに合っていないか、使って確か
めてみるのをお勧めします。データ分析の課題の多くは(
CPU
バウンドではなく)
I/O
バウンド
*
3
なの
で、
HDF5
のようなツールを用いると、アプリケーションを大幅に加速できます。
HDF5
はデータベースではありません。書き込みが
1
度だけで、読み込みが多いデータセッ
トに最適なファイル形式です。いつでもデータ ...