
33
2
章
NumPy
の基礎
この章と
3
章では、
Python
でメモリ上のデータを効果的にロード、格納、操作するためのテク
ニックを説明します。トピックは非常に広範囲にわたります。データセットは幅広いソースと幅広
いフォーマットを持ちます。例えば、ドキュメント、画像、サウンドクリップ、数値測定結果、そ
の他ほとんどあらゆる形式で存在します。このように違いが明らかであるにも関わらず、基本的に
すべてのデータは数値の配列として扱うのに適しています。
例えば、画像、特にデジタル画像は、領域全体のピクセル輝度を表す単純な
2
次元配列の数であ
ると考えることができます。サウンドクリップは、時間に対する強度の
1
次元配列と考えることが
できます。テキストは、さまざまな方法で数値表現に変換できます。おそらく、特定の単語または
単語の組み合わせの頻度を表す
2
進数値です。どのようなデータであっても、それらを分析可能に
する最初のステップ
は、それらを数値の配列に変換することです。(このプロセスの具体的な例に
ついては、「5.4 特徴量エンジニアリング」を参照してください)。
このため、数値配列の効率的な格納と操作は、データサイエンスのプロセスにとって欠くべから
ざる要素です。ここでは数値配列を扱うために
Python
が持つ特別なツール、
NumPy
パッケージと
(第
3
章で説明する)
pandas
パッケージを取り上げます。
この章では、
NumPy
について詳しく説明します。
NumPy
(
Numerical Python
の略)は、データを
高密度のデータバッファへ格納し、操作を行うための効率的なインターフェースを提供します。い ...