October 2025
Intermediate to advanced
328 pages
3h 56m
Japanese
10章と11章では、データにモデルをフィットさせるという考え方を紹介します。ここで言うモデルとは、変数間の関係性の数学的記述(例えば直線など)と、ランダムな変動の記述(例えば正規分布など)から構成されます。
モデルがデータに「適合(フィット)」するとは、一般的にモデルとデータ間の距離である誤差を最小化するということを意味します。まずは最も広く使われている方法の1つである、最小二乗法と呼ばれる二乗誤差の和を最小化する手法から始めましょう。
また、最初は2つの変数だけを扱うモデルから始め、11章では、より多くの変数を扱うモデルを紹介します。
最初の例として、8章で登場した「8.1 ペンギンの体重測定」のシナリオに戻りましょう。あなたは南極でペンギンの個体数を調査する研究者だとします。データ収集の一環として、あなたは捕獲したペンギンの測定や計測を行い、無傷で解放します。
すぐにわかることですが、ペンギンを正確に計測するのは容易ではありません。翼やくちばしの大きさなどは測定できても、体重データがない個体も出てきます。このような欠損値を補完する(このプロセスをインピュテーションとも呼びます)ために、他の測定値から体重を推定できないかを検討しましょう。
まずは、南極のパーマー基地の研究者らが2007年から2010年にかけて収集したデータを用いて、体重と他の測定値との関係を探ることから始めてみましょう。このデータは自由に利用可能で、ダウンロード方法は10章のノートブック(chap10.ipynb)で説明しています。
データの読み込みにはread_csv関数を使います。
penguins = pd.read_csv("penguins_raw.csv").dropna(subset=["Body ...Read now
Unlock full access