はじめに
統計学の初期の歴史から、統計学とは何かについて2つの考え方が存在しました。1つは、統計学は数学の一分野であり、確率論と統計的推論の理論的基礎を確立することを目的とした見方です。もう1つは、統計学とはデータを扱い、問いに答え、より良い意思決定をするためのツールと手法のセットという考え方です。統計学の入門クラスの多くは、前者の考え方に基づいています。本書は後者の見解に基づいています。
『Think Stats』は、データの探索と可視化、関係性や傾向の発見、そして結果の伝達のための実践的な手法の入門書です。本書の構成は、私がデータセットを扱う際のプロセスに従っています。
- インポートとクリーニング
- データがどのような形式であれ、通常、データを読み取り、クリーニングし、変換し、その過程で情報が損なわれていないかを確認する作業には、ある程度の時間と労力がかかる。
- 一変数の探索
- 通常、変数を1つずつ調べ、変数の意味を発見し、値の分布を調べ、適切な要約統計量を選択することから始める。
- 対応する変数での探索
- 変数間の関係性の可能性を特定するために、表や散布図を見たり、相関関係を見て線形回帰分析を行う。
- 多変量解析
- 変数間に明らかな関係がある場合、重回帰を使ってコントロール変数を追加し、より複雑な関係を調べる。
- 推定と仮説検定
- 統計的な結果を報告する際には、次の3つの問いに答えることが重要だ。1. 効果の大きさはどの程度か。2. 同じ測定を再度行った場合、どの程度の散らばりが予想されるか。3. 見かけの効果が偶然によるものである可能性は高いか。
- 可視化
- 探索段階では可視化は、潜在的な関係性や効果を発見するために重要なツールになる。そして、明らかな効果が精査に耐えられるものであれば、可視化は結果を伝える効果的な方法になる。 ...