9章一般統計学

Rの主な適用例には統計、モデル、グラフィックスなどがあります。本章ではその中でも統計に焦点を当てます。相対度数など統計量の計算方法を示すだけのレシピもありますが、ほとんどのレシピには統計的検定や信頼区間が関係します。統計的検定では、2つの矛盾する仮説のいずれかを選択します。このパラダイムについては以下で説明します。信頼区間は母集団パラメータが取ると思われる範囲を示すもので、データ標本に基づいて計算されます。

帰無仮説、対立仮説、p値

本章の統計的検定の多くは、長い時間をかけて実証済みの統計的推測のパラダイムを使っています。このパラダイムでは、1個か2個の標本を扱います。また、そのいずれかが合理的に真となるような、2つの対立する仮説を扱います。

一方の仮説は帰無仮説と呼ばれ、何も起きないという仮説です。つまり、平均のまま、治療は効果がない、期待通りの答えが得られる、モデルは改善されない、などです。

もう一方の仮説は対立仮説と呼ばれ、何かが起こるという仮説です。つまり、平均が上がる、治療によって患者の健康が改善する、予期しない答えが得られる、モデルの適合度が上がる、などです。

データをもとにどちらの仮説の方が適しているか判断する必要があります。次のように判断します。

  1. まず、帰無仮説が真であると仮定する。
  2. 検定統計量を計算する。検定統計量は、標本の平均のように簡単な場合もあれば、複雑な場合もある。必須の要件として、統計量の分布がわかっていなければいけない。例えば、中心極限定理を使うと標本平均の分布がわかる。
  3. 統計量とその分布から、「p値」を求められる。p値は、帰無仮説が真であると仮定した場合に、観測値と比べて極端な検定統計量が得られる確率である。
  4. p値が小さすぎる場合、帰無仮説を支持しない強力な証拠になる。これを帰無仮説を ...

Get Rクックブック 第2版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.