1章探索的データ分析
本書のテーマは、「データを使って疑問を解決し、議論を解決し、より良い意思決定を行えるようになる」ことです。
この章では、そのための手順を紹介します。すなわち、データの読み込みと検証、探索、そして関心のある事柄を測定する統計量の選択について説明します。例として、「家族の成長に関する全国調査(NSFG)」のデータを使って、私と妻が第一子を授かるときに耳にした疑問「第一子は、予定日より遅れて生まれる傾向があるのか。」について答えます。
1.1 証拠
初産は遅れやすいと聞いたことがあるかもしれません。この質問でWebを検索すると、たくさんの議論が発見できるでしょう。本当だという人もいれば、迷信だという人もいます。中には、話は逆で第一子は早く生まれるものだ、と言う人さえいるのです。
こうした議論の多くで、対象者は自分の主張を裏付けるデータを提供しています。私はこのような例をたくさん目にしました。
「最近、初めて赤ちゃんを産んだ友達が2人いるんだけど、2人とも予定日を2週間近く過ぎてから陣痛が来たか、誘発分娩になったのよ。」
「うちの子も最初の子が2週間遅れて生まれたけど、今度の2人目は2週間早く生まれそうな気がするの!!」
「そんなことはないと思うわ。だって、私の姉は母の初めての子なんだけど、いとこたちと同じように早産だったのよ。」
このような報告は、公表されていない個人的な体験に基づくものであるため、「逸話的証拠(アネクドタル・エビデンス)」と呼ばれます。普段の会話でこうした体験談を話すこと自体は何も問題ありません。ですから、ここで引用した人たちに対してどうこう言うつもりはまったくありません。
しかし、より説得力のある証拠や、より信頼できる答えが必要かもしれません。このような基準に照らし合わせると、逸話的証拠では通常、以下の理由で不十分です。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access