第5章. 意味のある比較をする
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
第1章、第2章、第3章、第4章で、データストーリーを洗練させ、スプレッドシートのスキルを向上させ、データを発見して質問し、厄介な部分を一掃したところで、この章では、、証拠を分析する際に問うべき重要な質問に焦点を当てる:"何と比較して?"である。これは、統計学者エドワード・タフテが定義した "定量的推論の核心 "である。1私たちは、データから洞察に満ちた発見を探し出すために、互いの有意性を判断し、真に際立ったものを特定する。時には、データを公平に評価するために、あるいはリンゴとオレンジではなくリンゴとリンゴを比較するということわざのように、天秤を調整する必要がある。テキスト、表、グラフ、地図など、どのような形式であれ、発見を伝える前に、意味のある比較をしていることを確認しよう。
なぜなら、多くの優れたリソースがすでにこの広範な研究分野を扱っているからである。2その代わりに、この章では「比較を正確に記述する」、「 データを正規化する」、「偏った比較に注意する」の中で、データを分析しながら意味のある比較を行うためのいくつかの常識的な戦略を提供し、あなたのストーリーを伝える真の洞察に満ちた可視化をデザインする手助けをする。
比較を正確に記述する
、よく使われ、定義が異なる可能性のある言葉の意味を明確にしていないために、私たちは時に不適切な比較をしてしまうことがある。厄介な言葉が平均、パーセント、原因の3つである。私たちは日常会話ではこれらの単語をゆるやかに使っているが、データを扱うときにはその定義をより正確にする必要がある。
一連の数字を想像してほしい:1, 2, 3, 4, 5.平均を計算する場合、手作業で計算するか、「数式を使った計算」で説明したようにスプレッドシートに組み込まれた数式を使って計算する。より正確には平均といい、この場合は3となる。別の用語として中央値(median)があり、これは順序付けられた系列の真ん中の数を指し、50パーセンタイルとしても知られ、この場合も3である。
データを扱うとき、中央値や パーセンタイル()という用語を使って比較すると便利である。なぜなら、これらは系列の極端な端にある異常値の影響を受けにくいからである。例えば、先ほどと同じ数字を想像してみよう。図5-1に示すように、突然平均値は22に跳ね上がるが、中央値は3のまま変わらない。億万長者が部屋に入ると、全員が平均して億万長者になるという古いジョークがあるが、中央値はほとんど変わらない。私たち一般人は、億万長者という異端児の存在によって実際に金持ちになるわけではないので、データの全体的な分布について意味のある比較をするには、中央値という言葉の方が適しているのである。
図5-1. 中央値は外れ値の影響を受けにくいため、平均値や 平均値よりも有用な比較用語である。
パーセンテージも一般的な用語で、ほぼすべての人が直感的に、100分の1の比率として理解している。例えば、1970年代のトライデント・ガムのコマーシャルでは、"調査した歯科医の5人中4人が、ガムを噛む患者にはシュガーレスガムを勧めている "と謳っていた。 ...