第6章. 正規分布データの異常検出
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
データから外れ値を検出する方法はたくさんある。 すでに第4章のヒストグラムで、その1つの方法を紹介した。しかし、ヒストグラムで異常値を可視化するだけでは、そこまでしかできない。その異常値を定量化し、その発見を利害関係者に伝えたいとしたらどうだろうか?この章では、Tableauを使用して異常値を定量化し、可視化するために使用できる3つの異なるテクニックを学ぶ。
この章が終わる頃には、標準偏差、四分位数付き中央値、Zスコアを使って、データの異常値にフラグを立て、それを関係者に視覚的に示すことができるようになるだろう。また、これらのメソッドは、前の章で学んだ正規分布に適合するデータに使用されるべきであることに注意することが重要である。
標準偏差を理解する
標準偏差とは、 統計的な尺度の一つで、データ点のセット内のばらつきや分散を定量化するものである。データセット内の値がデータの平均値からどの程度広がっているかを測定する。
数学的には、標準偏差は分散の平方根として計算される。分散は、各データ点と平均値の差の2乗の平均を取ることによって得られる。図6-1に示す経験則(68-95-99.7)を思い出してほしい(以前に第4章で示した)。
標準偏差はばらつきの関数であるため、データセット内の外れ値を検出するのに最適な尺度である。簡単に言えば、平均値から大きく離れたデータ点は外れ値とみなされる。標準偏差は、平均値からの偏差を数値化することで、このような異常値を特定するのに役立つ。
図6-1. 正規分布の標準偏差
標準偏差の計算式には2種類ある:
-
サンプルの標準偏差
-
母集団の標準偏差
Tableau では、関数の形で にアクセスできる。計算フィールドを作成すると、2つの集計関数と2つの標準偏差の表計算が発見できる(図6-2参照)。
末尾に "P "が付いている関数は母集団の標準偏差であり、その他の関数は標本の標準偏差に使われる。両者の違いはまさに名前付けにある。合計母集団の標本がある場合は標本標準偏差を使い、データセットに合計母集団が含まれている場合は母集団標準偏差を使う。
図6-2. Tableauの標準偏差関数
例を挙げると、ある大学の学生の半数を調査したとしよう。その大学キャンパスの全人口の50%しか含まれていないので、標本標準偏差を使うことになる。もし全キャンパスを調査して100%のレスポンスが得られたなら、母集団標準偏差を使うことになる。
簡単そうだろう?
本当の答えは「場合による」だ。何事もそうだが、最善の判断を下す必要がある。例えば、学生にどの政党を支持するかを尋ねるアンケートを実施したとしよう。仮に全学生を対象に調査を行ったとしても、次の選挙で次期大統領を予測するための分析であれば、全投票人口を網羅した分析にはならないだろう。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access