6章異常検知
異常(anomaly)とは、同じグループの他のメンバーとは異なるものを指します。データでは、懸念や疑念を抱かせるような、他のデータポイントとは異なるレコード、観測、値は、「異常」と呼ばれます。異常には、外れ値(outlier)、新規性(novelty)、ノイズ(noise)、逸脱(deviation)、例外(exception)など、さまざまな呼び名があります。本章では異常と外れ値という用語を同じ意味で使いますが、異常検知の議論では他の用語を使うこともあります。異常検知は分析の最終目的である場合もあれば、さらに広範な分析プロジェクトの一段階である場合もあります。
通常、異常は2つの原因のいずれかで生じます。極端または通常とは異なる実際の事象であったのか、データの収集や処理中に生じたエラーです。外れ値を検出するための手順の多くはその原因にかかわらず同じですが、特定の異常への対処法は根本原因によって決まります。そのため、根本原因を理解して2種類の原因を区別することは、分析プロセスにとって重要です。
実際の事象では、さまざまな理由で外れ値が発生することがあります。異常データは、不正行為、ネットワーク侵入、製品の構造的欠陥、ポリシーの抜け道、開発者が意図していない製品の使い方や想定外の使い方などを示す場合があります。異常検知は金融詐欺を根絶するために広く利用されており、サイバーセキュリティでもこの種の分析を活用します。異常データは、悪人がシステムを悪用しようとしているからではなく、顧客が予想外の方法で製品を使っているために生じることがあります。例えば、私の知人はランニング、サイクリング、ウォーキングなどの運動用のフィットネストラッキングアプリを使って、自動車レース場に出かけた際のデータを記録していました。彼は他によい方法がわからず、レース場を走る車の速度や距離の値が自転車やランニング用に記録した値と比較してどれほど異常であるかについて考えていませんでした。実際のプロセスに対する異常を追跡できる場合、その異常をどのように扱うかを判断するには行うべき分析を十分に理解するだけでなく、その分野の知識、利用条件、そして、製品を管理する法体制も理解しなくてはならないこともあります。 ...
Get SQLではじめるデータ分析 ―クエリで行う前処理、時系列解析、コホート分析、テキスト分析、異常検知 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.