第1章. データに基づいてより良い決断を下す
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
データ分析の第一の目的は、より良い意思決定を行うことである。その分析結果に基づいて意思決定をしなければならないというプレッシャーがなければ、データ分析に時間を費やす必要はほとんどない。車を購入するとき、売り手にその車が何年に製造されたのか、そして走行距離計の読み取り値を尋ねるかもしれない。車の年式を知ることで、その車の潜在的な価値を見積もることができる。走行距離計の読み取り値を車の年式で割ることで、その車がどれだけハードドライブされてきたか、そしてあなたが維持しようと考えている5年間は持ちそうかどうかを見分けることができる。その車を購入する気がなければ、このようなデータ分析をする必要はなかっただろう。
データを収集する目的は、多くの場合、後でデータ分析を行い、その分析に基づいて意思決定を行うためだけである(図1-1参照)。あなたが売り手に車の年式と走行距離を尋ねたのは、データ分析を行うためのデータを収集したのである。しかし、それはデータ収集にとどまらない。そもそも車に走行距離計がついているのは、購入希望者だけでなく、多くの人が車の走行距離を見て判断する必要があるからだ。走行距離計の読み取りは、多くの判断をサポートする必要がある-故障したトランスミッションの代金をメーカーが支払うべきか?オイル交換の時期なのか?これらの判断のための分析はそれぞれ異なるが、それらはすべて走行距離データが収集されたという事実に依存している。
図1-1. データを収集する目的は、それを使って意思決定を行うことである。
もしあなたが、走行距離を使って多くの決断を下すようなビジネスをしているのであれば、収集したデータをストアしておくことは、将来の決断を容易にするために理にかなっている。データ収集には時間と労力がかかるが、データストアは比較的安価である。もちろん、後で必要になったときにデータの意味がわかるような方法でデータをストアすることを計画しなければならない。これはデータのセマンティクスを把握することと呼ばれ、データが意思決定に有用であることを保証するためのデータガバナンスの重要な側面である。
意思決定を可能にする形でデータを収集することは、収集インフラとそのセキュリティに要件を課すことになる。事故のクレームを受け、顧客に車の価値を支払う必要がある保険会社は、走行距離計の読み取りが正確であることをどうやって知るのだろうか?走行距離計はどのように校正されているのか?走行距離計が改ざんされていないことを保証するために、どのような安全策がとられているのか。例えば、走行距離計の校正に使用したものと異なるサイズのタイヤを装着するなど、不注意による改ざんがあった場合はどうなるのか。データの監査可能性は、複数の関係者がいて、データの所有権と使用権が別々である場合には常に重要である。データが検証不可能な場合、市場は失敗し、最適な意思決定ができず、関係者はシグナリングやスクリーニングに頼る必要がある。1
すべてのデータが、自動車の走行距離計の読みのように、収集とセキュリティにコストがかかるわけではない。2センサーのコストはここ数十年で劇的に低下し、私たちの日常的なプロセスの多くは非常に多くのデータを生成するため、明確に収集するつもりのなかったデータを私たちは発見している。データを収集し、取り込み、ストアするためのハードウェアが安価になったため、私たちはしばしばデータを無期限に保持し、明確な理由もなくその周りに置いておくことになる。組織内のデータのサイズが大きくなるにつれ、それを注意深く整理し、カタログ化することがますます不可欠になっている。つまり、どうにかして収集しストアしたデータを分析するのであれば、何か目的があった方がいいということだ。人件費は依然として高い。 ...