データガバナンス定義ガイド
by Evren Eryurek, Uri Gilad, Valliappa Lakshmanan, Anita Kibunguchy-Grant, Jessi Ashdown
第5章. データの質を高める
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
データ品質という言葉を聞くと、多くの人は正しく事実に基づいたデータのことを思い浮かべるだろう。データアナリティクスとデータガバナンスにおいて、データクオリティはより微妙な修飾語のセットを持つ。例えば、トランザクションのフィールドなど)すべての詳細が利用可能でなければ、正しいだけでは十分ではない。データ品質は、これから説明するように、ユースケースの文脈でも測定される。データ品質の特徴を探ることから始めよう。
データ品質とは何か?
簡単に言えば、データ品質とは、正確性、完全性(すべての列に値がある)、適時性に従って、あるデータをランク付けすることである。大量のデータを扱う場合、データは通常、自動化された方法で取得・処理される。データ品質について考えるとき、議論しておくとよい:
- 精度
- 取り込まれたデータが実際に正しいかどうか。例えば、小数点の前に複数のゼロが入力されるようなデータエントリーのエラーは、正確性の問題である。重複データも不正確なデータの一例である。
- 完全性
- 取り込んだすべての記録が完全であったかどうか-すなわち、情報が欠落している列がないかどうか。例えば、顧客レコードを管理している場合、完全な顧客詳細レコード(例えば、名前/住所/電話番号)をキャプチャするか、または他の方法で照合していることを確認する。フィールドが欠けていると、例えば特定の郵便番号の顧客レコードを探している場合に問題が発生する。
- 適時性
- 取引データは適時性の影響を受ける。例えば、株式の売買におけるイベントの順序は、買い手の利用可能な信用に影響を与える可能性がある。適時性はまた、データが古くなる可能性があることも考慮に入れるべきである。
さらに、データの質は異常値の影響を受ける可能性がある。例えば、小売取引を見ている場合、非常に大きな購入金額は、データエントリーの問題(例えば、小数点を忘れるなど)を示している可能性が高く、収益が2桁上昇したという指標ではない。これは精度の問題となる。
すべての可能な値を考慮すること。上記の小売店の例では、マイナスの値は返品を示す可能性が高く、「マイナス$で商品を購入した」わけではないので、別の方法で説明する必要がある(例えば、考えられる影響は平均取引サイズであり、購入と返品はそれぞれ1回の購入に相当する)。
最後に、データソースの信頼性である。例えば、接続された温度計から時間をかけて収集された一連の温度値と、手書きで時間をかけて収集された水銀温度計の人間の読み取り値の間には違いがある。マシンはおそらく、サンプルが採取された時間などの変数を制御し、グローバル原子時計に同期させるだろう。人間がノートに記録する場合、サンプルが採取された時間にばらつきが生じたり、文字が汚れたり、読みにくい手書き文字になったりする可能性がある。両者のデータを同じものとして扱うのは危険である。
なぜデータ品質が重要なのか?
多くの組織にとって、データは意思決定に直接つながる。取引データから作成されたクレジット・スコアは、銀行員による住宅ローンの承認決定につながる。企業の株価は、複数の買い手と売り手が提示した金額から瞬時に計算される。この種の意思決定は、規制されることが非常に多い。例えば、信用関連の意思決定については、明確な証拠を収集しなければならない。住宅ローンの決定が高品質のデータに基づいて行われることは、顧客にとっても貸し手にとっても重要である。データの質の欠如は、信頼の欠如や、偏った非倫理的な自動意思決定の元凶となる。信頼できない電車の時刻表(誤った、あるいは時間通りに来ない駅への訪問や過去の実績に基づいている)は、通勤に関する決定を下すことにつながり、その結果、いつも自家用車を利用することになりかねず、大量輸送機関である電車の存在理由そのものを否定することになる。 ...