第2章 データ品質 データの品質
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
私の時間の80%はデータのクリーニングに費やされた。より良いデータは、より良いモデルに常に勝る。
トムソン・グエン
データ データ主導型組織の基盤である。
タイムリーで、関連性があり、信頼できるデータがなければ、意思決定者は直感で判断するしかない。データの質がカギとなる。
注
この章では、「品質」を非常に広い意味で使い、主にアナリストの視点から考えている。
アナリストが必要とするのは、、適切な方法で、適切な形式で、適切な場所に、適切なタイミングで収集された、適切なデータである(アナリストは多くを求めてはいない)。(これらのどれかが欠けていたり、不足していたりすると、アナリストが答えられる質問や、データから導き出せる洞察の種類や質が制限されてしまう。
この章と次の章では、この「データの質」という幅広いトピックを取り上げる。まず、データ収集プロセスが正しいことを保証する方法について述べる。これは、正確である、タイムリーである、首尾一貫している、などの意味での品質である。次の章では、正しいデータを収集する方法について説明する。これは、既存のデータを補強し、より良い洞察を可能にするために、最適なデータソースを選択し、提供するという意味での品質である。要するに、正しいデータの収集に続いて、正しいデータの収集について説明する。
この章では、データが信頼できるものであることを知る方法と、信頼できないものである可能性のあるすべての方法に焦点を当てる。まず、データの品質、つまりきれいなデータが持つすべての属性について説明する。その後、データが悪くなる可能性のある無数の方法について掘り下げる。後者のセクションが比較的詳しいのは、いくつかの理由がある。第一に、データ品質が損なわれる可能性が数多く存在するからである。これらの様々な方法は理論的なものではない。しばらくの間データを扱っていれば、ほとんどではないにせよ、その多くに遭遇しているはずだ。これらは現実であり、我々が望むよりも頻繁に起こっている。ほとんどのデータサイエンティストが、データのクリーニングに大半の時間を費やすのには理由がある。しかも、こうした問題に遭遇する可能性は、規模が大きくなるほど高くなる。かつての同僚、 Samer Masryはこう言っている。"スケールの大きな仕事をするときは、100万分の1の問題が毎秒起こる可能性があることを常に覚えておくこと!"。第二に、そしておそらくより重要なこととして、私が提案するように、データ品質を積極的にチェックし維持することは、共有された責任である。アナリティクスのバリューチェーンの全員が、データ品質に積極的に参加すべきである。したがって、データ品質の問題や原因(その中には微妙なものもあり、データソースに重大なバイアスをもたらす可能性もある)を深く理解することは、全員の利点となる。
それでは、データ品質とは何かを考えてみよう。
データ品質の諸相
データ品質は一つの数字に還元できるものではない。品質は5でも32でもない。なぜなら、この用語は一連の側面や次元をカバーしているからである。その結果、品質には程度があり、ある問題は他の問題よりも深刻である。しかし、それらの問題の深刻度は、データで実行される分析の文脈に依存する。例えば、州コードはあるが郵便番号がほとんどない顧客住所表があった場合、郵便番号の欠落は、郵便番号で分析する場合には大きな障害となるが、州レベルで分析する場合には障害とならない。 ...