
64 3 章 データマンジング
• 人間
が読んで理解できる形式かトランザクションデータベースを使って、数か月や数年経っていざ
データを分析するときに、中身を正確に理解できるようにしよう。
3.3 データのクリーニング
「ガーベッジイン、ガーベッジアウト」は、データ分析の基本原則である。未加工のデータを簡潔で分析
可能なデータセットに変換するための道のりは、非常に長くなることがある。
データを分析できるようにクリーニングする過程では、さまざまな問題が起こる可能性がある。この節で
は、処理に伴う正しくないデータの特定や、別個のデータセットの統合について考えていく。この節で重点
を置いて見ていくのは、最初の時点でゴミ(ガーベッジ)が入り込まないように、実際の分析を行う前にす
べき処理である。
今後の課題
優れ
た絵画修復師は、オリジナルの絵画に対してもとに戻せることしかしない。オリジナルを損
ねるようなことは決してしないのである。同様に、データクリーニングは必ずオリジナルデータ
のコピーに対して行うようにしなければならない。できれば、システマティックで反復可能な形
で変更を加えるデータパイプラインを使いたい。
3.3.1 エラーとデータの誤り
古代イスラエルの法律では、裁判の被告は、すべての裁判官が一致して有罪だと判断したときには、釈
放される。裁判官たちは、全会一致になるときには、判断プロセスに構造的なエラーがあることが多いこと
に気付いていたのである。本当かと思うほど都合のよい話は、どこかで間違っていると考えたのである。 ...