book

データ主導の組織の作成

by Carl Anderson

March 2025

Beginner to intermediate

302 pages

3h 51m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

概要誰がこの本を読むべきか？章構成本書で使用されている慣例サファリ®ブックス・オンライン問い合わせ先謝辞
データ収集データ・アクセス報告アラートレポートとアラートから分析へデータ主導の特徴アナリティクスの成熟度概要
データ品質の諸相汚れたデータデータ作成データエントリ欠損データ重複切り捨てられたデータ単位デフォルト値データの実証性データ品質は共有の責任である
すべてのものを集めるデータソースの優先順位付け点と点を結ぶデータ収集購買データデータセットの価値は？データ保持
アナリストの種類データアナリストデータエンジニア・アナリティクスエンジニアビジネスアナリストデータサイエンティスト統計学者クオンツ会計士および財務アナリストデータ可視化のスペシャリストアナリティクスはチームスポーツであるスキルと資質もうひとつのツール探索的データ分析と統計モデリングデータベースクエリファイルの検査と操作アナリティクス機構
分析とは何か？分析の種類記述的分析探索的分析推論分析予測分析原因分析
メトリック・デザインシンプルだ標準化された正確正確相対的対絶対的堅牢性ディレクトリ主要業績評価指標KPIの例KPIはいくつあるのか？KPIの定義と目標
ストーリーテリングはじめの一歩何を達成しようとしているのか？観客とは誰か？あなたのミディアムは？売れ、売れ、売れ！データの可視化チャートを選ぶチャートの要素をデザインする配達インフォグラフィックスダッシュボード概要
なぜA/Bテストなのか？ハウツー：A/Bテストのベストプラクティス実験前実験を行うその他のアプローチ多変量テストベイジアン・バンディッツ文化的な意味合い
決断はどのように下されるのか？データ主導か、情報主導か、それとも影響主導か？何が意思決定を難しくしているのか？データ文化認知の壁直感はどこで働くのか？ソリューションモチベーション能力トリガー結論

オープンで信頼できる文化幅広いデータ・リテラシー目標第一の文化探究心、質問文化反復、学習文化抗HiPPO培養データ・リーダーシップ
チーフ・データ・オフィサーCDOの役割成功の秘訣CDOの役割の将来チーフ・アナリティクス・オフィサー結論
プライバシーの尊重うっかり漏れ共感を実践する選択肢を提供するデータの質セキュリティ施行結論
アナリティクス組織データ分析＆データサイエンス意思決定データの可視化A/Bテスト
最近傍問題相対周波数の問題一変量分布問題の推定多変量問題
価値アクティベーション

Content preview from データ主導の組織の作成

第2章データ品質データの品質

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

私の時間の80％はデータのクリーニングに費やされた。より良いデータは、より良いモデルに常に勝る。

トムソン・グエン

データデータ主導型組織の基盤である。

タイムリーで、関連性があり、信頼できるデータがなければ、意思決定者は直感で判断するしかない。データの質がカギとなる。

注

この章では、「品質」を非常に広い意味で使い、主にアナリストの視点から考えている。

アナリストが必要とするのは、、適切な方法で、適切な形式で、適切な場所に、適切なタイミングで収集された、適切なデータである（アナリストは多くを求めてはいない）。(これらのどれかが欠けていたり、不足していたりすると、アナリストが答えられる質問や、データから導き出せる洞察の種類や質が制限されてしまう。

この章と次の章では、この「データの質」という幅広いトピックを取り上げる。まず、データ収集プロセスが正しいことを保証する方法について述べる。これは、正確である、タイムリーである、首尾一貫している、などの意味での品質である。次の章では、正しいデータを収集する方法について説明する。これは、既存のデータを補強し、より良い洞察を可能にするために、最適なデータソースを選択し、提供するという意味での品質である。要するに、正しいデータの収集に続いて、正しいデータの収集について説明する。

この章では、データが信頼できるものであることを知る方法と、信頼できないものである可能性のあるすべての方法に焦点を当てる。まず、データの品質、つまりきれいなデータが持つすべての属性について説明する。その後、データが悪くなる可能性のある無数の方法について掘り下げる。後者のセクションが比較的詳しいのは、いくつかの理由がある。第一に、データ品質が損なわれる可能性が数多く存在するからである。これらの様々な方法は理論的なものではない。しばらくの間データを扱っていれば、ほとんどではないにせよ、その多くに遭遇しているはずだ。これらは現実であり、我々が望むよりも頻繁に起こっている。ほとんどのデータサイエンティストが、データのクリーニングに大半の時間を費やすのには理由がある。しかも、こうした問題に遭遇する可能性は、規模が大きくなるほど高くなる。かつての同僚、 Samer Masryはこう言っている。"スケールの大きな仕事をするときは、100万分の1の問題が毎秒起こる可能性があることを常に覚えておくこと！"。第二に、そしておそらくより重要なこととして、私が提案するように、データ品質を積極的にチェックし維持することは、共有された責任である。アナリティクスのバリューチェーンの全員が、データ品質に積極的に参加すべきである。したがって、データ品質の問題や原因（その中には微妙なものもあり、データソースに重大なバイアスをもたらす可能性もある）を深く理解することは、全員の利点となる。

それでは、データ品質とは何かを考えてみよう。

データ品質の諸相

データ品質は一つの数字に還元できるものではない。品質は5でも32でもない。なぜなら、この用語は一連の側面や次元をカバーしているからである。その結果、品質には程度があり、ある問題は他の問題よりも深刻である。しかし、それらの問題の深刻度は、データで実行される分析の文脈に依存する。例えば、州コードはあるが郵便番号がほとんどない顧客住所表があった場合、郵便番号の欠落は、郵便番号で分析する場合には大きな障害となるが、州レベルで分析する場合には障害とならない。 ...