book

データ主導の組織の作成

by Carl Anderson

March 2025

Beginner to intermediate

302 pages

3h 51m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

概要誰がこの本を読むべきか？章構成本書で使用されている慣例サファリ®ブックス・オンライン問い合わせ先謝辞
データ収集データ・アクセス報告アラートレポートとアラートから分析へデータ主導の特徴アナリティクスの成熟度概要
データ品質の諸相汚れたデータデータ作成データエントリ欠損データ重複切り捨てられたデータ単位デフォルト値データの実証性データ品質は共有の責任である
すべてのものを集めるデータソースの優先順位付け点と点を結ぶデータ収集購買データデータセットの価値は？データ保持
アナリストの種類データアナリストデータエンジニア・アナリティクスエンジニアビジネスアナリストデータサイエンティスト統計学者クオンツ会計士および財務アナリストデータ可視化のスペシャリストアナリティクスはチームスポーツであるスキルと資質もうひとつのツール探索的データ分析と統計モデリングデータベースクエリファイルの検査と操作アナリティクス機構
分析とは何か？分析の種類記述的分析探索的分析推論分析予測分析原因分析
メトリック・デザインシンプルだ標準化された正確正確相対的対絶対的堅牢性ディレクトリ主要業績評価指標KPIの例KPIはいくつあるのか？KPIの定義と目標
ストーリーテリングはじめの一歩何を達成しようとしているのか？観客とは誰か？あなたのミディアムは？売れ、売れ、売れ！データの可視化チャートを選ぶチャートの要素をデザインする配達インフォグラフィックスダッシュボード概要
なぜA/Bテストなのか？ハウツー：A/Bテストのベストプラクティス実験前実験を行うその他のアプローチ多変量テストベイジアン・バンディッツ文化的な意味合い
決断はどのように下されるのか？データ主導か、情報主導か、それとも影響主導か？何が意思決定を難しくしているのか？データ文化認知の壁直感はどこで働くのか？ソリューションモチベーション能力トリガー結論

オープンで信頼できる文化幅広いデータ・リテラシー目標第一の文化探究心、質問文化反復、学習文化抗HiPPO培養データ・リーダーシップ
チーフ・データ・オフィサーCDOの役割成功の秘訣CDOの役割の将来チーフ・アナリティクス・オフィサー結論
プライバシーの尊重うっかり漏れ共感を実践する選択肢を提供するデータの質セキュリティ施行結論
アナリティクス組織データ分析＆データサイエンス意思決定データの可視化A/Bテスト
最近傍問題相対周波数の問題一変量分布問題の推定多変量問題
価値アクティベーション

Content preview from データ主導の組織の作成

付録A. データの不合理な有効性について：なぜデータが多ければ多いほど良いのか？より良いのか？

注

この付録は、筆者のブログの同名の記事から（若干の修正と訂正を加えて）転載したものである。

論文 "The unreasonable effectiveness of data "の中で、ハレヴィ、ノルヴィグ、ペレリラは、データの有効性を論じている。¹GoogleのHalevy、Norvig、Pereriraは、コーパスがウェブ規模になると面白いことが起こると主張している：

単純なモデルと多くのデータは、少ないデータに基づくより精巧なモデルに勝る。

この論文と、ノービグが行ったより詳細な技術講演の中で、彼らは、コーパスが数億から数兆の学習サンプルや単語になると、基本的な独立性の仮定を持つ非常に単純なモデルが、より少ないデータで、注意深く作成されたオントロジーに基づくモデルなど、より複雑なモデルを上回ることができることを示している。しかし、なぜデータが多い方が良いのかについては、ほとんど説明されていない。この付録では、その点について考えてみたい。

私は、より多くのデータがあった方が良い理由と問題にはいくつかの分類があることを提案する。

最近傍問題

最初のは最近傍タイプの問題である。Halevyらはその例を挙げている：

James HaysとAlexei A. Efrosは、シーン補完の課題に取り組んだ。写真から不要な、見苦しい自動車や元配偶者を取り除き、他の写真の大規模なコーパスから取得したピクセルで背景を埋める。²

ノルヴィグは次のような概略図を示した：

Alt Text

そして、結果が本当に悪いものから本当に良いものへと変化する「データのしきい値」と表現した。

私は、閾値や相転移に似たものがあるとは確信していない。これは、最も近い一致を発見するという問題のように思える。データが多ければ多いほど、より近い一致が期待できる。

HaysとEfros（2007）はこう述べている：

実際、1万枚の画像のデータセットに対するgist記述子の初期実験では、非常に落胆した。しかし、画像コレクションを200万枚に増やすと、性能は質的に飛躍した。独立して、Torralbaら[2007]は、最大7,000万枚の小さな（32x32）画像のデータセットで同様の効果を観測している...我々の手法が成功するには、大規模なデータセットが必要である。我々は、1万枚から200万枚の画像に移行したときに劇的な改善を見た。

これらのコーパスのサイズには大きな違いがあり、「質的な飛躍」は閾値（感覚的には相転移）とは違う。

より多くのデータは、単純な効果からメトリックに劇的な影響を与えることができる。インスタンスンス標準正規からサイズnの標本を考える。その標本の最小値はnによってどのように変わるだろうか？異なるサイズの標本を作成し、次のRコードを使って最小値をプロットしてみよう：

 x<-seq(1,7,0.5) y<-vector(mode="numeric",length=length(x)) ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341635814

データ主導の組織の作成

by Carl Anderson

付録A. データの不合理な有効性について：なぜデータが多ければ多いほど良いのか？より良いのか？

注

最近傍問題

図A-1. Hayes and Efros (2007)の図1.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

経理における人工知能

DeFiを理解する

コードとしてのポリシー

ビジネス向けのUX

Publisher Resources

付録A. データの不合理な有効性について：なぜデータが多ければ多いほど良いのか？ より良いのか？

注

最近傍問題

図A-1. Hayes and Efros (2007)の図1.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

経理における人工知能

DeFiを理解する

コードとしてのポリシー

ビジネス向けのUX

Publisher Resources

付録A. データの不合理な有効性について：なぜデータが多ければ多いほど良いのか？より良いのか？

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.