book

データ主導の組織の作成

by Carl Anderson

March 2025

Beginner to intermediate

302 pages

3h 51m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

概要誰がこの本を読むべきか？章構成本書で使用されている慣例サファリ®ブックス・オンライン問い合わせ先謝辞
データ収集データ・アクセス報告アラートレポートとアラートから分析へデータ主導の特徴アナリティクスの成熟度概要
データ品質の諸相汚れたデータデータ作成データエントリ欠損データ重複切り捨てられたデータ単位デフォルト値データの実証性データ品質は共有の責任である
すべてのものを集めるデータソースの優先順位付け点と点を結ぶデータ収集購買データデータセットの価値は？データ保持
アナリストの種類データアナリストデータエンジニア・アナリティクスエンジニアビジネスアナリストデータサイエンティスト統計学者クオンツ会計士および財務アナリストデータ可視化のスペシャリストアナリティクスはチームスポーツであるスキルと資質もうひとつのツール探索的データ分析と統計モデリングデータベースクエリファイルの検査と操作アナリティクス機構
分析とは何か？分析の種類記述的分析探索的分析推論分析予測分析原因分析
メトリック・デザインシンプルだ標準化された正確正確相対的対絶対的堅牢性ディレクトリ主要業績評価指標KPIの例KPIはいくつあるのか？KPIの定義と目標
ストーリーテリングはじめの一歩何を達成しようとしているのか？観客とは誰か？あなたのミディアムは？売れ、売れ、売れ！データの可視化チャートを選ぶチャートの要素をデザインする配達インフォグラフィックスダッシュボード概要
なぜA/Bテストなのか？ハウツー：A/Bテストのベストプラクティス実験前実験を行うその他のアプローチ多変量テストベイジアン・バンディッツ文化的な意味合い
決断はどのように下されるのか？データ主導か、情報主導か、それとも影響主導か？何が意思決定を難しくしているのか？データ文化認知の壁直感はどこで働くのか？ソリューションモチベーション能力トリガー結論

オープンで信頼できる文化幅広いデータ・リテラシー目標第一の文化探究心、質問文化反復、学習文化抗HiPPO培養データ・リーダーシップ
チーフ・データ・オフィサーCDOの役割成功の秘訣CDOの役割の将来チーフ・アナリティクス・オフィサー結論
プライバシーの尊重うっかり漏れ共感を実践する選択肢を提供するデータの質セキュリティ施行結論
アナリティクス組織データ分析＆データサイエンス意思決定データの可視化A/Bテスト
最近傍問題相対周波数の問題一変量分布問題の推定多変量問題
価値アクティベーション

Content preview from データ主導の組織の作成

第1章. データ・ドリブンとは何か？

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

データがなければ、あなたはただの意見を持つ人にすぎない。

ウィリアム・エドワーズ・デミング

データドリブンとは、、ツール、能力、そして最も重要なこととして、データに基づいて行動する文化を構築することである。この章では、データ駆動型組織のセットについて概説する。まず、データの収集とアクセスに関する初期化から始める。次に、レポーティングとアラートと分析を詳細に対比する。将来を見据えた分析には多くの種類があり、その洗練度は様々である。そのため、これらのタイプについて時間をかけ、「分析のレベル」と「分析の成熟度」という観点から説明し、特に分析的に成熟した組織の特徴について論じる。それはどのようなものか？

では、最初の質問である「組織がデータ駆動型であるとはどういうことか」に答える道を歩み始めよう。

データ収集

明白な前提条件をいくつか整理しておこう。

前提条件その1：組織がデータを収集していること。

データが重要な要素であることは間違いない。もちろん、どんなデータでもいいというわけではなく、適切なデータでなければならない。データセットは目の前の問題に関連していなければならない。また、タイムリーで、正確で、クリーンで、偏りがなく、そしておそらく最も重要なことは、信頼できるデータでなければならないということだ。

これは難しい注文だ。データは常に想像以上に汚いものだ。結論を揺るがすような微妙なバイアスが隠れていることもあるし、データのクリーニングやマスキングは大変で時間もコストもかかる演算子だ。データ・サイエンティストは、データの取得、クリーニング、準備に80％の時間を費やし、モデルの構築、分析、可視化、データからの結論の導出に20％しか時間を割かないという話をよく耳にする（例えば、http://bit.ly /nyt-janitor、http://bit.ly/im-data-sci）。私の経験では、これはまったくもっともなことである。次の章では、データ品質についてもっと詳しく説明する。

たとえ、質の高いデータを持っていたとしても、また、質の高いデータをたくさん持っていたとしても、そこまでは到達できない。一部の人々、特に特定のビッグデータベンダやサービスプロバイダは、ビッグデータを万能薬として宣伝している。すべてを集めれば、そのどこかにダイヤモンド（または金塊、針、その他多くの比喩の一つ）があり、それがどんな企業でも成功させることができる。厳然たる真実は、データだけでは十分ではないということだ。少量のクリーンで信頼できるデータは、ペタバイトのゴミよりもはるかに価値がある。

データ・アクセス

前提条件その2：データにアクセスでき、照会可能でなければならない。

しかし、正確で、タイムリーで、関連性のあるデータがあるだけでは、データ主導型とカウントするには不十分である。また、そうでなければならない：

参加可能: データは、、必要に応じて他の企業データと結合できる形式でなければならない。リレーショナルデータベース、NoSQLストア、Hadoopなど、多くの選択肢がある。仕事に適したツールを使う。例えば、Warby Parkerの財務アナリストは長い間、経営陣に報告する主要メトリックの計算にエクセルを使用していた。彼らは、異なるソースから膨大な量の生データを吸い出し、VLOOKUPS（データ内の相互参照を発見するエクセル関数）を実行して、すべてのデータを結合し、数値のトップレベルの外観を得た。これは初期化ではうまくいったが、同社の売上と顧客ベースが急速に拡大するにつれ、データはますます大きくなり、エクセルファイルは300MBに近づき、同社のコンピューターはRAMの最大値を超え、VLOOKUPSは10時間以上かかり、頻繁にクラッシュし、再起動しなければならなかった。彼らは、ツールもアプローチもGoできるところまで引き伸ばしたのだ。エクセルは適切なツールだったが、会社の急成長がそれを変えた。数字を出す仕組みが、アナリストにとって膨大な時間の浪費となり、数字が出るのか、それともVLOOKUPSを再実行するためにさらに10時間待たなければならないのかというストレスの源となった。彼らはアナリストからマイクロソフトのデータ・エンジニアになってしまったのだ。私のチームは、データセット全体をMySQLリレーショナルデータベースに取り込むのを手伝った。我々はクエリを作成し、彼らの代わりに数字を計算した。これにより、彼らはデータの分析、トレンド、プレゼンテーションに集中できるようになった。より良いツールを手に入れ、より多くの時間を使えるようになった今、彼らはより深く豊かな分析を行なっている。 ...