第1章. データ・ドリブンとは何か?
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
データがなければ、あなたはただの意見を持つ人にすぎない。
ウィリアム・エドワーズ・デミング
データドリブンとは、 、ツール、能力、そして最も重要なこととして、データに基づいて行動する文化を構築することである。この章では、データ駆動型組織のセットについて概説する。まず、データの収集とアクセスに関する初期化から始める。次に、レポーティングとアラートと分析を詳細に対比する。将来を見据えた分析には多くの種類があり、その洗練度は様々である。そのため、これらのタイプについて時間をかけ、「分析のレベル」と「分析の成熟度」という観点から説明し、特に分析的に成熟した組織の特徴について論じる。それはどのようなものか?
では、最初の質問である「組織がデータ駆動型であるとはどういうことか」に答える道を歩み始めよう。
データ収集
明白な前提条件をいくつか整理しておこう。
前提条件その1:組織がデータを収集していること。
データが重要な要素であることは間違いない。もちろん、どんなデータでもいいというわけではなく、適切なデータでなければならない。データセットは目の前の問題に関連していなければならない。また、タイムリーで、正確で、クリーンで、偏りがなく、そしておそらく最も重要なことは、信頼できるデータでなければならないということだ。
これは難しい注文だ。データは常に想像以上に汚いものだ。結論を揺るがすような微妙なバイアスが隠れていることもあるし、データのクリーニングやマスキングは大変で時間もコストもかかる演算子だ。データ・サイエンティストは、データの取得、クリーニング、準備に80%の時間を費やし、モデルの構築、分析、可視化、データからの結論の導出に20%しか時間を割かないという話をよく耳にする(例えば、http://bit.ly /nyt-janitor、http://bit.ly/im-data-sci)。私の経験では、これはまったくもっともなことである。次の章では、データ品質についてもっと詳しく説明する。
たとえ、質の高いデータを持っていたとしても、また、質の高いデータをたくさん持っていたとしても、そこまでは到達できない。一部の人々、特に特定のビッグデータベンダやサービスプロバイダは、ビッグデータを万能薬として宣伝している。すべてを集めれば、そのどこかにダイヤモンド(または金塊、針、その他多くの比喩の一つ)があり、それがどんな企業でも成功させることができる。厳然たる真実は、データだけでは十分ではないということだ。少量のクリーンで信頼できるデータは、ペタバイトのゴミよりもはるかに価値がある。
データ・アクセス
前提条件その2:データ にアクセスでき、照会可能でなければならない。
しかし、正確で、タイムリーで、関連性のあるデータがあるだけでは、データ主導型とカウントするには不十分である。また、そうでなければならない:
- 参加可能
-
データは、、必要に応じて他の企業データと結合できる形式でなければならない。リレーショナルデータベース、NoSQLストア、Hadoopなど、多くの選択肢がある。仕事に適したツールを使う。例えば、Warby Parkerの財務アナリストは長い間、経営陣に報告する主要メトリックの計算にエクセルを使用していた。彼らは、異なるソースから膨大な量の生データを吸い出し、VLOOKUPS(データ内の相互参照を発見するエクセル関数)を実行して、すべてのデータを結合し、数値のトップレベルの外観を得た。これは初期化ではうまくいったが、同社の売上と顧客ベースが急速に拡大するにつれ、データはますます大きくなり、エクセルファイルは300MBに近づき、同社のコンピューターはRAMの最大値を超え、VLOOKUPSは10時間以上かかり、頻繁にクラッシュし、再起動しなければならなかった。彼らは、ツールもアプローチもGoできるところまで引き伸ばしたのだ。エクセルは適切なツールだったが、会社の急成長がそれを変えた。数字を出す仕組みが、アナリストにとって膨大な時間の浪費となり、数字が出るのか、それともVLOOKUPSを再実行するためにさらに10時間待たなければならないのかというストレスの源となった。彼らはアナリストからマイクロソフトのデータ・エンジニアになってしまったのだ。私のチームは、データセット全体をMySQLリレーショナルデータベースに取り込むのを手伝った。我々はクエリを作成し、彼らの代わりに数字を計算した。これにより、彼らはデータの分析、トレンド、プレゼンテーションに集中できるようになった。より良いツールを手に入れ、より多くの時間を使えるようになった今、彼らはより深く豊かな分析を行なっている。 ...