第3章 データ収集 データ収集
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
不十分なデータを使ったエラーは、まったくデータを使わない場合に比べてはるかに少ない。
チャールズ・バベイジ
これだけ多くの種類のデータが利用できるようになれば、そのパワーを想像するのは難しい。
ティム・バーナーズ=リー
前章()では、データ品質と正しいデータ収集について説明した。この章では、アナリストが利用し、提供する正しいデータソースの選択に焦点を移す。つまり、正しいデータを収集することである。どのデータソースを利用するかの優先順位、データの収集方法、データが組織に提供する価値の評価方法などを取り上げる。
すべてのものを集める
、Webサイトに新しいチェックアウトプロセスを導入するとしよう。コンバージョンやカゴのサイズなどを追跡したいだろうが、それがどのように使われているかを理解することも有益であり、洞察になるだろう。インスタンスンスでは、「カートに入れる」はシングルクリックで簡単にできるため、顧客の振る舞いのパターンとして、カートにたくさんの商品を入れて保留し、チェックアウトの送信ボタンをクリックする前に最終的な選択まで絞り込むかもしれない。しかし、他のサイトでは、"カートに追加 "は複数のクリックを伴うかもしれないし、アイテムを削除するのは難しいかもしれないし、あいまいかもしれない。可能な限りチェックアウトプロセスを計測することで、その機能についてより深い洞察を得ることができ、機能の追加や改良、更なるテストのためのアイデアを導き出すことができる理由がお分かりいただけるだろう。
彼の著書『Building Data Science Teams』(O'Reilly)の中で、DJ Patilはこう述べている:
データ主導のふりをするのは簡単だ。しかし、収集できるものはすべて収集し、測定し、収集したデータが何を意味するのかを考えるという考え方に立てば、データ主導型であると主張するほとんどの組織よりも一歩先を行くことができるだろう。
収集できるものはすべて収集し、測定する。何が必要になるかわからないし、データを収集するチャンスは一度しかないことが多い。収集するデータが多ければ多いほど、(チェックアウトの例のように)ユーザの振る舞いをモデル化し、理解するチャンスが増える。つまり、組織が個々のユーザー、その嗜好、意図、欲求について理解すればするほど、パーソナライゼーション、レコメンデーション、あるいは "ロングテール "に届くよりきめ細かいサービスを通じて、ユーザ体験をより向上させることができる。1
オンライン製品を開発する場合、すべてを収集することは当然のことだ。あなたが管理するデータソースであり、ある機能をクリックすると、別の機能をクリックしたときと同じ、あるいは似たような収集メカニズムを使うことができる。つまり、共通のパターン、データフロー、ストレージメカニズムを利用することができる。データ主導のマーケティング、データ主導の営業、データ主導のカスタマーサービス、データ主導のサプライチェーン、データ主導の人事などだ。これらのそれぞれが、形式、遅延、データ品質の問題、セキュリティやコンプライアンス要件などが異なる一連の内部および外部データソースを持つ場合、データチームにとってこれは大変なことになり始める。すべてを収集する」というのは、実際には素晴らしいことだが、いざ本番になると大きな頭痛の種となる。 ...