5章データレイク
ビッグデータは、センサー、動画、ソーシャルメディアなど、半構造化データや非構造化データを生成するデータソースの急増によって、2010年代初頭にかつてない勢いで台頭しました。こうした半構造化データや非構造化データには、膨大な価値が潜んでいます。たとえば、数年間分にわたる顧客メールの中に、どれほど多くのインサイトが埋もれているかを想像してみてください。しかし、当時のリレーショナルデータウェアハウスは構造化データしか扱うことができず、大量のデータや頻繁にインジェストされるデータの処理にも向いていませんでした。したがって、このようなデータを格納する手段としては十分ではなかったのです。この課題を解決するために登場したのが、データレイクという新しいソリューションでした。データレイクは、半構造化データや非構造化データを容易に処理できるだけでなく、頻繁にインジェストされるデータの管理にも適しています。
数年前、筆者は大手小売チェーンのアナリストたちから、「Twitter(現在のX)のデータを取得して、顧客が店舗についてどう感じているかを分析したい」という相談を受けました。彼らは、顧客が不満を店舗スタッフに直接伝えるのではなく、Twitterに投稿する傾向があることを理解していました。筆者は、Twitterのデータをデータレイクにインジェストし、顧客のコメントの感情を分析して、ポジティブ・ニュートラル・ネガティブの3つのカテゴリに分類する仕組みを構築しました。その結果、ネガティブなコメントの多くが「試着室」に関するものであることがわかりました。内容は、試着室が狭すぎる、混雑している、プライバシーが不十分といったものでした。同社は試験的に、ある店舗の試着室を改装することに決めました。改装から1か月後、アナリストは、試着室に関するポジティブなコメントが圧倒的に増加し、売上も7%向上したことを確認しました。その結果を受けて、同社は全店舗で試着室を改装し、売上6%の増加と数百万ドル規模の増益を達成しました。すべてはデータレイクを活用した分析から生まれた成果でした。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access