Préface
L'entreposage de données a commencé par l'extraction de données des bases de données opérationnelles vers des systèmes plus optimisés pour l'analyse. Ces systèmes étaient des appareils coûteux à exploiter, ce qui signifiait que les gens étaient très judicieux quant aux données qui étaient ingérées dans leur appareil d'entreposage de données à des fins d'analyse.
Au fil des ans, la demande de données a explosé, dépassant de loin la loi de Moore et remettant en question les appareils d'entreposage de données traditionnels. Bien que cette tendance soit vraie pour l'ensemble du secteur, certaines entreprises ont été confrontées plus tôt que d'autres aux problèmes de mise à l'échelle que cela posait.
Facebook a été l'une des premières entreprises à tenter de résoudre ce problème en 2012. À l'époque, Facebook utilisait Apache Hive pour effectuer des analyses interactives. Au fur et à mesure que les ensembles de données de Facebook se sont développés, on a constaté que Hive n'était pas aussi interactif (lire : trop lent) que souhaité. Cela s'explique en grande partie par le fait que le fondement de Hive est MapReduce, qui, à l'époque, exigeait que les ensembles de données intermédiaires soient persistés sur le disque. Cela nécessitait beaucoup d'E/S vers le disque pour les ensembles de résultats intermédiaires transitoires. Facebook a donc développé ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access