Chapitre 9. Construire des lacs de données fiables avec Apache Spark
Dans les chapitres précédents, tu as appris à utiliser facilement et efficacement Apache Spark pour construire des pipelines de traitement de données évolutifs et performants. Cependant, dans la pratique, l'expression de la logique de traitement ne résout que la moitié du problème de bout en bout de la construction d'un pipeline. Pour un ingénieur de données, un scientifique de données ou un analyste de données, l'objectif final de la construction de pipelines est d'interroger les données traitées et d'en tirer des enseignements. Le choix de la solution de stockage détermine la robustesse et les performances de bout en bout (c'est-à-dire des données brutes aux connaissances) du pipeline de données.
Dans ce chapitre, nous allons d'abord aborder les principales caractéristiques d'une solution de stockage auxquelles tu dois faire attention. Ensuite, nous aborderons deux grandes catégories de solutions de stockage, les bases de données et les lacs de données, et nous verrons comment utiliser Apache Spark avec elles. Enfin, nous présenterons la prochaine vague de solution de stockage, appelée lakehouses, et nous explorerons certains des nouveaux moteurs de traitement open source dans cet espace.
L'importance d'une solution de stockage optimale
Voici quelques-unes des propriétés que l'on ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access