Chapitre 5. Open Data Lakehouse Analytics
Jusqu'à présent, tu as appris à connecter Presto à un lac de données en utilisant des connecteurs standard tels que MySQL et Pinot. De plus, tu as appris à écrire un connecteur personnalisé en utilisant les classes et méthodes Java de Presto. Enfin, tu as connecté un client à Presto pour exécuter des requêtes génériques ou personnalisées. Il est maintenant temps d'utiliser Presto dans un scénario avancé, plus réaliste, qui aborde les principaux défis de la gestion des big data : la consultation de tables, l'accès concurrent aux données et le contrôle d'accès.
Dans ce chapitre, nous donnerons un aperçu du data lakehouse et mettrons en œuvre un scénario pratique. Le chapitre est divisé en deux parties. Dans la première partie, nous présentons l'architecture d'un data lakehouse, en nous concentrant sur ses principaux composants. Dans la deuxième partie du chapitre, tu mettras en œuvre un scénario pratique de data lakehouse en utilisant Presto et des composants complètement ouverts.
L'émergence de la maison de lac
La première génération de lacs de données, basée principalement sur le système de fichiers distribués Hadoop (HDFS), a démontré la promesse de l'analytique à l'échelle. En conséquence, de nombreuses organisations ont formé des architectures de plateformes de données composées de lacs de données et d'entrepôts ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access