book

Apprendre et utiliser Presto

Name: Apprendre et utiliser Presto
ISBN: 9798341609433

by Angelica Lo Duca, Tim Meehan, Vivek Bharathan, Ying Su

November 2024

Intermediate to advanced

194 pages

5h 10m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Préface
Pourquoi nous avons écrit ce livreÀ qui s'adresse ce livreConventions utilisées dans ce livreUtiliser des exemples de codeApprentissage en ligne O'ReillyComment nous contacterRemerciementsAngelica Lo DucaTim MeehanVivek BharathanYing Su
1. Introduction à Presto
Entrepôts de données et lacs de donnéesLe rôle de Presto dans un lac de donnéesOrigines de Presto et considérations relatives à sa conceptionHaute performanceGrande évolutivitéConformité à la norme ANSI SQLFédération de sources de donnéesExécuter dans le CloudArchitecture et composants de base de PrestoAlternatives à PrestoApache ImpalaApache HiveSpark SQLTrinoCas d'utilisation de PrestoRapports et tableaux de bordRequête ad hocETL à l'aide de SQLLa maison du lac des donnéesAnalyse en temps réel avec des bases de données en temps réelPrésentation de notre étude de casConclusion
2. Démarrer avec Presto
Installation du manuel PrestoExécuter Presto sur DockerInstallation de DockerImage Docker PrestoConstruire et exécuter Presto sur DockerLe bac à sable de PrestoDéploiement de Presto sur KubernetesPrésentation de KubernetesConfiguration de Presto sur KubernetesAjouter un nouveau catalogueExécuter le déploiement sur KubernetesInterroger ton instance PrestoCatalogues d'inscriptionSchémas d'énumérationTables d'inscriptionInterroger un tableauConclusion
3. Connecteurs
Interface du fournisseur de servicesArchitecture du connecteurConnecteurs populairesL'argent de pocheÉcrire un connecteur personnaliséConditions préalablesPlugin et moduleConfigurationMétadonnéesEntrée/sortieDéploiement du connecteurApache PinotMise en place et configuration de PrestoLa requête Presto en actionConclusion
4. Connectivité du client
Mise en place de l'environnementClient PrestoImage DockerKubernetes NodeConnectivité avec PrestoAPI RESTPythonRJDBCNode.jsODBCAutres bibliothèques du client PrestoConstruire un tableau de bord client en PythonConfiguration du clientConstruire le tableau de bordConclusion
5. Open Data Lakehouse Analytics
L'émergence de la maison de lacArchitecture de l'entrepôt de donnéesLac de donnéesMagasin de fichiersFormat de fichierFormat du tableauMoteur de rechercheGestion des métadonnéesGouvernance des donnéesContrôle d'accès aux donnéesConstruire un lac de donnéesConfiguration de MinIOConfiguration de HMSConfiguration de SparkEnregistrer les tables Hudi avec HMSConnexion et interrogation de PrestoConclusion
6. Administration Presto
Présentation de l'administration PrestoConfigurationPropriétésSessionsJVMSurveillanceConsoleAPI RESTMétriquesGestionGroupes de ressourcesVérificateursGestionnaires de propriétés de sessionFonctions de l'espace de nomsConclusion
7. Comprendre la sécurité dans Presto
Présentation de Presto SecurityConstruire une communication sécurisée dans PrestoCryptageGestion du trousseau de clésConfiguration de HTTPS/TLSAuthentificationAuthentification par fichierLDAPKerberosCréation d'un authentificateur personnaliséAutorisationAutoriser l'accès à l'API REST de PrestoConfiguration du contrôle d'accès au systèmeAutorisation par le biais d'Apache RangerConclusion
8. Optimisation des performances
Présentation de l'optimisation des performancesRaisons de l'optimisation des performancesLe cycle de vie de l'optimisation des performancesModèle d'exécution des requêtesApproches pour l'optimisation des performances dans PrestoAllocation des ressourcesStockageOptimisation des requêtesAria ScanBalayage de la tableRepartitionnementMise en œuvre de l'optimisation des performancesConstruction et importation du tableau CSV de l'échantillon dans MinIOConversion du tableau CSV dans ORCDéfinition des paramètres d'accordTests d'exécutionConclusion
9. Faire fonctionner Presto à l'échelle
Présentation de l'évolutivitéRaisons de faire évoluer PrestoProblèmes courantsConsidérations sur la conceptionDisponibilitéGérabilitéPerformanceProtectionConfigurationComment mettre Presto à l'échelle ?Plusieurs coordinateursPresto sur SparkDéversementUtilisation d'un service CloudConclusion

Index
À propos des auteurs

Content preview from Apprendre et utiliser Presto

Chapitre 5. Open Data Lakehouse Analytics

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Jusqu'à présent, tu as appris à connecter Presto à un lac de données en utilisant des connecteurs standard tels que MySQL et Pinot. De plus, tu as appris à écrire un connecteur personnalisé en utilisant les classes et méthodes Java de Presto. Enfin, tu as connecté un client à Presto pour exécuter des requêtes génériques ou personnalisées. Il est maintenant temps d'utiliser Presto dans un scénario avancé, plus réaliste, qui aborde les principaux défis de la gestion des big data : la consultation de tables, l'accès concurrent aux données et le contrôle d'accès.

Dans ce chapitre, nous donnerons un aperçu du data lakehouse et mettrons en œuvre un scénario pratique. Le chapitre est divisé en deux parties. Dans la première partie, nous présentons l'architecture d'un data lakehouse, en nous concentrant sur ses principaux composants. Dans la deuxième partie du chapitre, tu mettras en œuvre un scénario pratique de data lakehouse en utilisant Presto et des composants complètement ouverts.

L'émergence de la maison de lac

La première génération de lacs de données, basée principalement sur le système de fichiers distribués Hadoop (HDFS), a démontré la promesse de l'analytique à l'échelle. En conséquence, de nombreuses organisations ont formé des architectures de plateformes de données composées de lacs de données et d'entrepôts ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Adobe Creative Suite 2 How-Tos: 100 Essential Techniques

Publisher Resources

ISBN: 9798341609433

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Apprendre et utiliser Presto

by Angelica Lo Duca, Tim Meehan, Vivek Bharathan, Ying Su

Chapitre 5. Open Data Lakehouse Analytics

L'émergence de la maison de lac

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.