book

Apprendre et utiliser Presto

Name: Apprendre et utiliser Presto
ISBN: 9798341609433

by Angelica Lo Duca, Tim Meehan, Vivek Bharathan, Ying Su

November 2024

Intermediate to advanced

194 pages

5h 10m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Préface
Pourquoi nous avons écrit ce livreÀ qui s'adresse ce livreConventions utilisées dans ce livreUtiliser des exemples de codeApprentissage en ligne O'ReillyComment nous contacterRemerciementsAngelica Lo DucaTim MeehanVivek BharathanYing Su
1. Introduction à Presto
Entrepôts de données et lacs de donnéesLe rôle de Presto dans un lac de donnéesOrigines de Presto et considérations relatives à sa conceptionHaute performanceGrande évolutivitéConformité à la norme ANSI SQLFédération de sources de donnéesExécuter dans le CloudArchitecture et composants de base de PrestoAlternatives à PrestoApache ImpalaApache HiveSpark SQLTrinoCas d'utilisation de PrestoRapports et tableaux de bordRequête ad hocETL à l'aide de SQLLa maison du lac des donnéesAnalyse en temps réel avec des bases de données en temps réelPrésentation de notre étude de casConclusion
2. Démarrer avec Presto
Installation du manuel PrestoExécuter Presto sur DockerInstallation de DockerImage Docker PrestoConstruire et exécuter Presto sur DockerLe bac à sable de PrestoDéploiement de Presto sur KubernetesPrésentation de KubernetesConfiguration de Presto sur KubernetesAjouter un nouveau catalogueExécuter le déploiement sur KubernetesInterroger ton instance PrestoCatalogues d'inscriptionSchémas d'énumérationTables d'inscriptionInterroger un tableauConclusion
3. Connecteurs
Interface du fournisseur de servicesArchitecture du connecteurConnecteurs populairesL'argent de pocheÉcrire un connecteur personnaliséConditions préalablesPlugin et moduleConfigurationMétadonnéesEntrée/sortieDéploiement du connecteurApache PinotMise en place et configuration de PrestoLa requête Presto en actionConclusion
4. Connectivité du client
Mise en place de l'environnementClient PrestoImage DockerKubernetes NodeConnectivité avec PrestoAPI RESTPythonRJDBCNode.jsODBCAutres bibliothèques du client PrestoConstruire un tableau de bord client en PythonConfiguration du clientConstruire le tableau de bordConclusion
5. Open Data Lakehouse Analytics
L'émergence de la maison de lacArchitecture de l'entrepôt de donnéesLac de donnéesMagasin de fichiersFormat de fichierFormat du tableauMoteur de rechercheGestion des métadonnéesGouvernance des donnéesContrôle d'accès aux donnéesConstruire un lac de donnéesConfiguration de MinIOConfiguration de HMSConfiguration de SparkEnregistrer les tables Hudi avec HMSConnexion et interrogation de PrestoConclusion
6. Administration Presto
Présentation de l'administration PrestoConfigurationPropriétésSessionsJVMSurveillanceConsoleAPI RESTMétriquesGestionGroupes de ressourcesVérificateursGestionnaires de propriétés de sessionFonctions de l'espace de nomsConclusion
7. Comprendre la sécurité dans Presto
Présentation de Presto SecurityConstruire une communication sécurisée dans PrestoCryptageGestion du trousseau de clésConfiguration de HTTPS/TLSAuthentificationAuthentification par fichierLDAPKerberosCréation d'un authentificateur personnaliséAutorisationAutoriser l'accès à l'API REST de PrestoConfiguration du contrôle d'accès au systèmeAutorisation par le biais d'Apache RangerConclusion
8. Optimisation des performances
Présentation de l'optimisation des performancesRaisons de l'optimisation des performancesLe cycle de vie de l'optimisation des performancesModèle d'exécution des requêtesApproches pour l'optimisation des performances dans PrestoAllocation des ressourcesStockageOptimisation des requêtesAria ScanBalayage de la tableRepartitionnementMise en œuvre de l'optimisation des performancesConstruction et importation du tableau CSV de l'échantillon dans MinIOConversion du tableau CSV dans ORCDéfinition des paramètres d'accordTests d'exécutionConclusion
9. Faire fonctionner Presto à l'échelle
Présentation de l'évolutivitéRaisons de faire évoluer PrestoProblèmes courantsConsidérations sur la conceptionDisponibilitéGérabilitéPerformanceProtectionConfigurationComment mettre Presto à l'échelle ?Plusieurs coordinateursPresto sur SparkDéversementUtilisation d'un service CloudConclusion

Index
À propos des auteurs

Content preview from Apprendre et utiliser Presto

Préface

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

L'entreposage de données a commencé par l'extraction de données des bases de données opérationnelles vers des systèmes plus optimisés pour l'analyse. Ces systèmes étaient des appareils coûteux à exploiter, ce qui signifiait que les gens étaient très judicieux quant aux données qui étaient ingérées dans leur appareil d'entreposage de données à des fins d'analyse.

Au fil des ans, la demande de données a explosé, dépassant de loin la loi de Moore et remettant en question les appareils d'entreposage de données traditionnels. Bien que cette tendance soit vraie pour l'ensemble du secteur, certaines entreprises ont été confrontées plus tôt que d'autres aux problèmes de mise à l'échelle que cela posait.

Facebook a été l'une des premières entreprises à tenter de résoudre ce problème en 2012. À l'époque, Facebook utilisait Apache Hive pour effectuer des analyses interactives. Au fur et à mesure que les ensembles de données de Facebook se sont développés, on a constaté que Hive n'était pas aussi interactif (lire : trop lent) que souhaité. Cela s'explique en grande partie par le fait que le fondement de Hive est MapReduce, qui, à l'époque, exigeait que les ensembles de données intermédiaires soient persistés sur le disque. Cela nécessitait beaucoup d'E/S vers le disque pour les ensembles de résultats intermédiaires transitoires. Facebook a donc développé ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Adobe Creative Suite 2 How-Tos: 100 Essential Techniques

Publisher Resources

ISBN: 9798341609433

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Apprendre et utiliser Presto

by Angelica Lo Duca, Tim Meehan, Vivek Bharathan, Ying Su

Préface

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.