book

R pour la science des données, 2e édition

Name: R pour la science des données, 2e édition
ISBN: 9798341618831

by Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund

November 2024

Intermediate to advanced

578 pages

14h 25m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Introduction
Préface à la deuxième éditionCe que tu apprendrasComment ce livre est organiséCe que tu n'apprendras pasModélisationBig DataPython, Julia et ses amisConditions préalablesRRStudioLe TidyverseAutres forfaitsExécuter le code RAutres conventions utilisées dans ce livreApprentissage en ligne O'ReillyComment nous contacterRemerciementsÉdition en ligne
I. Jeu complet
1. Visualisation des données
IntroductionConditions préalablesPremiers pasLes pingouins Cadre de donnéesObjectif ultimeCréation d'un ggplotAjouter de l'esthétique et des couchesExercicesggplot2 AppelsVisualiser les distributionsUne variable catégorielleUne variable numériqueExercicesVisualiser les relationsUne variable numérique et une variable catégorielleDeux variables catégoriellesDeux variables numériquesTrois variables ou plusExercicesSauvegarde tes parcellesExercicesProblèmes courantsRésumé
2. Le flux de travail : Notions de base
Les bases du codageCommentairesQu'est-ce qu'un nom ?Appeler des fonctionsExercicesRésumé
3. Transformation des données
IntroductionConditions préalablesnycflights13Principes de base de dplyrRangsfiltre()Erreurs courantesarrange()distinct()ExercicesColonnesmuter()sélectionner()renommer()relocaliser()ExercicesLe tuyauGroupesgroup_by()résumer()Les fonctions de la trancheRegroupement par variables multiplesDégroupage.parExercicesÉtude de cas : Agrégats et taille de l'échantillonRésumé
4. Flux de travail : Style de code
NomsEspacesTuyauxggplot2Sectionnement des commentairesExercicesRésumé
5. Tidy des données
IntroductionConditions préalablesTidy DataExercicesDonnées sur l'allongementDonnées dans les noms de colonnesComment fonctionne le pivotement ?Plusieurs variables dans les noms de colonnesNoms des données et des variables dans les en-têtes de colonnesÉlargissement des donnéesComment fonctionne pivot_wider() ?Résumé
6. Flux de travail : Scripts et projets
ScriptsCode de fonctionnementRStudio DiagnosticsSauvegarde et attribution de nomsProjetsQuelle est la source de la vérité ?Où se trouve ton analyse ?Projets RStudioChemins relatifs et absolusExercicesRésumé
7. Importation de données
IntroductionConditions préalablesLire les données d'un fichierConseils pratiquesAutres argumentsAutres types de fichiersExercicesContrôler les types de colonnesDeviner les typesValeurs manquantes, types de colonnes et problèmesTypes de colonnesLecture de données à partir de plusieurs fichiersÉcrire dans un fichierSaisie de donnéesRésumé
8. Flux de travail : Obtenir de l'aide
Google est ton amiFabrication d'un reprexInvestir en toi-mêmeRésumé

II. Visualise
9. Couches
IntroductionConditions préalablesMises en correspondance esthétiquesExercicesObjets géométriquesExercicesFacettesExercicesTransformations statistiquesExercicesAjustements de positionExercicesSystèmes de coordonnéesExercicesLa grammaire stratifiée des graphiquesRésumé
10. Analyse exploratoire des données
IntroductionConditions préalablesQuestionsVariationValeurs typiquesValeurs inhabituellesExercicesValeurs inhabituellesExercicesCovariationUne variable catégorielle et une variable numériqueDeux variables catégoriellesDeux variables numériquesMotifs et modèlesRésumé
11. Communication
IntroductionConditions préalablesÉtiquettesExercicesAnnotationsExercicesBalancesÉchelles par défautTics d'axe et touches de légendeLégendeRemplacer une balanceZoomerExercicesThèmesExercicesMise en pageExercicesRésumé
III. Transformer
12. Vecteurs logiques
IntroductionConditions préalablesComparaisonsComparaison en virgule flottanteValeurs manquantesis.na()ExercicesAlgèbre booléenneValeurs manquantesOrdre des opérations%in%ExercicesRésumésRésumés logiquesRésumés numériques des vecteurs logiquesSous-ensemble logiqueExercicesTransformations conditionnellesif_else()case_when()Types compatiblesExercicesRésumé
13. Les chiffres
IntroductionConditions préalablesFaire des chiffresCompteExercicesTransformations numériquesRègles d'arithmétique et de recyclageMinimum et maximumArithmétique modulaireLogarithmesArrondirDécouper les nombres en plagesAgrégats cumulés et roulantsExercicesTransformations généralesRangsDécalagesIdentificateurs consécutifsExercicesRésumés numériquesCentreMinimum, maximum et quantilesÉcarterDistributionsPostes à pourvoirAvec mutate()ExercicesRésumé
14. Cordes
IntroductionConditions préalablesCréation d'une chaîneÉvasionsCordes brutesAutres caractères spéciauxExercicesCréer plusieurs chaînes de caractères à partir de donnéesstr_c()str_glue()str_flatten()ExercicesExtraire des données des chaînes de caractèresSéparation en rangéesSéparation en colonnesDiagnostiquer les problèmes d'élargissementLettresLongueurSous-ensembleExercicesTexte non anglaisEncodageVariations des lettresFonctions dépendantes de la localisationRésumé
15. Expressions régulières
IntroductionConditions préalablesNotions de base sur les patronsFonctions principalesDétecter les correspondancesCompter les correspondancesRemplacer les valeursExtraire des variablesExercicesDétails du motifS'échapperAncresClasses de personnagesQuantificateursPriorité des opérateurs et parenthèsesRegroupement et captureExercicesContrôle des motifsIndicateurs de regexCorrespondances fixesPratiqueVérifie ton travailOpérations booléennesCréer un modèle avec du codeExercicesExpressions régulières dans d'autres endroitsTidyverseBase RRésumé
16. Facteurs
IntroductionConditions préalablesLes bases du facteurEnquête sociale généraleExerciceModifier l'ordre des facteursExercicesModifier les niveaux de facteursExercicesFacteurs ordonnésRésumé
17. Dates et heures
IntroductionConditions préalablesCréation de la date et de l'heurePendant l'importationDes cordesÀ partir de composants individuelsD'autres typesExercicesComposants de la date et de l'heureObtenir des composantsArrondirModifier les composantsExercicesLes périodes de tempsDuréesPériodesIntervallesExercicesFuseaux horairesRésumé
18. Valeurs manquantes
IntroductionConditions préalablesValeurs manquantes explicitesDernière observation reportéeValeurs fixesNaNValeurs manquantes implicitesPivoterComplèteRejoins-nousExercicesFacteurs et groupes videsRésumé
19. S'associe
IntroductionConditions préalablesClésClés primaires et étrangèresVérification des clés primairesClés de substitutionExercicesJointures de baseMutation des jointuresSpécification des clés de jointureFiltrer les jointuresExercicesComment fonctionnent les jonctions ?Correspondance des rangsFiltrer les jointuresNon-Equi rejointJoints croisésL'inégalité rejointJoints roulantsJoints par chevauchementExercicesRésumé
IV. L'importation
20. Feuilles de calcul
IntroductionExcelConditions préalablesPour commencerLire les feuilles de calcul ExcelFeuilles de travail pour la lectureLire une partie d'une feuilleTypes de donnéesÉcrire dans ExcelSortie formatéeExercicesGoogle SheetsConditions préalablesPour commencerLire Google SheetsÉcrire dans Google SheetsAuthentificationExercicesRésumé
21. Bases de données
IntroductionConditions préalablesLes bases de la base de donnéesConnexion à une base de donnéesDans ce livreCharger des donnéesLes bases de DBILes bases de dbplyrSQLLes bases de SQLSELECTIONNERDEGROUPER PAROÙORDER BYSous-requêtesRejoins-nousAutres verbesExercicesTraductions de fonctionsRésumé
22. Flèche
IntroductionConditions préalablesObtenir les donnéesOuvrir un jeu de donnéesLe format ParquetAvantages du parquetPartitionnementRéécrire les données de la bibliothèque de SeattleUtiliser dplyr avec ArrowPerformanceUtiliser dbplyr avec ArrowRésumé
23. Données hiérarchiques
IntroductionConditions préalablesListesHiérarchieColonnes de la listeUnnestingunnest_wider()unnest_longer()Types incohérentsAutres fonctionsExercicesÉtudes de casDonnées très largesDonnées relationnellesProfondément imbriquéExercicesJSONTypes de donnéesjsonliteDémarrer le processus de remodelageExercicesRésumé
24. Le grattage du Web
IntroductionConditions préalablesÉthique et légalité du scrapingConditions d'utilisationInformations personnelles identifiablesDroits d'auteurLes bases du HTMLÉlémentsAttributsExtraction des donnéesTrouver des élémentsSélections d'emboîtementTexte et attributsTablesTrouver les bons sélecteursAssembler le toutLa guerre des étoilesIMDb Top FilmsSites dynamiquesRésumé
V. Le programme
25. Fonctions
IntroductionConditions préalablesFonctions vectoriellesÉcrire une fonctionAméliorer notre fonctionnementMuter les fonctionsRésumé des fonctionsExercicesFonctions du cadre de donnéesIndirection et évaluation TidyQuand embrasser ?Cas d'utilisation courantsLe masquage des données par rapport à la sélection TidyExercicesFonctions de tracéPlus de variablesCombinaison avec d'autres paquets TidyverseÉtiquetageExercicesStyleExercicesRésumé
26. Itération
IntroductionConditions préalablesModifier plusieurs colonnesSélection de colonnes avec .colsAppeler une seule fonctionAppeler plusieurs fonctionsNoms des colonnesFiltrageacross() dans les fonctionsVersus pivot_longer()ExercicesLecture de plusieurs fichiersListe des fichiers d'un répertoireListespurrr::map() et list_rbind()Données sur le cheminSauvegarde ton travailPlusieurs itérations simplesDonnées hétérogènesGérer les échecsSauvegarde de plusieurs sortiesÉcrire dans une base de donnéesÉcriture de fichiers CSVSauvegarde des parcellesRésumé
27. Guide de terrain pour la base R
IntroductionConditions préalablesSélection de plusieurs éléments avec [Sous-ensemble de vecteursSous-ensemble d'images de donnéesÉquivalents de dplyrExercicesSélectionner un seul élément avec $ et [[Trames de donnéesTibblesListesExercicesAppliquer la famillepour les bouclesPlotsRésumé
VI. Communiquer
28. Quarto
IntroductionConditions préalablesLes bases du QuartoExercicesÉditeur visuelExercicesRédacteur de la sourceExercicesMorceaux de codeLabel ChunkOptions de morceauxOptions globalesCode en ligneExercicesLes chiffresDimensionnement des figuresAutres options importantesExercicesTablesExercicesMise en cacheExercicesDépannageEn-tête YAMLAutonomeParamètresBibliographies et citationsFlux de travailRésumé
29. Formats in-quarto
IntroductionOptions de sortieDocumentsPrésentationsInteractivitéhtmlwidgetsBrillantSites web et livresAutres formatsRésumé
Index
À propos des auteurs

Content preview from R pour la science des données, 2e édition

Chapitre 22. Flèche

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Introduction

Les fichiers CSV sont conçus pour être facilement lus par les humains. C'est un bon format d'échange parce qu'il est simple et qu'il peut être lu par tous les outils disponibles. Mais les fichiers CSV ne sont pas efficaces : tu dois faire beaucoup de travail pour lire les données dans R. Dans ce chapitre, tu découvriras une alternative puissante : le format parquet, un format basé sur des normes ouvertes largement utilisé par les systèmes de big data.

Nous couplerons les fichiers parquet avec Apache Arrow, une boîte à outils multilingue conçue pour l'analyse et le transport efficaces de grands ensembles de données. Nous utiliserons Apache Arrow via le package arrow, qui fournit un backend dplyr te permettant d'analyser des ensembles de données plus volumineux que la mémoire en utilisant la syntaxe familière de dplyr. En outre, arrow est extrêmement rapide ; tu en verras quelques exemples plus loin dans ce chapitre.

arrow et dbplyr fournissent tous deux des backends dplyr, tu peux donc te demander quand utiliser l'un ou l'autre. Dans de nombreux cas, le choix est fait pour toi, car les données sont déjà dans une base de données ou dans des fichiers parquet, et tu voudras les utiliser telles quelles. Mais si tu commences avec tes propres données (peut-être des fichiers CSV), tu peux soit les charger dans une base de ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Statistiques pratiques pour les scientifiques des données, 2e édition.

Publisher Resources

ISBN: 9798341618831

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

R pour la science des données, 2e édition

by Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund

Chapitre 22. Flèche

Introduction

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.