book

Machine learning : les fondamentaux

Name: Machine learning : les fondamentaux
Author: Matt Harrison
ISBN: 9782412056028

by Matt Harrison

March 2019

Intermediate to advanced

256 pages

4h 57m

French

Editions First

Read now

Unlock full access

Couverture
Machine Learning : les fondamentaux
Copyright
Préface
Contenu du livreÀ qui s’adresse ce livreConventions typographiquesFichiers source des exemplesÀ propos de l’auteurTerminologie françaiseColophon
CHAPITRE 1. Introduction
Les librairies utiliséesInstallation avec pipInstallation avec conda
CHAPITRE 2. Le processus de mécapprentissage
CHAPITRE 3. Classification avec les données Titanic
Suggestion de structure du projetImportsPoser les termes de la questionTerminologie des donnéesCollecte des donnéesNettoyage des donnéesCréation de caractéristiquesSélection d’un échantillon de donnéesImputation de donnéesNormalisation des donnéesReformulation (refactor)Création du modèle de référenceFamilles d’algorithmesEmpilement (stacking)Création d’un modèleÉvaluation du modèleOptimisation par les hyperparamètresMatrices de confusionCourbe ROCCourbe d’apprentissageDéploiement du modèle
CHAPITRE 4. Données manquantes
Étude des manquantsAbandon des données manquantesImputation de donnéesAjout de colonnes indicatrices
CHAPITRE 5. Nettoyage des données
Renommage des colonnesRemplacement des manquants
CHAPITRE 6. Exploration
Volumétrie des donnéesStatistiques globalesHistogrammesNuages de pointsNuages à ligne de régression (joint plot)Grille de pairesBoîtes à moustaches et boîtes violonComparaison de deux valeurs ordinalesCorrélationsRadVizCoordonnées parallèles

CHAPITRE 7. Prétraitement des données
StandardisationConfinement (scale to range)Variables factices (dummy)Encodage de labelsEncodage fréquentielDes catégories à partir des chaînesAutres encodages catégorielsCaractéristiques temporellesAjout d’une caractéristique col_naCréation manuelle de caractéristiques
CHAPITRE 8. Sélection de caractéristiques
Colonnes colinéairesRégression lassoÉlimination récursive de caractéristiquesInformations mutuellesAnalyse par composantes principales PCAImportance des caractéristiques
CHAPITRE 9. Classes non équilibrées
Changement de métriqueAlgorithmes arborescents et ensemblesPénalisation du modèleSuréchantillonnage des minoritairesGénération de données minoritairesSous-échantillonnage des majoritairesSur échantillonnage puis sous-échantillonnage
CHAPITRE 10. Classification
Régression logistiquePropriétésExemple d’utilisation du modèleParamètres d’instanceAttributs après ajustementBayésien naïfPropriétésExemple d’utilisationParamètres d’instanceAttributs après ajustementMachine à vecteurs de support (SVM)PropriétésExemple d’utilisationParamètres d’instanceAttributs après ajustementK-plus proches voisins (KNN)PropriétésExemple d’utilisationParamètres d’instanceArbre de décisionPropriétésExemple d’utilisationParamètres d’instanceAttributs après ajustementForêt aléatoirePropriétésExemple d’utilisationParamètres d’instanceAttributs après ajustementXGBoostPropriétésExemple d’utilisationParamètres d’instanceAttributsxgbfirGradient Boosted avec LightGBMPropriétésExemple d’utilisationParamètres d’instanceTPOTPropriétésExemple d’utilisationParamètres d’instanceAttributs
CHAPITRE 11. Sélection de modèle
Courbe de validationCourbe d’apprentissage
CHAPITRE 12. Métriques et évaluation des classifications
Matrices de confusionMétriquesExactitude (accuracy)Rappel (recall)Précisionf1Rapports de classificationCourbe ROCCourbe précision-rappelDiagramme de gains cumulésCourbe de surperformance (lift)Équilibre des classes (balance)Erreur de prédiction de classeSeuil de discrimination
CHAPITRE 13. Explication des modèles
Coefficient de régressionImportance des caractéristiquesLIMEInterprétation d’un arbreDiagrammes de dépendance partielleModèles substitutsShapley
CHAPITRE 14. Régressions
Modèle de référence (baseline)Régression linéairePropriétésExemple d’utilisationParamètres d’instanceAttributs après ajustementSVMPropriétésExemple d’utilisationParamètres d’instanceAttributs après ajustementK-plus proches voisins (KNN)PropriétésExemple d’utilisationAttributsArbre de décisionPropriétésExemple d’utilisationParamètres d’instanceAttributs après ajustementForêt aléatoirePropriétésExemple d’utilisationParamètres d’instanceAttributs après ajustementRégression XGBoostPropriétésExemple d’utilisationParamètres d’instanceAttributsRégression LightGBMPropriétésExemple d’utilisationParamètres d’instance
CHAPITRE 15. Métriques et évaluation des régressions
MétriquesDiagrammes des résidusHétéroscédasticitéRésidus normauxDiagramme d’erreur de prédiction
CHAPITRE 16. Explication des modèles de régression
Shapley
CHAPITRE 17. Réduction de la dimensionnalité
PCAParamètres d’instanceAttributsUMAPParamètres d’instanceAttributst-SNEParamètres d’instanceAttributsPHATEParamètres d’instanceAttributs
CHAPITRE 18. Regroupement (clustering)
K-moyennesParamètres d’instanceAttributsRegroupement agglomérant (hiérarchique)Analyse des grappes
CHAPITRE 19. Pipelines
Pipeline de classificationPipeline de régressionPipeline PCA
Sommaire

Content preview from Machine learning : les fondamentaux

CHAPITRE 7 Prétraitement des données

Nous allons dans ce chapitre découvrir quelques techniques habituelles de prétraitement en utilisant le jeu de données suivant :

>>> X2 = pd.DataFrame(
...    {
...        "a": range(5),
...        "b": [-100, -50, 0, 200, 1000],
...    }
... )

>>> X2
   a     b
0  0   -100
1  1   -50
2  2     0
3  3   200
4  4   1000

Standardisation

La standardisation des données permet à certains algorithmes de mieux travailler, notamment SVM. Il s’agit pour chacune des colonnes de contenir une moyenne égale à zéro, avec un écart-type égal à 1. La librairie sklearn propose la méthode .fit_transform qui combine .fit et .transform :

>>> from sklearn import preprocessing >>> std = preprocessing.StandardScaler() >>> std.fit_transform(X2) array([[-1.41421356, -0.75995002], ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9782412056028

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Machine learning : les fondamentaux

by Matt Harrison

CHAPITRE 7 Prétraitement des données

Standardisation

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.