Machine learning : les fondamentaux

Book description

Entrez de plain-pied dans le monde fascinant la data science avec cet ouvrage pratique, véritable pense bête de tous les data scientists, ingénieurs ou programmeurs
Vous aussi participez à la révolution qui ramène l'intelligence artificielle au coeur de notre société, grace aux data scientists.
La data science consiste à traduire des problèmes de toute autre nature, en problèmes de modélisation quantitative, résolus par des algorithmes de traitement.


Au programme :
Les différentes versions de Python
L'apprentissage non supervisé et le préprocessing
Représenter les données
Processus de validation
Algorithmes, chaînes et pipeline
Travailler avec des données de type texte
Utiliser Sikit-learn

Table of contents

  1. Couverture
  2. Machine Learning : les fondamentaux
  3. Copyright
  4. Préface
    1. Contenu du livre
    2. À qui s’adresse ce livre
    3. Conventions typographiques
    4. Fichiers source des exemples
    5. À propos de l’auteur
    6. Terminologie française
    7. Colophon
  5. CHAPITRE 1. Introduction
    1. Les librairies utilisées
    2. Installation avec pip
    3. Installation avec conda
  6. CHAPITRE 2. Le processus de mécapprentissage
  7. CHAPITRE 3. Classification avec les données Titanic
    1. Suggestion de structure du projet
      1. Imports
      2. Poser les termes de la question
      3. Terminologie des données
    2. Collecte des données
      1. Nettoyage des données
    3. Création de caractéristiques
    4. Sélection d’un échantillon de données
      1. Imputation de données
      2. Normalisation des données
    5. Reformulation (refactor)
      1. Création du modèle de référence
    6. Familles d’algorithmes
      1. Empilement (stacking)
      2. Création d’un modèle
    7. Évaluation du modèle
      1. Optimisation par les hyperparamètres
      2. Matrices de confusion
      3. Courbe ROC
      4. Courbe d’apprentissage
      5. Déploiement du modèle
  8. CHAPITRE 4. Données manquantes
    1. Étude des manquants
    2. Abandon des données manquantes
    3. Imputation de données
    4. Ajout de colonnes indicatrices
  9. CHAPITRE 5. Nettoyage des données
    1. Renommage des colonnes
    2. Remplacement des manquants
  10. CHAPITRE 6. Exploration
    1. Volumétrie des données
    2. Statistiques globales
    3. Histogrammes
    4. Nuages de points
    5. Nuages à ligne de régression (joint plot)
    6. Grille de paires
    7. Boîtes à moustaches et boîtes violon
    8. Comparaison de deux valeurs ordinales
    9. Corrélations
    10. RadViz
    11. Coordonnées parallèles
  11. CHAPITRE 7. Prétraitement des données
    1. Standardisation
    2. Confinement (scale to range)
    3. Variables factices (dummy)
    4. Encodage de labels
    5. Encodage fréquentiel
    6. Des catégories à partir des chaînes
    7. Autres encodages catégoriels
    8. Caractéristiques temporelles
    9. Ajout d’une caractéristique col_na
    10. Création manuelle de caractéristiques
  12. CHAPITRE 8. Sélection de caractéristiques
    1. Colonnes colinéaires
    2. Régression lasso
    3. Élimination récursive de caractéristiques
    4. Informations mutuelles
    5. Analyse par composantes principales PCA
    6. Importance des caractéristiques
  13. CHAPITRE 9. Classes non équilibrées
    1. Changement de métrique
    2. Algorithmes arborescents et ensembles
    3. Pénalisation du modèle
    4. Suréchantillonnage des minoritaires
    5. Génération de données minoritaires
    6. Sous-échantillonnage des majoritaires
    7. Sur échantillonnage puis sous-échantillonnage
  14. CHAPITRE 10. Classification
    1. Régression logistique
      1. Propriétés
      2. Exemple d’utilisation du modèle
      3. Paramètres d’instance
      4. Attributs après ajustement
    2. Bayésien naïf
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
      4. Attributs après ajustement
    3. Machine à vecteurs de support (SVM)
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
      4. Attributs après ajustement
    4. K-plus proches voisins (KNN)
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
    5. Arbre de décision
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
      4. Attributs après ajustement
    6. Forêt aléatoire
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
      4. Attributs après ajustement
    7. XGBoost
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
      4. Attributs
      5. xgbfir
    8. Gradient Boosted avec LightGBM
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
    9. TPOT
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
      4. Attributs
  15. CHAPITRE 11. Sélection de modèle
    1. Courbe de validation
    2. Courbe d’apprentissage
  16. CHAPITRE 12. Métriques et évaluation des classifications
    1. Matrices de confusion
    2. Métriques
    3. Exactitude (accuracy)
    4. Rappel (recall)
    5. Précision
    6. f1
    7. Rapports de classification
    8. Courbe ROC
    9. Courbe précision-rappel
    10. Diagramme de gains cumulés
    11. Courbe de surperformance (lift)
    12. Équilibre des classes (balance)
    13. Erreur de prédiction de classe
    14. Seuil de discrimination
  17. CHAPITRE 13. Explication des modèles
    1. Coefficient de régression
    2. Importance des caractéristiques
    3. LIME
    4. Interprétation d’un arbre
    5. Diagrammes de dépendance partielle
    6. Modèles substituts
    7. Shapley
  18. CHAPITRE 14. Régressions
    1. Modèle de référence (baseline)
    2. Régression linéaire
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
      4. Attributs après ajustement
    3. SVM
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
      4. Attributs après ajustement
    4. K-plus proches voisins (KNN)
      1. Propriétés
      2. Exemple d’utilisation
      3. Attributs
    5. Arbre de décision
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
      4. Attributs après ajustement
    6. Forêt aléatoire
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
      4. Attributs après ajustement
    7. Régression XGBoost
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
      4. Attributs
    8. Régression LightGBM
      1. Propriétés
      2. Exemple d’utilisation
      3. Paramètres d’instance
  19. CHAPITRE 15. Métriques et évaluation des régressions
    1. Métriques
    2. Diagrammes des résidus
    3. Hétéroscédasticité
    4. Résidus normaux
    5. Diagramme d’erreur de prédiction
  20. CHAPITRE 16. Explication des modèles de régression
    1. Shapley
  21. CHAPITRE 17. Réduction de la dimensionnalité
    1. PCA
      1. Paramètres d’instance
      2. Attributs
    2. UMAP
      1. Paramètres d’instance
      2. Attributs
    3. t-SNE
      1. Paramètres d’instance
      2. Attributs
    4. PHATE
      1. Paramètres d’instance
      2. Attributs
  22. CHAPITRE 18. Regroupement (clustering)
    1. K-moyennes
      1. Paramètres d’instance
      2. Attributs
    2. Regroupement agglomérant (hiérarchique)
    3. Analyse des grappes
  23. CHAPITRE 19. Pipelines
    1. Pipeline de classification
    2. Pipeline de régression
    3. Pipeline PCA
  24. Sommaire

Product information

  • Title: Machine learning : les fondamentaux
  • Author(s): Matt Harrison
  • Release date: March 2019
  • Publisher(s): Editions First
  • ISBN: 9782412056028