CHAPITRE 17 Réduction de la dimensionnalité
Plusieurs techniques sont disponibles pour décomposer des caractéristiques afin d’obtenir un sous-ensemble moins grand. Ce genre de traitement est utile dans les analyses exploratoires de données, dans la visualisation, dans la création de modèles prédictifs et dans le partitionnement ou regroupement (clustering).
Nous allons dans ce chapitre travailler sur le jeu de données Titanic pour découvrir plusieurs techniques : PCA, UMAP, t-SNE et PHATE.
Voici d’abord les données de travail :
>>> ti_df = tweak_titanic(orig_df) >>> std_cols = "pclass,age,sibsp,fare".split(",") >>> X_train, X_test, y_train, y_test = get_train_test_X_y( ... ti_df, "survived", std_cols=std_cols ... ) >>> X = pd.concat([X_train, X_test]) ...
Get Machine learning : les fondamentaux now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.