Capítulo 10. Clasificación

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Clasificación es un mecanismo de aprendizaje supervisado para etiquetar una muestra basándose en las características. El aprendizaje supervisado significa que tenemos etiquetas para la clasificación o números para la regresión que el algoritmo debe aprender.

En este capítulo veremos varios modelos de clasificación. Sklearn implementa muchos modelos comunes y útiles. También veremos algunos que no están en sklearn, pero implementan la interfaz sklearn. Como siguen la misma interfaz, es fácil probar distintas familias de modelos y ver su rendimiento.

En sklearn, creamos una instancia del modelo y llamamos al método .fit sobre ella con los datos de entrenamiento y las etiquetas de entrenamiento. Ahora podemos llamar al método .predict (o al método .predict_proba o al método .predict_log_proba ) con el modelo ajustado. Para evaluar el modelo, utilizamos el método .score con los datos de prueba y las etiquetas de prueba.

El mayor reto suele ser organizar los datos de forma que funcionen con sklearn. Los datos (X) deben ser una matriz numpy (o pandas DataFrame) de (m por n) con m filas de datos de muestra, cada una con n características (columnas). La etiqueta (y) es un vector (o serie pandas) de tamaño m con un valor (clase) para cada muestra.

El método .score devuelve la precisión media, que por sí sola puede no ser suficiente para evaluar ...

Get Referencia de bolsillo sobre aprendizaje automático now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.