Capítulo 9. Clases desequilibradas

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Si estás clasificando datos y el tamaño de las clases no está relativamente equilibrado, el sesgo hacia las clases más populares puede trasladarse a tu modelo. Por ejemplo, si tienes 1 caso positivo y 99 negativos, puedes obtener un 99% de precisión simplemente clasificando todo como negativo. Hay varias opciones para tratar las clases desequilibradas.

Utiliza una métrica diferente

Una sugerencia es utilizar una medida distinta de la precisión (AUC es una buena opción) para calibrar los modelos. La precisión y la recuperación también son mejores opciones cuando los tamaños objetivo son diferentes. Sin embargo, también hay otras opciones a tener en cuenta.

Algoritmos basados en árboles y conjuntos

Los modelos basados en árboles pueden funcionar mejor dependiendo de la distribución de la clase más pequeña. Si tienden a agruparse, pueden clasificarse más fácilmente.

Los métodos de ensamblaje pueden ayudar aún más a extraer las clases minoritarias. El ensamblaje y el refuerzo son opciones que se encuentran en modelos arbóreos como los bosques aleatorios y el refuerzo de gradiente extremo (XGBoost).

Penalizar Modelos

Muchos modelos de clasificación de scikit-learn admiten el parámetro class_weight. Si lo ajustas a 'balanced', intentarás regularizar las clases minoritarias e incentivar al modelo para que las clasifique correctamente. ...

Get Referencia de bolsillo sobre aprendizaje automático now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.