Capítulo 5. Clasificación

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

A menudo se encarga a los científicos de datos que automaticen las decisiones para los problemas empresariales. ¿Es un correo electrónico un intento de phishing? ¿Es probable que un cliente se dé de baja? ¿Es probable que el internauta haga clic en un anuncio? Todos ellos son problemas de clasificación, una forma de aprendizaje supervisado en el que primero entrenamos un modelo con datos cuyo resultado se conoce y luego aplicamos el modelo a datos cuyo resultado se desconoce. La clasificación es quizás la forma más importante de predicción: el objetivo es predecir si un registro es un 1 o un 0 (phishing/no phishing, clic/no clic, churn/no churn), o en algunos casos, una de varias categorías (por ejemplo, el filtrado de Gmail de tu bandeja de entrada en "principal", "social", "promocional" o "foros").

A menudo, necesitamos algo más que una simple clasificación binaria: queremos conocer la probabilidad prevista de que un caso pertenezca a una clase. En lugar de que un modelo se limite a asignar una clasificación binaria, la mayoría de los algoritmos pueden devolver una puntuación de probabilidad (propensión) de pertenecer a la clase de interés. De hecho, con la regresión logística, la salida por defecto de R está en la escala log-odds, y ésta debe transformarse en una propensión. En scikit-learn de Python, la regresión logística, como la ...

Get Estadística Práctica para Científicos de Datos, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.