book

Introducción al Aprendizaje Automático con Python

Name: Introducción al Aprendizaje Automático con Python
ISBN: 9781098181703

by Andreas C. Müller, Sarah Guido

September 2024

Intermediate to advanced

400 pages

11h 15m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
Quién debería leer este libroPor qué escribimos este libroNavegar por este libroRecursos en líneaConvenciones utilizadas en este libroUtilizar ejemplos de códigoSafari O'ReillyCómo contactar con nosotrosAgradecimientosDe AndreasDe Sarah
1. Introducción
1.1. ¿Por qué aprendizaje automático?1.1.1. Problemas que puede resolver el aprendizaje automático1.1.2. Conocer tu tarea y conocer tus datos1.2. ¿Por qué Python?1.3. scikit-learn1.3.1. Instalación de scikit-learn1.4. Bibliotecas y herramientas esenciales1.4.1. Cuaderno Jupyter1.4.2. NumPy1.4.3. SciPy1.4.4. matplotlib1.4.5. pandas1.4.6. mglearn1.5. Python 2 frente a Python 31.6. Versiones utilizadas en este libro1.7. Una primera aplicación: La clasificación de las especies de lirios1.7.1. Conoce los datos1.7.2. Medir el éxito: Datos de entrenamiento y prueba1.7.3. Lo primero es lo primero: Mira tus datos1.7.4. Construir tu primer modelo: k-Primeros vecinos1.7.5. Hacer predicciones1.7.6. Evaluación del modelo1.8. Resumen y perspectivas
2. Aprendizaje supervisado
2.1. Clasificación y regresión2.2. Generalización, sobreajuste e infraajuste2.2.1. Relación entre la complejidad del modelo y el tamaño del conjunto de datos2.3. Algoritmos de aprendizaje automático supervisado2.3.1. Algunos conjuntos de datos de muestra2.3.2. Vecinos más próximos k2.3.3. Modelos lineales2.3.4. Clasificadores Naive Bayes2.3.5. Árboles de decisión2.3.6. Conjuntos de árboles de decisión2.3.7. Máquinas de vectores de apoyo kernelizadas2.3.8. Redes neuronales (aprendizaje profundo)2.4. Estimaciones de incertidumbre de los clasificadores2.4.1. La función de decisión2.4.2. Predecir probabilidades2.4.3. Incertidumbre en la clasificación multiclase2.5. Resumen y perspectivas
3. Aprendizaje no supervisado y preprocesamiento
3.1. Tipos de aprendizaje no supervisado3.2. Retos del aprendizaje no supervisado3.3. Preprocesamiento y escalado3.3.1. Diferentes tipos de preprocesamiento3.3.2. Aplicar transformaciones de datos3.3.3. Escalar los datos de entrenamiento y de prueba de la misma manera3.3.4. El efecto del preprocesamiento en el aprendizaje supervisado3.4. Reducción de la dimensionalidad, extracción de rasgos y aprendizaje múltiple3.4.1. Análisis de Componentes Principales (ACP)3.4.2. Factorización de matrices no negativas (NMF)3.4.3. Aprendizaje de Múltiples con t-SNE3.5. Agrupación3.5.1. Agrupación k-Means3.5.2. Agrupación aglomerativa3.5.3. DBSCAN3.5.4. Comparación y evaluación de los algoritmos de agrupación3.5.5. Resumen de los métodos de agrupación3.6. Resumen y perspectivas
4. Representación de datos y características de ingeniería
4.1. Variables categóricas4.1.1. Codificación en caliente (variables ficticias)4.1.2. Los números pueden codificar categorías4.2. OneHotEncoder y ColumnTransformer: Variables categóricas con scikit-learn4.3. Creación cómoda de ColumnTransformer con make_columntransformer4.4. Binning, Discretización, Modelos Lineales y Árboles4.5. Interacciones y polinomios4.6. Transformaciones no lineales univariantes4.7. Selección automática de rasgos4.7.1. Estadísticas univariantes4.7.2. Selección de rasgos basada en modelos4.7.3. Selección iterativa de rasgos4.8. Utilizar el conocimiento experto4.9. Resumen y perspectivas
5. Evaluación y mejora del modelo
5.1. Validación cruzada5.1.1. Validación cruzada en scikit-learn5.1.2. Ventajas de la validación cruzada5.1.3. Validación cruzada k-fold estratificada y otras estrategias5.2. Búsqueda en la parrilla5.2.1. Búsqueda simple en la parrilla5.2.2. El peligro de sobreajustar los parámetros y el conjunto de validación5.2.3. Búsqueda en cuadrícula con validación cruzada5.3. Métricas de evaluación y puntuación5.3.1. Ten presente el objetivo final5.3.2. Métricas para la clasificación binaria5.3.3. Métricas para la clasificación multiclase5.3.4. Métricas de regresión5.3.5. Uso de métricas de evaluación en la selección de modelos5.4. Resumen y perspectivas
6. Cadenas y tuberías de algoritmos
6.1. Selección de parámetros con preprocesamiento6.2. Construir tuberías6.3. Utilizar canalizaciones en las búsquedas en la parrilla6.4. La interfaz general de la tubería6.4.1. Creación cómoda de tuberías con make_pipeline6.4.2. Acceder a los atributos de los pasos6.4.3. Acceder a los atributos de una tubería dentro de GridSearchCV6.5. Pasos de preprocesamiento de la búsqueda en cuadrícula y parámetros del modelo6.6. Buscar en la parrilla qué modelo utilizar6.6.1. Evitar el cálculo redundante6.7. Resumen y perspectivas
7. Trabajar con datos de texto
7.1. Tipos de datos representados como cadenas7.2. Ejemplo de aplicación: Análisis de Sentimiento de las Críticas de Películas7.3. Representar datos de texto como una bolsa de palabras7.3.1. Aplicación de la bolsa de palabras a un conjunto de datos de juguete7.3.2. Bolsa de palabras para críticas de películas7.4. Palabras clave7.5. Reescalar los datos con tf-idf7.6. Investigación de los coeficientes del modelo7.7. Bolsa de palabras con más de una palabra (n-gramas)7.8. Tokenización avanzada, stemming y lematización7.9. Modelización de temas y agrupación de documentos7.9.1. Asignación latente de Dirichlet7.10. Resumen y perspectivas
8. Envolver
8.1. Planteamiento de un problema de aprendizaje automático8.1.1. Los humanos en el bucle8.2. Del prototipo a la producción8.3. Comprobación de los sistemas de producción8.4. Construir tu propio estimador8.5. ¿Hacia dónde nos dirigimos?8.5.1. Teoría8.5.2. Otros marcos y paquetes de aprendizaje automático8.5.3. Clasificación, sistemas de recomendación y otros tipos de aprendizaje8.5.4. Modelización probabilística, inferencia y programación probabilística8.5.5. Redes neuronales8.5.6. Escalar a conjuntos de datos más grandes8.5.7. Perfeccionar tus habilidades8.6. Conclusión
Índice

Content preview from Introducción al Aprendizaje Automático con Python

Capítulo 5. Evaluación y mejora del modelo

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Tras haber tratado los fundamentos del aprendizaje supervisado y no supervisado, y haber explorado diversos algoritmos de aprendizaje automático, ahora nos sumergiremos más profundamente en la evaluación de modelos y la selección de parámetros.

Nos centraremos en los métodos supervisados, regresión y clasificación, ya que la evaluación y selección de modelos en el aprendizaje no supervisado suele ser un proceso muy cualitativo (como vimos en elCapítulo 3).

Para evaluar nuestros modelos supervisados, hasta ahora hemos dividido nuestro conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba utilizando la función train_test_split, hemos construido un modelo en el conjunto de entrenamiento llamando al método fit, y lo hemos evaluado en el conjunto de prueba utilizando el método score, que para la clasificación calcula la fracción de muestras clasificadas correctamente. He aquí un ejemplo de ese proceso:

In[1]:

from sklearn.datasets import make_blobs
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# create a synthetic dataset
X, y = make_blobs(random_state=0)
# split data and labels into a training and a test set
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# instantiate a model and fit it to the training set
logreg =

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781098181703

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Introducción al Aprendizaje Automático con Python

by Andreas C. Müller, Sarah Guido

Capítulo 5. Evaluación y mejora del modelo

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.