Capítulo 1. Cómo los datos impulsan la toma de decisiones en el aprendizaje automático

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo explora el papel de los datos en la empresa y su influencia en la toma de decisiones empresariales. También aprenderás los componentes de un flujo de trabajo de aprendizaje automático (ML) en . Es posible que hayas visto que muchos libros, artículos, vídeos y blogs comienzan cualquier debate sobre el flujo de trabajo de ML con la recopilación de datos. Sin embargo, antes de recopilar datos, tienes que comprender qué tipo de datos recopilar. Esta comprensión de los datos de sólo puede lograrse sabiendo qué tipo de problema necesitas resolver o decisión necesitas tomar.

La definición del caso/problema empresarial y la comprensión de los datos pueden utilizarse para formular una estrategia de ML sin código o de bajo código. Un enfoque estratégico sin código o de bajo código para los proyectos de ML tiene varias ventajas/beneficios. Como se ha mencionado en la introducción, un enfoque de AutoML sin código de permite que cualquier persona con conocimientos del dominio en su área de especialización y sin experiencia en codificación desarrolle modelos de ML rápidamente, sin necesidad de escribir una sola línea de código. Se trata de una forma rápida y eficaz de desarrollar aplicaciones ML. Un enfoque de bajo código de permite a quienes tienen cierta o mucha experiencia en codificación, desarrollar aplicaciones de ML rápidamente porque el código básico se autogenera y se puede añadir cualquier código personalizado adicional. Pero, de nuevo, cualquier proyecto de ML debe comenzar con la definición de un objetivo, caso de uso o problema.

¿Cuál es el objetivo o caso de uso?

Las empresas, las instituciones educativas , las agencias gubernamentales y los profesionales se enfrentan a muchas decisiones que reflejan ejemplos del mundo real del ML. Por ejemplo:

  • ¿Cómo podemos aumentar la participación de los pacientes con nuestra aplicación web para la diabetes?

  • ¿Cómo podemos aumentar el número de respuestas de los alumnos en las encuestas de los cursos?

  • ¿Cómo podemos aumentar la rapidez en la detección de ciberataques contra las redes de nuestra empresa?

  • ¿Podemos disminuir el número de correos basura que entran en nuestros servidores de correo electrónico?

  • ¿Cómo reducimos el tiempo de inactividad en nuestra cadena de producción?

  • ¿Cómo podemos aumentar nuestra tasa de retención de clientes?

  • ¿Cómo reducimos la tasa de fuga de clientes?

En cada uno de esos ejemplos, hay que examinar numerosas fuentes de datos para determinar qué solución de ML es la más adecuada para resolver el problema o ayudar en la toma de decisiones. Tomemos el caso de uso de la reducción del churn o tasa de pérdida de clientes, utilizando un ejemplo muy simplista. La predicción de bajas consiste en identificar a los clientes que tienen más probabilidades de abandonar tu servicio o producto. Este problema se encuadra en el aprendizaje supervisado como un problema de clasificación con dos clases: la clase "abandono-sí" y la clase "abandono-no".

Desde el punto de vista de las fuentes de datos, puede que necesites examinar la información del perfil del cliente (nombre, dirección, edad, cargo, declaración de empleo), la información de compra (compras e historial de facturación), la información de interacción (experiencias del cliente al interactuar con tus productos [tanto digital como físicamente]), tus equipos de atención al cliente o tus servicios de asistencia digital. Las fuentes de datos más populares de información sobre clientes son los sistemas de gestión de relaciones con los clientes, los servicios de análisis de sistemas de comercio electrónico y las opiniones de los clientes. En esencia, todo lo que el cliente "toca" como punto de datos debe ser rastreado y capturado como fuente de datos.

La naturaleza de la decisión que debes tomar está directamente vinculada a los datos que tendrás que reunir para tomar esa decisión, que deben formularse en un planteamiento del problema. Supongamos que eres el responsable de marketing de una empresa que fabrica paraguas, y el objetivo empresarial es aumentar las ventas. Si reduces el precio de venta de los paraguas existentes, ¿puedes predecir cuántos paraguas venderás? La Figura 1-1 muestra los elementos de datos que hay que tener en cuenta para esta opción.

Data elements that impact a price reduction strategy to increase sales
Figura 1-1. Elementos de datos que influyen en una estrategia de reducción de precios para aumentar las ventas.

Como puedes ver en esta ilustración empresarial basada en datos, tu objetivo empresarial (aumentar las ventas) adquiere una nueva dimensión. Ahora te das cuenta de que, para comprender la reducción del precio de un producto, necesitas incluir otras dimensiones de datos aparte del precio de venta. Tendrás que conocer las temporadas de lluvias en regiones concretas, la densidad de población y si tu inventario es suficiente para satisfacer la demanda de una reducción de precios que aumente las ventas. También tendrás que fijarte en los datos históricos frente a los datos que pueden captarse en tiempo real. Los datos históricos suelen denominarse batch, mientras que la captura de datos en tiempo real suele denominarse streaming. Con estas dimensiones añadidas, el objetivo empresarial se convierte de repente en un problema muy complejo, ya que pueden ser necesarias estas columnas adicionales. Para cualquier organización, podrían existir ostensiblemente docenas de fuentes de datos discretas, y cada fuente requeriría ciertas habilidades para comprender las relaciones entre ellas. La Figura 1-2 es una ilustración de este reto.

A typical business data and ML experience today
Figura 1-2. Una experiencia típica de datos empresariales y ML en la actualidad.

¿Cuál es tu caso de uso? Depende. Tendrías que someterte a un proceso de toma de decisiones empresarial , que es el proceso de tomar decisiones formulando preguntas, recopilando datos y evaluando resoluciones alternativas. Una vez averiguado el caso de uso o el objetivo empresarial, puedes utilizar los mismos datos para entrenar máquinas que aprendan sobre los patrones de tus clientes, detecten tendencias y predigan resultados utilizando AutoML o IA de bajo código. La Figura 1-3 muestra nuestro ejemplo paraguas como un caso de uso empresarial que, a continuación, conduce a la determinación de la fuente de datos, el marco de ML, y y luego una predicción .

Business case that leads to predictions using ML framework
Figura 1-3. Caso empresarial que conduce a predicciones utilizando el marco ML.

Un flujo de trabajo de ML empresarial

Mientras que los procesos de toma de decisiones de te ayudan a identificar tu problema o caso de uso, es el flujo de trabajo de ML el que te ayuda a poner en práctica la solución a tu problema. Esta sección presenta un flujo de trabajo de ML típico. En nuestro ejemplo del paraguas en curso, podrías utilizar tus datos para entrenar un modelo ML utilizando un servicio AutoML que proporciona una solución sin código para ejecutar la agrupación ML no supervisada . A partir de ahí, podrías examinar agrupaciones de puntos de datos para ver qué patrones se derivan. O podrías decidir centrarte simplemente en los datos históricos para poder predecir un objetivo específico basándote en un número determinado de características de entrada de datos. ¿Qué aspecto tendría tu flujo de trabajo de ML empresarial? No es sorprendente que esté basado en datos y requiera la toma de decisiones en el proceso.

El flujo de trabajo del ML puede mostrarse como una serie de pasos, y los pasos pueden combinarse en fases. En la Figura 1-4 se muestran los 10 pasos, y a continuación comentamos brevemente cada uno de ellos. En capítulos posteriores se ofrecen ejemplos más detallados de cada paso.

Ten-step ML workflow
Figura 1-4. Flujo de trabajo del ML en diez pasos.
>

Definición del objetivo empresarial o planteamiento del problema

El flujo de trabajo de ML comienza con la definición de una pregunta o problema concreto con un límite definido. En esta fase intentas definir el alcance y la viabilidad. La pregunta correcta te conducirá a qué datos se necesitan y a las posibles formas en que deben prepararse los datos. Es importante tener en cuenta que cualquier pregunta que pueda surgir al analizar los datos puede agruparse en una de las cinco categorías de ML que se muestran en la Tabla 1-1. Sigamos con nuestro ejemplo del paraguas.

Tabla 1-1. Categorías de análisis de datos
Algoritmo/modelo Problema o pregunta
Problema de regresión ¿Cuántos paraguas esperas vender este mes/temporada?
Problema de clasificación ¿Compraron paraguas rectos (A) o plegables (B)?
Problema de agrupación ¿Cuántos paraguas rectos se vendieron por mes o por región?
Problema de detección de anomalías ¿Vendió la empresa más paraguas en el desierto de Mojave que en Portland, Oregón?
Aprendizaje por refuerzo La política de la empresa es enviar sólo a clientes con un saldo pendiente de 500 $ o menos. ¿Se puede entrenar a un robot de fabricación para que extraiga, empaquete, cargue y envíe paraguas rectos a nuestros clientes basándose en esta política?

Recogida de datos

En , a principios del siglo XXI, las empresas, las universidades y los investigadores solían confiar en servidores/discos duros locales o centros de datos para alojar sus aplicaciones de bases de datos y almacenar sus datos. Depender de centros de datos locales o incluso alquilar espacio para servidores en un centro de datos era costoso: había que mantener la infraestructura de servidores, actualizar el software, instalar parches de seguridad, cambiar el hardware físico, etc. En algunos casos, se almacenaban grandes cantidades de datos en un clúster de máquinas.

Hoy en día, para ahorrar costes, las empresas y las instituciones educativas se han pasado a la nube para alojar sus aplicaciones de bases de datos y almacenar sus datos. El almacenamiento en la nube, un servicio que ofrecen los proveedores de la nube para almacenar archivos, te permite subir distintos formatos de archivo o puede configurarse para recibir automáticamente archivos de distintas fuentes de datos. Dado que la mayoría de los modelos de ML se entrenan utilizando datos de archivos, almacenar tus datos en un cubo de almacenamiento en la nube facilita la recopilación de datos. Los cubos de almacenamiento en la nube pueden utilizarse para almacenar datos estructurados y no estructurados.

Otra opción para almacenar archivos de recogida de datos es GitHub, un servicio diseñado para colaborar en proyectos de codificación. Puedes almacenar datos en la nube para su uso futuro (de forma gratuita), realizar un seguimiento de los cambios y hacer que los datos estén disponibles públicamente para su replicación. Esta opción tiene límites estrictos de tamaño de archivo de 100 MB, pero existe la opción de utilizar Git Large File Storage (LFS), una extensión de GitHub de código abierto para versionar archivos grandes. Git LFS sustituye archivos grandes como conjuntos de datos, muestras de audio, gráficos y vídeos por punteros de texto dentro de Git, mientras almacena el contenido del archivo en un servidor remoto como GitHub.com o GitHub Enterprise.

El reto de la recopilación de datos se agrava en las grandes organizaciones, donde existen muchos tipos diferentes de software de gestión de operaciones, como la planificación de recursos empresariales, la gestión de relaciones con los clientes y los sistemas de producción, y pueden ejecutarse en diferentes bases de datos. También puede ser necesario obtener datos de fuentes externas en tiempo real, como los dispositivos sensores del Internet de las Cosas (IoT) de los camiones de reparto. Así, las organizaciones se enfrentan al reto de recopilar no sólo datos estructurados, sino también formatos de datos no estructurados y semiestructurados en lotes o en tiempo real (streaming). La Figura 1-5 muestra varios elementos de datos que alimentan la recogida de datos estructurados, no estructurados y semiestructurados.

Goal/problem flow to data collection
Figura 1-5. Flujo del objetivo/problema a la recogida de datos.
Nota

Es posible tener datos estructurados en streaming. Estructurado frente a no estructurado es una propiedad del formato de los datos. Streaming frente a batch es una propiedad de la latencia. El Capítulo 2 presenta más información sobre el formato de los datos y las propiedades de .

Preprocesamiento de datos

Para realizar una limpieza de datos, tendrás que enfrentarte a valores de datos que faltan, duplicados, datos atípicos, problemas de formato o datos incoherentes debidos a errores humanos. Esto se debe a que los datos del mundo real son brutos y desordenados y están llenos de suposiciones. Una suposición podría ser que tus datos tienen una distribución normal, lo que significa que los datos se distribuyen simétricamente sin sesgo, y que la mayoría de los valores se agrupan en torno a una región central, disminuyendo la frecuencia de los valores a medida que se alejan del centro (media o promedio).

Supón que tus datos muestran, por primera vez, un aumento del número de paraguas vendidos en agosto en Palm Springs, la ciudad del desierto de California. ¿Estarían tus datos distribuidos normalmente, o se considerarían un valor atípico? ¿Desvirtuaría los resultados de las predicciones sobre las ventas mensuales de paraguas en agosto? Cuando los datos no tienen una distribución normal, hay quenormalizarlos , haciéndolos normales agrupando todos los registros en un intervalo de [0,1] o [-1,1], por ejemplo. Normalizas un conjunto de datos para que sea más fácil y rápido entrenar un modelo de ML. La normalización se trata en el Capítulo 7.

Nota

Este ejemplo de normalización mín-máx puede tener efectos perjudiciales si hay valores atípicos. Por ejemplo, al escalar a [0,1], esencialmente mapea el valor atípico a 1 y aplasta todos los demás valores a 0. Abordar los valores atípicos y las anomalías está fuera del alcance de nuestro libro.

Así, el preprocesamiento de datos puede significar normalizar los datos (de forma que las columnas numéricas del conjunto de datos utilicen una escala común) y escalar los datos, lo que significa transformar tus datos para que se ajusten a un rango específico. Afortunadamente, la normalización y la estandarización se realizan fácilmente en Python con unas simples líneas de código. La Figura 1-6 muestra datos reales antes y después de la normalización y la estandarización.

Three images showing actual, normalized, and standardized data
Figura 1-6. Tres imágenes que muestran datos reales, normalizados y estandarizados.
Nota

Recopilar datos de una sola fuente puede ser un proceso relativamente sencillo. Sin embargo, si vas a agregar varias fuentes de datos en un solo archivo, asegúrate de que los formatos de los datos coinciden y de que se valida cualquier suposición relativa a los datos de series temporales (o a los intervalos de fecha y hora necesarios para tu modelo ML). Una suposición habitual es que los datos son estacionarios, es decir, que las propiedades estadísticas (media, varianza, etc.) no cambian a lo largo del tiempo .

Análisis de datos

Exploratorio El análisis de datos (AED) es un proceso utilizado para explorar y analizar la estructura de los datos. En este paso, buscas descubrir tendencias, patrones, relevancia de las características y correlaciones, como la forma en que una variable (característica) podría correlacionarse con otra. Debes seleccionar los datos de características relevantes para tu modelo ML en función del tipo de problema que intentas resolver. El resultado de este paso es una lista de características de variables de entrada que pueden utilizarse potencialmente para el ML. Nuestro ejercicio práctico utilizando EDA se encuentra en el Capítulo 6.

Las figuras 1-7 y 1-8 son el resultado de un proceso EDA trazado con Seaborn, una biblioteca de visualización de datos de Python (para más detalles sobre el conjunto de datos, véase el Capítulo 6 ). La Figura 1-7 muestra una relación inversa entre x e y. La Figura 1-8 muestra un mapa de calor (o matriz de correlaciones) e ilustra que se produce más energía cuando las temperaturas son más bajas.

Seaborn regplot showing that more energy is produced when temperatures are lower
Figura 1-7. Seaborn regplot que muestra que se produce más energía cuando las temperaturas son más bajas.
Seaborn correlation matrix (heat map) showing a strong inverse relationship between Temp and Energy_Production
Figura 1-8. Matriz de correlación Seaborn (mapa de calor) que muestra una fuerte relación inversa entre Temp y Energy_Production, -0,75.

Transformación de datos y selección de características

Después de limpiar y analizar los datos de , obtienes una lista de las características que crees que necesitas para ayudarte a resolver tu problema de ML. Pero, ¿podrían ser relevantes otras características? Aquí es donde entra en juego la ingeniería de características, en la que diseñas o creas nuevas características que no estaban en el conjunto de datos original. Por ejemplo, si tu conjunto de datos tiene campos/columnas separados para el mes, el día y el año, puedes combinar los tres para obtener una característica temporal "mes-día-año". La ingeniería de características es el último paso antes de la selección de características.

En realidad, la selección de características se produce en dos etapas: después del EDA y después de la transformación de los datos. Por ejemplo, después de EDA, deberías tener una lista potencial de características que pueden ser candidatas a crear nuevas características -por ejemplo, combinar la hora y el día de la semana para obtener una hora del día-. Después de realizar la ingeniería de características, tendrás una lista final de características entre las que seleccionar. La Figura 1-9 muestra la posición de la transformación de datos y la selección de características en el flujo de trabajo.

Position of data transformation and feature selection in the ML workflow
Figura 1-9. Posición de la transformación de datos y la selección de rasgos en el flujo de trabajo de ML .

Investigar la selección del modelo o utilizar AutoML (una solución sin código)

En este paso, o bien investigas el modelo más adecuado para el tipo de datos que se ajusta a tu problema, o bien puedes utilizar AutoML, una solución sin código que, basándose en el conjunto de datos que has cargado, selecciona el modelo adecuado, lo entrena, lo prueba y genera métricas de evaluación. Esencialmente, si utilizas AutoML, el trabajo pesado de la selección del modelo, el entrenamiento del modelo, el ajuste del modelo y la generación de métricas de evaluación se hace por ti. El Capítulo 3 presenta AutoML, y el Capítulo 4 comienza a ponerte manos a la obra con AutoML. Ten en cuenta que con una solución de bajo código , necesitarías saber qué modelo seleccionar.

Aunque AutoML puede cubrir alrededor del 80% de tus problemas de ML, es posible que quieras construir una solución más personalizada. En ese caso, es útil tener un conocimiento general de los tipos de problemas que pueden resolver los algoritmos ML. La elección del algoritmo depende exclusivamente del problema (como se ha comentado antes). En la Tabla 1-2, se añade una columna "Descripción" para describir con más detalle el tipo de problema del modelo ML.

Tabla 1-2. Describe el tipo de modelo
Problema o pregunta Problema Descripción
¿Cuánto o cuántos paraguas? Problema de regresión Los algoritmos de regresión se utilizan para tratar problemas con resultados continuos y numéricos. Suelen utilizarse para problemas que tratan cuestiones como cuánto o cuántos.
¿Compraron paraguas rectos (A) o plegables (B)? Problema de clasificación Un problema en el que la salida sólo puede ser una de un número fijo de clases de salida, como Sí/No o Verdadero/Falso, se denomina problema de clasificación. Dependiendo del número de clases de salida, el problema puede ser un problema de clasificación binario o multiclase.
La política de la empresa es enviar sólo a clientes con un saldo pendiente de 500 $ o menos. ¿Puede nuestro robot de fabricación ser entrenado para extraer, empaquetar, cargar y enviar paraguas rectos a nuestros clientes basándose en esta política? Aprendizaje por refuerzo Los algoritmos de refuerzo se utilizan cuando hay que tomar una decisión basada en experiencias de aprendizaje. El agente máquina aprende el comportamiento mediante ensayo y error en interacción con el entorno en continuo cambio. Esto proporciona una forma de programar agentes utilizando el concepto de recompensas y penalizaciones sin especificar cómo debe realizarse la tarea. Los programas de juego y los programas para el control de la temperatura son algunos ejemplos populares que utilizan el aprendizaje por refuerzo.

Entrenamiento, evaluación y ajuste del modelo

Antes de que un modelo ML pueda desplegarse en un entorno de producción, hay que entrenarlo, evaluarlo y probarlo. Entrenar un modelo ML es un proceso en el que se introducen instancias de datos almacenados (entrada) en un modelo ML (algoritmo). Como cada instancia de datos almacenada tiene una característica específica (recuerda nuestros ejemplos paraguas de los distintos tipos, precios, regiones vendidas, etc.), los patrones de estas instancias de datos pueden detectarse utilizando cientos de variables, y el algoritmo puede así aprender de los datos de entrenamiento cómo hacer una predicción generalizada basada en los datos.

Todo modelo de ML no sólo necesita ser entrenado, sino también evaluado. Para ello, se dispone de una muestra de datos, denominadaconjunto de datos de validación . El conjunto de validación mide lo bien que el modelo generaliza a datos no vistos o nuevos. El error de entrenamiento se utiliza para determinar lo bien que se ajusta el modelo a los datos, porque es en ellos en los que se ha entrenado el modelo.

Las métricas de evaluación del modelo deben elegirse o definirse de modo que se alineen con el problema o los objetivos empresariales. El ajuste del modelo debe mejorar el rendimiento del modelo medido por las métricas de evaluación. Por ejemplo, ¿hasta qué punto fueron precisas las predicciones de ventas de paraguas durante el mes de diciembre? ¿Pueden generalizarse estas predicciones para futuras previsiones? Ten en cuenta que el rendimiento satisfactorio es algo que debe venir dictado por las necesidades de la empresa y debe acordarse antes de iniciar cualquier compromiso de ML.

Nota

El conjunto de validación también se utiliza para determinar si el modelo se está sobreajustando. En el capítulo 8 se analiza el sobreajuste.

Prueba de modelos

No hay forma de saber si tu aplicación de predicción de paraguas puede generalizarse para futuras previsiones sin probar el modelo. Una vez que el conjunto de datos de entrenamiento se utiliza para ajustar el modelo a los datos, y el conjunto de datos de validación se utiliza para mejorar la precisión del modelo, pruebas el modelo con datos que nunca ha visto antes. Los datos de prueba se utilizan para evaluar el rendimiento del modelo.

Por ejemplo, supongamos que quieres crear una aplicación que pueda reconocer el color o el dibujo de un paraguas basándose en imágenes de los mismos. Entrenas un modelo proporcionándole imágenes de todos los paraguas etiquetados con un determinado color o patrón. Utilizas ese modelo en una aplicación móvil para reconocer el color o el dibujo de cualquier paraguas. La prueba consistiría en determinar el rendimiento del modelo a la hora de diferenciar los colores y los patrones de los paraguas.

La Figura 1-10 muestra la relación entre los conjuntos de datos de entrenamiento, validación y prueba.

Relationship between training, validation, and testing datasets in model deployment and model evaluation
Figura 1-10. Relación entre los conjuntos de datos de entrenamiento, validación, y prueba en la implementación y evaluación de modelos.

La Figura 1-11 ilustra esta relación entre los conjuntos de datos de entrenamiento, validación y prueba en cinco pasos del proceso. Para simplificar, no se muestra la flecha que vuelve al conjunto de datos en el paso 5, ya que una vez que un modelo se implementa como aplicación y empieza a recopilar datos, entran nuevos datos en el proceso que pueden sesgar los resultados del modelo original. (En este punto entras en el fascinante reino de las operaciones de aprendizaje automático, o MLOps, que queda fuera del alcance de este libro).

Five process steps of the ML workflow
Figura 1-11. Cinco pasos del proceso del flujo de trabajo del ML.

Implementación del modelo (Servir)

Una vez que el modelo ML está entrenado, evaluado y probado, se despliega en un entorno de producción en vivo donde puede utilizarse. Ten en cuenta que, cuando el modelo llega a producción, lo más probable es que tenga un frontend de aplicación web (mediante un navegador) que se comunica con el sistema de producción a través de una interfaz de programación de aplicaciones (API). Los datos pueden capturarse en tiempo real y transmitirse (ingerirse) en una canalización MLOps. O los datos pueden capturarse por lotes y almacenarse para su ingestión en el canal. O ambas cosas.

Mantener los modelos

Los modelos pueden anquilosarse cuando las predicciones no se ajustan al objetivo empresarial original o a las métricas de los casos de uso. El anquilosamiento puede producirse cuando cambia el mundo o cambian los requisitos empresariales. Estos cambios afectan al modelo. Después de la implementación, tienes que monitorear tu modelo para asegurarte de que sigue funcionando como esperabas. La desviación del modelo y de los datos es un fenómeno que debes esperar y estar preparado para mitigar mediante un reentrenamiento regular utilizando MLOps. Veamos un ejemplo de desviación de datos , es decir, cambios en los datos con los que te entrenaste y los datos que ahora se reciben de la aplicación web.

En nuestro ejemplo del paraguas, una región que antes experimentaba fuertes lluvias ahora experimenta condiciones de sequía. Del mismo modo, una región que antes experimentaba condiciones de sequía ahora está experimentando fuertes lluvias. Cualquier predicción relacionada con el tiempo y el clima y con la necesidad de paraguas y el tipo de paraguas se verá afectada. En este escenario, tendrías que volver a entrenar y probar un nuevo modelo con nuevos datos.

Resumen

Las empresas, las instituciones educativas, las agencias gubernamentales y los profesionales se enfrentan a muchas decisiones que reflejan ejemplos del mundo real del ML, desde el aumento del compromiso de los clientes hasta la reducción de la pérdida de clientes. Los datos -su recopilación, análisis y uso- impulsan la toma de decisiones utilizada en el ML para determinar el mejor enfoque estratégico de ML que proporcione soluciones reales a problemas del mundo real.

Mientras que los procesos de toma de decisiones te ayudan a identificar tu problema o caso de uso, es el flujo de trabajo de ML el que te ayuda a implementar la solución a tu problema. Un flujo de trabajo de ML empresarial se basa en datos y requiere la toma de decisiones en el proceso. El flujo de trabajo de ML puede mostrarse como una serie de 10 pasos, y los pasos pueden combinarse en cuatro fases:

  1. Toma de decisiones

  2. Tratamiento de datos

  3. Modelado

  4. Implementación

Cada fase del flujo de trabajo de ML puede implementarse utilizando AutoML o IA de bajo código. AutoML hace todo el trabajo pesado por ti. AutoML entrenará el modelo, lo ajustará, lo probará y te presentará métricas de evaluación. Tu papel es simplemente evaluar las métricas y determinar si cumplen tu objetivo empresarial o resuelven tu problema. AutoML se recomienda para experimentos rápidos y prototipos. También se utiliza en entornos de producción. Un enfoque de bajo código permite a quienes tienen cierta experiencia en codificación o una experiencia profunda en codificación utilizar código autogenerado que puede personalizarse más durante cualquier fase del flujo de trabajo de ML .

En este capítulo, has aprendido sobre la recopilación y el análisis de datos como parte del flujo de trabajo de ML. El Capítulo 2 proporciona una visión general de los conjuntos de datos utilizados en el libro, dónde encontrar fuentes de datos, tipos de archivos de datos y la diferencia entre datos por lotes, en flujo, estructurados, semiestructurados y no estructurados. También obtendrás experiencia práctica utilizando código Python básico para ayudarte a realizar EDA y resolver problemas de datos sucios.

Get IA de bajo código now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.