book

Aprender AutoML (Spanish Edition)

Name: Aprender AutoML (Spanish Edition)
Author: Kerem Tomak
ISBN: 0642572369309

by Kerem Tomak

April 2026

Intermediate

586 pages

17h 9m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prólogo de Thomas H. Davenport
Prólogo de Gregory Wheeler
Prefacio
Por qué escribí este libroA quién va dirigido este libroCómo está organizado este libroParte I: Fundamentos de AutoMLParte II: Técnicas básicas de AutoMLParte III: AutoML para diferentes tipos de datosParte IV: Producción y MLOpsParte V: Casos prácticosEstrategias de lectura para diferentes objetivosEnfoque de aprendizaje prácticoConvenciones utilizadas en este libroUso de los ejemplos de códigoO’Reilly Online LearningCómo contactarnosAgradecimientos
I. Fundamentos de AutoML
1. ¿Qué es el aprendizaje automático automatizado?
La creciente demanda de soluciones de aprendizaje automáticoCómo abordar la falta de talento en ciencia de datosDemocratizar el desarrollo de la IAAutoML en el panorama del aprendizaje automáticoBibliotecas de AutoML de código abiertoPlataformas de AutoML para empresasComparación de los principales marcos¿Quién debería usar AutoML?AutoML en todos los sectores: la transformación de los procesos empresarialesFinanzasSalud y ciencias de la vidaComercio minorista y comercio electrónicoFabricaciónOtros sectoresEl modelo de casos de uso por nivelesSuperar obstáculos: retos persistentes en AutoMLInterpretabilidad (el problema de la «caja negra»)Necesidad de personalización frente a automatizaciónDependencia de la calidad de los datos y solidezCostos computacionales e intensidad de recursosAbordar el sesgo y la equidadEscalabilidad y eficienciaEl horizonte: tendencias futuras que dan forma al AutoMLSinergia con los modelos de lenguaje grandes (LLMs) y los modelos baseBúsqueda de arquitectura neuronal (NAS) de próxima generaciónMadurez de la IA explicable multimodal (MXAI)Democratización continua a través de low-code/no-codeExpansión a la computación en el perímetro y el aprendizaje federadoResumen
2. El auge y el estado actual de AutoML
Los inicios de la automatización (antes de 2010): sentando las basesSelección de característicasBúsqueda de hiperparámetrosInvestigación sobre el metaaprendizajeLimitaciones de los primeros enfoquesPrimera generación (2010-2015): resolviendo el problema CASHAuto-WEKA (2013)Hyperopt (2013)SMAC (Configuración secuencial de algoritmos basada en modelos)Impacto y legado de la primera generaciónSegunda generación (2015-2020): resolviendo el problema de la usabilidad y las empresasAuto-sklearn (2015)PyCaret (2020)TPOT (Herramienta de optimización de procesos basada en árboles) (2016)H2O AutoMLGoogle Cloud AutoML (ahora parte de Vertex AI)Impacto y legado de la segunda generaciónTercera generación (2020–presente): Resolviendo el problema multimodal y de MLOpsAutoGluon (Amazon)Google Vertex AIMLJAR y AWS SageMaker AutopilotCapacidades clave de la tercera generaciónEl surgimiento del AutoML asistido por LLMResumen
3. Entender el proceso de AutoML
La arquitectura del aprendizaje automático automatizadoPreprocesamiento de datosEvaluación y limpieza de la calidad de los datosEstrategias para datos faltantesValidación de datos y comprobaciones de integridadIngeniería de característicasGeneración de características multinivelIngeniería de características específicas del dominioSelección y poda de característicasIntegración del aprendizaje de representacionesOptimización de hiperparámetrosEstrategias de búsqueda avanzadasOptimización multifidelidadDiseño del espacio de configuraciónOptimización con restricción presupuestariaBúsqueda de arquitectura neuronalIngeniería del espacio de búsquedaTécnicas de eficienciaBúsqueda de arquitectura con consideración del hardwareTransferencia de arquitectura y metaaprendizajeSelección, ensamblaje y apilamiento de modelosConstrucción de conjuntos impulsada por la diversidadTécnicas avanzadas de apilamientoSelección dinámica de conjuntosOptimización de conjuntos sensible a los recursosImplementación y monitoreo de modelosConsideraciones sobre la preparación para la producciónEscalabilidad y optimización del rendimientoMonitoreo y mantenimiento de modelosInterpretabilidad y explicabilidadIntegración y optimización de flujos de trabajoEstrategias de optimización entre etapasAsignación y gestión de recursosMecanismos de retroalimentación y aprendizaje continuoDesafíos y perspectivas futurasEscalabilidad y eficienciaRobustez y fiabilidadDemocratización y accesibilidadLa democratización: un arma de doble filoResumen
II. Técnicas básicas de AutoML
4. Preprocesamiento automatizado de datos e ingeniería de características
Conjunto de datos de trabajo: Plataforma de comercio electrónico RetailMartPerfilado inteligente de datos y evaluación de la calidadManejo y transformación inteligente de tipos de datosExtracción de características de fecha y horaCanales de preprocesamiento de textoIngeniería de características automatizadaAutomatización de la ingeniería de características tradicionalTécnicas avanzadas de aprendizaje de característicasSelección inteligente de características y gestión de la dimensionalidadPreprocesamiento de datos complejos y multimodalesCanales de preprocesamiento listos para producciónResumen
5. Optimización de hiperparámetros
El reto de la optimización de hiperparámetrosEl desafío del costo computacionalEl problema de la sensibilidadImpacto en el mundo realBúsqueda por cuadrícula frente a búsqueda aleatoria: sentando las basesBúsqueda por cuadrícula: sistemática pero limitadaBúsqueda aleatoria: una alternativa sorprendentemente eficazUna comparación prácticaImplementación modernaCuándo usar cada enfoqueLimitaciones de ambos enfoquesOptimización bayesiana: aprender de la experienciaLa idea centralModelos sustitutosFunciones de adquisiciónCasos de éxito del mundo realHerramientas modernas e implementaciónAWS SageMaker Ajuste automático de modelosTécnicas avanzadasConsideraciones prácticasLimitaciones y desafíosParada temprana y programación: trabajar de forma más inteligente, no más duraLa idea centralReducción sucesiva a la mitad: un enfoque de torneoHyperband: Automatización de la asignación de recursosReducción asíncrona sucesiva (ASHA)Entrenamiento basado en poblaciones: evolución durante el entrenamientoCongelación de capas: una nueva dimensión de fidelidadImplementación prácticaResultados en el mundo realCombinación con la optimización bayesianaCuándo funciona mejor la detención tempranaUna advertenciaOptimización multifidelidad: más allá de la simple detención tempranaEl paradigma de la multifidelidadMétodos avanzados de multifidelidadAplicación prácticaCaso práctico: optimización de una cartera de inversiones personal con HPO multifidelidadAntecedentes y definición del problemaConjunto de datos y característicasImplementación de la estrategia de multifidelidadImplementaciónGestión de recursos y resultadosIdeas clave y consideraciones prácticasEficacia de la detención tempranaPatrones de rendimiento por tipo de modeloEstrategia de asignación de recursosConsideraciones sobre la implementación en producciónLecciones para los profesionalesCuándo utilizar la optimización multifidelidadResumen

6. Búsqueda de arquitectura neuronal (NAS)
Comprender la búsqueda de arquitectura neuronalLos tres pilares de NASDiseño del espacio de búsqueda: definir los límitesEl arte de la restricciónTipos de espacios de búsquedaConsideraciones específicas de cada tareaEspacios de búsqueda especializados emergentesEspacios de búsqueda multiobjetivoEquilibrio entre eficiencia y descubrimientoLa revolución de NAS-BenchEstrategias de búsqueda: encontrar agujas en pajarLa evolución de las estrategias de búsquedaElegir tu estrategia de búsqueda: una perspectiva prácticaAprendizaje por refuerzo: el enfoque originalAlgoritmos evolutivos: búsqueda inspirada en la naturalezaNAS diferenciable: el cambio revolucionarioMétodos basados en gradientes y técnicas avanzadasEnfoques híbridos: lo mejor de ambos mundosElegir la estrategia adecuadaEstimación del rendimiento: el imperativo de la eficienciaSuperar la brecha de evaluaciónEl cuello de botella del entrenamientoEvaluación multifidelidad: menos entrenamiento, más aprendizajeBúsqueda de arquitectura de un solo paso: entrena una vez, evalúa muchasExtrapolación de la curva de aprendizajeProxies de costo cero: evaluación instantánea de la arquitecturaModelos sustitutos: aprender a predecir el rendimientoCombinación de enfoques para una eficiencia máximaNAS eficiente: cómo hacerlo prácticoLa revolución de la eficienciaCreación de sistemas NAS listos para producciónCompartir pesos: la base de un NAS eficienteRedes «Once-For-All»: Desacoplamiento del entrenamiento y la implementaciónEstrategias de búsqueda progresivaOptimización consciente del hardwareHerramientas de implementación en producción para arquitecturas descubiertas por NASProxies de costo cero para un filtrado rápidoPautas prácticas de implementaciónAplicaciones prácticas y herramientasNAS en el mundo real: integración e implementaciónAutoKeras: la simplicidad ante todoNNI: NAS de nivel empresarialRay Tune + Optuna: flexible y potenteCasos de éxito del sectorDel portátil a la producción: próximos pasosResumen
III. AutoML para diferentes tipos de datos
7. AutoGluon para datos tabulares
Configuración de AutoGluon y el entornoOpciones de instalaciónNotas específicas de la plataformaConfiguración de tu entorno de desarrolloConsideraciones de rendimientoRecomendaciones sobre el entorno en la nubeElegir el marco de AutoML adecuado para datos tabularesConceptos básicos de TabularPredictorCarga y exploración de datosEntrenamiento básico del modeloComprender los resultados de TabularPredictorDiferentes métodos de predicciónClasificación binaria y multiclaseClasificación binaria en detalleClasificación multiclaseTareas de regresiónDiferencias entre regresión y clasificaciónInterpretación del rendimiento de la regresiónPersonalización del comportamiento básicoProcesamiento automático de datos de AutoGluonDetección automática del tipo de característicaManejo de valores perdidosCodificación categóricaPersonalización avanzadaHiperparámetros personalizadosConfiguración avanzada de conjuntosControl de ingeniería de característicasOptimización del proceso de entrenamientoInterpretabilidad y depuración de modelosHerramientas de interpretabilidadManejo de escenarios de datos especialesCuándo usar la personalización avanzadaProyecto: Predicción de supervivencia en el TitanicVisión general del proyecto y contexto empresarialExploración y comprensión de datosModelo AutoGluon de referenciaIngeniería de características personalizadas para el TitanicInterpretación del modelo para TitanicEvaluación y comparación del rendimientoPreparación para la implementación del modeloResumen del proyecto e impacto en el negocioAmpliación de este proyectoConsistencia del flujo de datosMonitoreo y mantenimiento de modelos en producciónPrácticas de monitoreoHerramientas de monitoreo para AutoGluonResumen
8. AutoML para texto y procesamiento del lenguaje natural
MultiModalPredictor de AutoGluon para el procesamiento de texto¿Por qué MultiModalPredictor?Arquitecturas de modelos subyacentesRendimiento en el mundo realCreación de modelos de clasificación de textoTu primer modelo de clasificación de textoComprender la selección de modelosPautas para la optimización de hiperparámetrosCapacidades avanzadas de procesamiento de textoMás allá de la clasificación: tareas avanzadas de PLNLa revolución de Transformer y más alláConsideraciones específicas del dominioSelección de modelos para diferentes casos de usoAplicaciones de máxima precisiónAplicaciones equilibradasAplicaciones de alto rendimientoAplicaciones en el mundo real y rendimientoCasos prácticos del sectorInformación sobre el rendimientoConsideraciones para la implementación en producciónSelección de modelos para escenarios de implementaciónServicios gestionados frente a modelos personalizadosImplementación de modelos personalizados con SageMakerMonitoreo y mantenimientoMonitoreo del rendimiento y las operacionesDetección de desviaciones en los datosReentrenamiento y mejora continuaProyecto práctico: Clasificación de artículos de noticiasResumen
9. Predicción de series temporales con AutoGluon
Comprender el desafío de las series temporalesIntroducción a TimeSeriesPredictorModelos base y predicción sin entrenamiento previoLa arquitectura de Chronos-BoltImpacto real de la predicción sin entrenamiento previoManejo de escenarios complejos con múltiples seriesCapacidades avanzadas: regresores de covariablesImplementación de regresores de covariablesEl impacto empresarial de la integración de covariablesSelección de modelos y optimización de hiperparámetrosEl zoológico de modelosConfiguraciones preestablecidasConfiguración personalizada de hiperparámetrosEstrategias de evaluación y validaciónBacktesting y validación con conciencia temporalMétricas relevantes para el negocioImplementación en producción e integración en la nubeOpciones de implementación en AWSActualización y monitoreo de modelosProyecto práctico: Predicción de la demanda minoristaPreparación y exploración de datosEntrenamiento de modelos con funciones avanzadasAnálisis del impacto en el negocioDirecciones futuras y capacidades emergentesResumen
10. Visión artificial con AutoGluon
Comprender las capacidades de visión artificial de AutoGluonElegir entre modelos personalizados y servicios gestionadosCreación de conjuntos de datos de entrenamiento con SageMaker Ground TruthLa ventaja de MultiModalPredictorIntegración de modelos baseArquitecturas modernas de visión artificialCategorías de tareas y aplicacionesConfiguración de AutoGluon para la visión artificialInstalación y configuración del entornoConsideraciones sobre el hardwareVerificación y configuración básicaClasificación de imágenes con MultiModalPredictorTu primer modelo de clasificación de imágenesComprensión de los formatos de datos y el preprocesamientoSelección de la arquitectura del modelo y ajustes preestablecidosTécnicas avanzadas de clasificaciónDetección de objetos con AutoGluonComprender la detección de objetosConfiguración básica de la detección de objetosCapacidades mejoradas de detección de objetosAplicaciones avanzadas de detección de objetosAplicaciones de visión artificial multimodalCombinación de imágenes con datos tabularesIntegración de imágenes y textoProyecto de visión computacional en el mundo real: Clasificación automatizada de productos de comercio electrónicoProyecto: Clasificación automatizada de productos de comercio electrónicoPreparación y exploración de datosCreación del sistema de clasificación multimodalAnálisis del rendimiento e interpretabilidad del modeloIntegración con sistemas de comercio electrónicoOptimización del rendimiento y buenas prácticasEstrategias de optimización de hardwareMonitoreo y mantenimiento del modeloConsideraciones para la implementación en producciónControl de versiones y actualizaciones del modeloImplementación de SageMaker EndpointInferencia sin servidor de SageMaker para una implementación rentableAWS Panorama para la implementación en el perímetroServicio de procesamiento por lotes escalableResumen
IV. Producción y MLOps
11. Integración de flujos de trabajo con herramientas MLOps
Comprender el panorama de la integración de AutoML y MLOpsEl desafío de la escalabilidadLa necesidad de reproducibilidadSeguimiento de experimentos y gestión de modelosOrganización jerárquica de experimentosEstrategias de gestión de artefactosOrquestación de flujos de trabajo con KubeflowDiseño de flujos de trabajo compatibles con AutoMLGestión y optimización de recursosPatrones de implementación en producciónValidación automatizada y control de calidadInfraestructura de servicio dinámicoMonitoreo y mantenimiento operativosMonitoreo y gobernanzaRequisitos de monitoreo específicos de AutoMLMarcos de gobernanza y cumplimientoDesafíos y soluciones de integraciónEl desafío de la explosión de artefactosGarantizar la reproducibilidad en los sistemas automatizadosTender puentes entre los ámbitos técnico y empresarialBuenas prácticas y directrices de implementaciónDesarrollo de capacidades progresivasAlineación y gestión de expectativasGestión de riesgos y sistemas paralelosLa observabilidad como baseAprendizaje y adaptación organizacionalResumen
12. Automatización del flujo de datos con Apache Airflow
Comprender los requisitos del flujo de datos para AutoMLArquitectura de Airflow para flujos de trabajo de aprendizaje automáticoComponentes principalesTerminología clave de AirflowDiseño de DAG para la ingesta de datos en AutoMLEjemplo práctico: DAG completo de ingesta de datos de AutoMLInicialización y configuración de DAGComprender el comportamiento de recuperaciónAsignación dinámica de tareas para el procesamiento paraleloPipelines de ingeniería de características y almacenes de característicasManejo de datos que llegan tardeContratos de datos y evolución de esquemasMonitoreo y controles de calidad de datosEscalado de Airflow para AutoML empresarialExcelencia operativa y buenas prácticasResumen
13. Implementación y entrega continua para AutoML
Los retos únicos de la implementación de AutoMLIntegración continua para el aprendizaje automáticoValidación de la implementación en sombraCanales de implementación continuaEstrategias de prueba para modelos automatizadosPruebas de contratosPruebas basadas en propiedadesPruebas metamórficasPruebas adversariasEmpaquetado y contenedorización de modelosEjemplo práctico: implementación del modelo de predicción de ingresos de adultosInfraestructura de servicio de modelosMonitoreo y observabilidad en producciónPila de monitoreo Prometheus–Grafana de monitoreoDetección de desviaciones con EvidentlyConsideraciones de seguridad y cumplimientoSanización de entradas y prevención de DoSDefensas contra ataques adversariosAprendizaje continuo y bucles de retroalimentaciónResumen
V. Casos prácticos
14. Caso práctico 1: Servicios financieros: detección de fraudes en tiempo real en GlobalBank
Problema empresarial y contextoCriterios de éxitoCanalización y preparación de datosArquitectura del canal de datosConsideraciones sobre el canal de datos de producciónIngeniería de características1. Características temporales: el fraude tiene un horario2. Características de velocidad: los estafadores actúan rápido3. Desviaciones de comportamiento: detectar lo inusual4. Puntuación de riesgo de los comerciantes5. Confianza en el dispositivoResumen del impacto de las característicasDesarrollo de modelos con AutoGluonPonderación de muestras para el aprendizaje sensible al costoConfiguración de AutoGluon¿Por qué PR-AUC en lugar de ROC-AUC?Resultados del entrenamiento del modeloEvaluación e interpretabilidad del modeloBúsqueda del umbral óptimoInterpretabilidad del modelo con SHAPArquitectura de implementaciónServicio de inferencia FastAPIEstrategia de degradación gradualMonitoreo y mantenimientoDetección de desviaciones con PSIPipeline de reentrenamiento automatizadoPruebas A/B para actualizaciones de modelosResultados y lecciones aprendidasMétricas de rendimientoImpacto en el negocioLecciones claveLa división adecuada del trabajoResumen
15. Caso práctico 2: Comercio minorista: previsión de la demanda omnicanal
Problema empresarial y contextoEl desafío de la escalaLa llamada de atenciónObjetivos del proyectoDesafíos de datos: integración de múltiples fuentesDatos de punto de ventaDatos de comercio electrónicoDatos de inventarioDatos de marketing y promocionesDatos meteorológicosSeñales externasArquitectura del flujo de datosDecisiones clave sobre datosIngeniería de características: Captura de los factores que impulsan la demandaMétricas alineadas con el negocioCaracterísticas temporales (línea de base)Características de comportamiento omnicanal (alto impacto)Demanda impulsada por el clima (específica de cada categoría)Características promocionales (interacciones complejas)Demanda impulsada por eventosAtributos específicos de SKUDesarrollo del modelo: AutoGluon para series temporales a gran escalaEl enfoque de AutoML¿Por qué usar Tabular AutoML para series temporales?Estrategia de entrenamiento: divisiones basadas en el tiempoPrevisión multihorizonteConfiguración de AutoGluonDecisiones clave de configuraciónManejo de la escasez de datos (SKU de cola larga)Infraestructura de entrenamientoEvaluación: métricas de negocio frente a métricas de modeloRendimiento del modelo (MAPE por horizonte de pronóstico)MAPE promedio ponderado (alineado con el negocio)Métricas de impacto en el negocioRendimiento específico por categoríaPrecisión de las previsiones promocionalesAnálisis del sesgo de las previsionesImplementación: canal de previsión en producciónArquitectura del pipelinePila tecnológicaServicio de previsionesMonitoreo: cómo mantener la precisión de las previsionesDetección de desviacionesResultados empresariales y lecciones aprendidasImpacto cuantificado en el negocio (12 meses después del lanzamiento)Beneficios inesperadosFactores críticos de éxitoLo que haríamos de otra maneraLecciones para tu proyecto de pronóstico de demandaCuándo AutoML destaca en la previsión de la demandaResumen
16. Caso práctico 3: Salud — Predicción de readmisiones de pacientes
El reto empresarialLa restricción más difícil: la equidadLa situación actualObjetivos del proyectoDesafíos de datos y cumplimiento de la HIPAAFuentes de datos e integraciónPatrones de datos faltantesProblemas de calidad de los datosIngeniería de características: datos estructurados y no estructuradosCategoría 1: Datos demográficos y determinantes sociales (42 características)Categoría 2: Complejidad clínica y comorbilidades (68 características)Categoría 3: Historial de utilización (53 características)Categoría 4: Características de la consulta actual (87 características)Categoría 5: Incrustaciones de notas clínicas (64 características)Categoría 6: Características temporales y de interacción (33 características)Desarrollo de modelos: AutoML con conciencia de equidadEl desafío de la equidadMétricas de equidad definidasModelo de referencia: AutoGluon estándar (sin restricciones de equidad)Enfoque 1: Eliminar atributos protegidosEnfoque 2: Eliminación de sesgos mediante adversariosEnfoque 3 (final): Conjunto consciente de la equidad con reponderaciónConfiguración final del modeloEvaluación: métricas de rendimiento y equidadRendimiento del modelo (general)Métricas de equidad por razaEquidad por grupo de edadImportancia de las características (las 20 principales según SHAP)Métricas de negocioImplementación: integración en el flujo de trabajo clínicoArquitectura de predicción en tiempo realIntegración de EHR (Epic)Alerta de apoyo a la toma de decisiones clínicasFlujo de trabajo de gestión de la atenciónFormación de profesionales clínicos y gestión del cambioInterpretabilidad para los profesionales clínicosConsideraciones normativasMonitoreo: desviación y equidadEstrategia de monitoreo de tres nivelesCalendario de reciclajeResultados empresariales y lecciones aprendidasResultados clínicosEquidad en la prácticaBeneficios inesperadosFactores críticos de éxitoLo que haríamos de otra maneraLecciones para tu proyecto de readmisiónCuando AutoML destaca en el sector de la saludEl plan de AutoML para producción: una gran síntesisLos patrones universales del AutoML de producciónLa lista de verificación de preparación para la producciónReflexiones finalesResumen
Epílogo: La silenciosa revolución de AutoML
La promesa original, cumplidaLas suposiciones en las que nos basamosLa disrupción del modelo de baseDe la automatización a la autonomíaCómo es realmente el AutoML agencialLa nueva brecha de habilidadesPor qué todo lo que aprendiste sigue siendo importanteLa cuestión de la gobernanza que nadie respondeEl camino por delanteUnas últimas palabras
Índice
Sobre el autor

Content preview from Aprender AutoML (Spanish Edition)

Capítulo 4. Preprocesamientoautomatizado de datos e ingeniería de características

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Nunca olvidaré el proyecto que me enseñó el costo real de un mal preprocesamiento de datos. Era 2006, y yo trabajaba como consultor para una startup de optimización de precios que quería predecir el riesgo de reingreso de pacientes para un proyecto de fijación de precios de seguros usando sus registros médicos electrónicos. Tres meses después, había dedicado el 80 % de su tiempo a lidiar con problemas de calidad de datos y aún no había entrenado ni un solo modelo significativo. Cuando finalmente automatizamos gran parte del proceso de preprocesamiento utilizando técnicas modernas de AutoML, la transformación fue espectacular: lo que había llevado tres meses de trabajo manual se redujo a tres días de procesamiento automatizado.

Esta experiencia puso de manifiesto una verdad fundamental sobre el aprendizaje automático: el preprocesamiento de datos no es solo un mal necesario, sino que a menudo es el factor más crítico que determina el éxito o el fracaso de un proyecto. El famoso dicho de que los científicos de datos dedican el 80 % de su tiempo a la preparación de datos no es solo una leyenda; ha sido validado por múltiples encuestas del sector. Según una encuesta de CrowdFlower (ahora Appen), los científicos de datos dedican el 80 % de su tiempo a buscar, limpiar y organizar datos. ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572369309

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Aprender AutoML (Spanish Edition)

by Kerem Tomak

Capítulo 4. Preprocesamientoautomatizado de datos e ingeniería de características

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.