book

Creación de sistemas de aprendizaje automático con un almacén de características

by Jim Dowling

November 2025

Intermediate to advanced

508 pages

16h 53m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

¿Por qué escribí este libro?Lectores a los que va dirigido este libroLo que este libro no esResumen del libroConvenciones utilizadas en este libroUso de ejemplos de códigoAprendizaje en línea de O'ReillyCómo ponerse en contacto con nosotrosAgradecimientos
Anatomía de un sistema de aprendizaje automáticoTipos de aprendizaje automáticoFuentes de datosDatos mutablesBreve historia de los sistemas de aprendizaje automáticoMLOps y LLMOpsUna arquitectura unificada para sistemas de IA: canalizaciones de características, entrenamiento e inferenciaClases de sistemas de IA con un almacén de característicasMarcos de aprendizaje automático e infraestructura de aprendizaje automático utilizados en este libroResumen
Creación de sistemas de aprendizaje automático con procesos de aprendizaje automáticoServicio de predicción mínimo viableEscritura de código modular para canalizaciones de MLUna taxonomía para las transformaciones de datos en procesos de aprendizaje automáticoTipos de características y transformaciones dependientes del modeloCaracterísticas reutilizables con transformaciones independientes del modeloCaracterísticas en tiempo real con transformaciones bajo demandaLa taxonomía de la transformación de ML y los procesos de MLCanales de característicasCanales de entrenamientoCanales de inferenciaLa supervivencia del Titanic como sistema de ML construido con procesos de MLResumen
Descripción general del sistema de IADatos sobre la calidad del aireAnálisis exploratorio de conjuntos de datosDatos sobre la calidad del aireDatos meteorológicosCreación y relleno de grupos de característicasTubería de característicasProceso de entrenamientoProceso de inferencia por lotesEjecución de los procesosProgramación de los procesos como una acción de GitHubCreación del panel de control como página de GitHubLlamada de funciones con LLMsResumen y ejercicios
Un almacén de características para la predicción del fraudeBreve historia de los almacenes de característicasAnatomía de un almacén de características¿Cuándo necesitas un almacén de características?Para el contexto y el historial en sistemas de ML en tiempo realPara datos de series temporalesPara mejorar la colaboración con la arquitectura de canalizaciones de FTIPara la gobernanza de los sistemas de aprendizaje automáticoPara el descubrimiento y la reutilización de activos de IAPara la eliminación del sesgo de características offline-onlinePara centralizar tus datos para IA en una única plataformaGrupos de característicasLos grupos de características almacenan datos de características sin transformarDefiniciones de características y grupos de característicasEscribir en grupos de característicasModelos de datos para grupos de característicasModelado de dimensiones con un data mart de tarjetas de créditoSistema de aprendizaje automático para la detección de fraudes con tarjetas de crédito en tiempo realModelo de datos del almacén de características para la inferenciaInferencia en líneaInferencia por lotesLectura de datos de características con una vista de característicasDatos de entrenamiento correctos en un momento determinado con vistas de característicasInferencia en línea con una vista de característicasResumen y ejercicios
Proyectos de HopsworksAlmacenamiento de archivos en un proyectoControl de acceso dentro de los proyectosControl de acceso a nivel de clúster mediante proyectosGrupos de característicasControl de versionesAlmacén en líneaTienda sin conexión (tablas Lakehouse)Captura de datos modificados para grupos de característicasVistas de característicasSelección de característicasTransformaciones dependientes del modeloCreación de vistas de característicasDatos de entrenamiento como marcos de datos o archivosDatos de inferencia por lotesDatos de inferencia en líneaConsultas más rápidas para datos de característicasResumen y ejercicios
Organización del código fuenteCanales de característicasTransformaciones de datos para marcos de datosTransformaciones que conservan el tamaño de las filasTransformaciones que reducen el tamaño de las filas y columnasTransformaciones que aumentan el tamaño de las filas/columnasTransformaciones de uniónDAG de funciones de característicasDataFrames perezososCálculo vectorizado, multinúcleo y ArrowTipos de datosCaracterísticas del fraude con tarjetas de créditoComposición de transformacionesResumen y ejercicios

Transformaciones de característicasCodificación de variables categóricasDistribuciones de variables numéricasTransformación de variables numéricasAlmacenamiento de datos de características transformados en un grupo de característicasTransformaciones específicas del modeloMétodos de tratamiento de valores atípicosImputación de valores perdidosLimpieza de datos como transformaciones basadas en modelosTransformaciones dependientes del objetivo o la etiquetaLas características costosas se calculan cuando es necesarioTokenizadores y plantillas de chat para LLMsTransformaciones en los procesos de Scikit-LearnTransformaciones en vistas de característicasTransformaciones bajo demandaTransformaciones en PyTorchUso de pytestPruebas unitariasUna metodología de pruebasResumen y ejercicios
Pipelines de características por lotesCanalización de características Fuentes de datosFuentes de datos por lotesFuentes de datos en streamingDatos no estructurados en almacenes de objetos y sistemas de archivosFuentes API y SaaSDatos sintéticos de tarjetas de crédito con LLMsUn modelo lógico para el data mart y el LLMSolicitudes de LLM para generar datos sintéticosRelleno y actualizaciones incrementalesSondeo y CDC para datos incrementalesRelleno y procesamiento incremental en un solo programaOrquestadores de tareasModalTrabajos de HopsworksOrquestadores de flujos de trabajoAirflowProveedor de nube Orquestadores de flujos de trabajoContratos de datosValidación de datos con Great Expectations en HopsworksResumen y ejercicios
Los sistemas interactivos con IA necesitan funciones en tiempo realPlataformas de transmisión de eventos¿Desplazamiento hacia la izquierda o hacia la derecha?Arquitecturas Shift-RightArquitecturas Shift-LeftEscritura de canalizaciones de características en streamingProgramación de flujo de datosTransformaciones de datos con y sin estadoApache FlinkFelderaAgregaciones por ventanasAgregaciones continuasAgregaciones de ventana temporalElección del mejor tipo de ventana para las agregacionesAgregaciones continuas con vistas incrementalesFunciones de streaming para el fraude con tarjetas de créditoUniones ASOF y composición de transformacionesCaracterísticas retardadas y canalizaciones de características en FelderaResumen y ejercicios
Datos no estructurados y etiquetas en grupos de característicasAprendizaje autodirigido y no supervisadoEl aprendizaje supervisado requiere una etiquetaGrupos de características raíz y etiquetaSelección de característicasDatos de entrenamientoDivisión de los datos de entrenamientoDatos de entrenamiento reproduciblesEntrenamiento de modelosArquitectura del modeloPuntos de control para recuperarse de fallosAjuste de hiperparámetros con Ray TuneEntrenamiento distribuido con RayAjuste eficiente de parámetros de LLMsModelo de fraude con tarjetas de crédito con XGBoostIdentificación de cuellos de botella en el entrenamiento distribuidoEvaluación y validación de modelosRendimiento del modelo para clasificación y regresiónInterpretabilidad del modeloPruebas de sesgo del modeloFormatos de archivo de modelos y registro de modelosTarjetas de modelosResumen y ejercicios
Canales de inferencia por lotesPredicciones por lotes para un intervalo de tiempoPredicciones por lotes para entidadesEscalado de la inferencia por lotes con PySparkModelado de datos para la inferencia por lotesInferencia por lotes para redes neuronalesInferencia por lotes para LLMsCanales de inferencia en líneaGarantizar la coherencia entre el modo offline y el modo online para las bibliotecasImplementaciones de modelos con FastAPIImplementaciones de LLMAPI de implementación para modelos y vistas de característicasMarcos de servicio de modelos con KServeRendimiento y gestión de fallosUDF de modo mixtoUDF nativas y registro y esperaGestión de fallos en canalizaciones de inferencia en líneaSLO de implementación de modelosInferencia con modelos integradosAplicaciones integradas con IAAplicaciones con IA habilitadas para el procesamiento de flujosInterfaces de usuario para aplicaciones con IA en PythonResumen y ejercicios
De los LLMs a los agentesGestión de promptsIngeniería de promptsVentana de contextoAgentes y flujos de trabajo con LlamaIndexGeneración aumentada por recuperaciónRecuperación con un almacén de documentosRecuperación con un almacén de característicasRecuperación con una base de datos gráficaHerramientas y LLMs de llamada de funcionesProtocolo de contexto de modelosProtocolo de agente a agente (A2A)De flujos de trabajo LLM a agentesPlanificaciónRetos de seguridadRepresentaciones específicas del dominio (intermedias)Proceso de desarrollo de agentesImplementaciones de agentes en HopsworksResumen y ejercicios
Pruebas sin conexiónDe desarrollo a producciónContenedorización y trabajos automáticosEntornos y trabajos en HopsworksTrabajos modalesPruebas de CI/CD para sistemas de IAPruebas de canalización de característicasPruebas del proceso de formación para el rendimiento y el sesgo del modeloPruebas de implementaciones de modelosPruebas A/B para la inferencia por lotesEvaluaciones para agentesGobernanzaEtiquetas esquematizadasLinajeControl de versionesRegistros de auditoríaResumen y ejercicios
Registro y métricas para modelos de MLRegistro para modelos por lotes y en líneaMétricas para modelos en líneaMétricas para modelos por lotesFunciones y modelos de monitoreoDesviación en la ingesta de datosDesviación de características univariantesDesviación de características multivariantesMonitoreo de incrustaciones vectorialesMonitoreo de modelos con NannyMLCuándo volver a entrenar o rediseñar un modeloRegistro y métricas para agentesDe los registros a los rastros con agentesAnálisis de erroresBarreras de seguridadPruebas A/B en líneaJailbreaking e inyección de promptsMétricas LLMResumen y ejercicios
Introducción a los recomendadoresUn recomendador de TikTok con arquitectura de recuperación y clasificaciónRecomendador personalizado en tiempo realCanales de funcionesCanales de formaciónCanalización de inferencia en líneaBúsqueda agencial de vídeosLas doce falacias más comunes de MLOpsLas responsabilidades éticas de los creadores de IAResumen

Content preview from Creación de sistemas de aprendizaje automático con un almacén de características

Capítulo 6. Transformacionesindependientes del modelo

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Ahora nos centraremos en cómo escribir la lógica de transformación de datos para los canales de características. Como explicamos en el capítulo 2, los canales de características son programas que ejecutan transformaciones de datos independientes del modelo para producir características reutilizables que se almacenan en el almacén de características. Es decir, los datos de características creados podrían ser utilizados por muchos modelos diferentes, no solo por el primer modelo para el que estás desarrollando el canal de características. La reutilización de características da como resultado características de mayor calidad gracias al aumento de su uso y prueba, la reducción de los costes de almacenamiento y la reducción de los costes operativos y de desarrollo de características. Y recuerda, el canal de características más económico es aquel que no tienes que crear.

Algunos ejemplos de transformaciones independientes del modelo (MIT) son las transformaciones de extracción, validación, agregación y compresión (EVAC):

Extracción de características (características retardadas, agrupación y fragmentación para LLMs)
Validación de datos (con Great Expectations) y limpieza de datos
Agregación (recuentos y sumas para ventanas de tiempo)
Compresión (incrustaciones vectoriales)

También veremos cómo podemos componer ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Fundamentos de la visualización de datos

Publisher Resources

ISBN: 0642572279486Supplemental Content

Creación de sistemas de aprendizaje automático con un almacén de características

by Jim Dowling

Capítulo 6. Transformacionesindependientes del modelo

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Fundamentos de la visualización de datos

Fundamentos de la ingeniería de software

Aprendizaje automático práctico para visión por ordenador

Desarrollo sin servidor en AWS

Publisher Resources

Capítulo 6. Transformacionesindependientes del modelo

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Fundamentos de la visualización de datos

Fundamentos de la ingeniería de software

Aprendizaje automático práctico para visión por ordenador

Desarrollo sin servidor en AWS

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.