book

Escalar el aprendizaje automático con Spark

Name: Escalar el aprendizaje automático con Spark
Author: Adi Polak
ISBN: 9781098199616

by Adi Polak

September 2024

Intermediate to advanced

294 pages

9h 46m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
¿Quién debería leer este libro?¿Necesitas aprendizaje automático distribuido?Navegar por este libroLo que no está cubiertoEl entorno y las herramientasLas herramientasLos conjuntos de datosConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
1. Terminología y conceptos del aprendizaje automático distribuido
Las etapas del flujo de trabajo del aprendizaje automáticoHerramientas y tecnologías en el proceso de aprendizaje automáticoModelos informáticos distribuidosModelos de uso generalModelos informáticos distribuidos dedicadosIntroducción a la Arquitectura de Sistemas DistribuidosSistemas centralizados frente a descentralizadosModelos de interacciónComunicación en un entorno distribuidoIntroducción a los métodos de conjuntoSesgo alto frente a sesgo bajoTipos de métodos de conjuntoTopologías de entrenamiento distribuidoLos retos de los sistemas distribuidos de aprendizaje automáticoRendimientoGestión de recursosTolerancia a fallosPrivacidadPortabilidadConfigurar tu entorno localCapítulos 2-6 Tutoriales EntornoCapítulos 7-10 Tutoriales EntornoResumen
2. Introducción a Spark y PySpark
Arquitectura de Apache SparkIntroducción a PySparkConceptos básicos de Apache SparkArquitectura de softwarePySpark y la programación funcionalEjecutar código PySparkpandas DataFrames frente a Spark DataFramesScikit-Learn frente a MLlibResumen
3. Gestión del ciclo de vida de los experimentos de aprendizaje automático con MLflow
Requisitos de la gestión del ciclo de vida del aprendizaje automático¿Qué es MLflow?Componentes de software de la plataforma MLflowUsuarios de la Plataforma MLflowComponentes MLflowSeguimiento MLflowProyectos MLflowModelos MLflowRegistro de modelos MLflowUtilizar MLflow a escalaResumen
4. Ingestión de datos, preprocesamiento y estadísticas descriptivas
Ingestión de datos con SparkTrabajar con imágenesTrabajar con datos tabularesPreprocesamiento de datosPreprocesamiento frente a procesamiento¿Por qué preprocesar los datos?Estructuras de datosTipos de datos MLlibPreprocesamiento con Transformadores MLlibPreprocesamiento de datos de imagenGuarda los datos y evita el problema de los archivos pequeñosEstadística descriptiva: Conocer los datosCálculo de estadísticasEstadísticas descriptivas con Spark SummarizerAsimetría de los datosCorrelaciónResumen
5. Ingeniería de características
Características y su impacto en los modelosHerramientas de featurización MLlibExtractoresSelectoresEjemplo: Word2VecEl proceso de featurización de imágenesComprender la manipulación de imágenesExtraer características con las API de SparkEl proceso de texturizaciónBolsa de palabrasTF-IDFN-GramaTécnicas adicionalesEnriquecer el conjunto de datosResumen
6. Entrenamiento de modelos con Spark MLlib
AlgoritmosAprendizaje automático supervisadoClasificaciónRegresiónAprendizaje automático no supervisadoMinería de patrones frecuentesAgrupaciónEvaluandoEvaluadores supervisadosEvaluadores no supervisadosHiperparámetros y experimentos de ajusteConstruir una parrilla de parámetrosDividir los datos en conjuntos de entrenamiento y de pruebaValidación cruzada: Una forma mejor de probar tus modelosPipelines de aprendizaje automáticoConstruir una tubería¿Cómo funciona la división con la API Pipeline?PersistenciaResumen
7. Tendiendo puentes entre Spark y los marcos de aprendizaje profundo
El enfoque de los dos gruposImplementar una capa de acceso a datos dedicadaCaracterísticas de un DALSeleccionar un DAL¿Qué es Petastorm?Convertidor de conjuntos de datos SparkPetastorm como tienda de parquéProyecto HidrógenoModo de ejecución de la barreraProgramación respetuosa con el aceleradorBreve introducción a la API del Estimador HorovodResumen
8. Enfoque de aprendizaje automático distribuido TensorFlow
Una rápida visión general de TensorFlow¿Qué es una red neuronal?Funciones y responsabilidades del proceso del clúster TensorFlowCargar datos de parquet en un conjunto de datos TensorFlowUna mirada al interior de las estrategias de aprendizaje automático distribuido de TensorFlowParámetroEstrategiaServidorEstrategia de almacenamiento central: Una máquina, varios procesadoresEstrategia en espejo: Una máquina, varios procesadores, copia localEstrategiaMultitrabajadorMirrored: Múltiples Máquinas, SincrónicoTPUStrategia¿Qué cosas cambian cuando cambias de estrategia?API de formaciónAPI KerasBucle de entrenamiento personalizadoAPI del estimadorPonerlo todo juntoSolución de problemasResumen
9. Enfoque de aprendizaje automático distribuido PyTorch
Una rápida visión general de los fundamentos de PyTorchGráfico de cálculoMecánica y conceptos de PyTorchEstrategias distribuidas PyTorch para entrenar modelosIntroducción al enfoque distribuido de PyTorchEntrenamiento en paralelo con datos distribuidosFormación distribuida basada en RPCTopologías de comunicación en PyTorch (c10d)¿Qué podemos hacer con las API de bajo nivel de PyTorch?Cargar datos con PyTorch y PetastormGuía de resolución de problemas para trabajar con Petastorm y PyTorch distribuidoEl enigma de los tipos de datos no coincidentesEl misterio de los trabajadores rezagados¿En qué se diferencia PyTorch de TensorFlow?Resumen

10. Implementaciones de modelos de aprendizaje automático
Modelos de ImplementaciónPatrón 1: Predicción por lotesPatrón 2: Modelo en servicioPatrón 3: Modelo como servicioDeterminar qué patrón utilizarRequisitos del software de producciónMonitoreo de modelos de aprendizaje automático en producciónDeriva de datosDeriva de modelos, deriva de conceptosDesplazamiento del dominio distributivo (la larga cola)¿Qué métricas debo monitorizar en producción?¿Cómo mido los cambios con mi sistema de monitoreo?Qué aspecto tiene en la producciónEl circuito de retroalimentación de la producciónImplementación con MLlibPipelines de Aprendizaje Automático de Producción con Streaming EstructuradoImplementación con MLflowDefinición de una envoltura MLflowImplementación del modelo como microservicioCargar el modelo como una UDF de SparkCómo desarrollar tu sistema de forma iterativaResumen
Índice
Sobre el autor

Content preview from Escalar el aprendizaje automático con Spark

Capítulo 4. Ingestión de datos, preprocesamiento y estadísticas descriptivas

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Lo más probable es que conozcas la frase "basura entra, basura sale". Capta bien la noción de que una entrada de datos defectuosa, incorrecta o sin sentido siempre producirá una salida defectuosa. En el contexto del aprendizaje automático, también subraya el hecho de que la atención que dediquemos a la ingesta, preprocesamiento y comprensión estadística de nuestros datos (explorarlos y prepararlos) tendrá un efecto en el éxito del proceso global. Una ingestión de datos defectuosa repercute directamente en la calidad de los datos, y lo mismo ocurre con un preprocesamiento defectuoso. Para hacernos una idea de los datos que tenemos entre manos, y de su corrección, aprovechamos la estadística descriptiva; ésta es una parte vital del proceso, ya que nos ayuda a verificar que los datos que estamos utilizando son de buena calidad. Los científicos de datos, los ingenieros de aprendizaje automático y los ingenieros de datos suelen dedicar mucho tiempo a trabajar, investigar y mejorar estos pasos cruciales, y yo te guiaré a través de ellos en este capítulo.

Antes de empezar, entendamos el flujo. Supongamos que, al principio, nuestros datos residen en disco, en una base de datos o en un lago de datos en la nube. Estos son los pasos que seguiremos para conocer nuestros datos:

Ingestión. Nosotros ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781098199616

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Escalar el aprendizaje automático con Spark

by Adi Polak

Capítulo 4. Ingestión de datos, preprocesamiento y estadísticas descriptivas

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.