book

Escalar el aprendizaje automático con Spark

Name: Escalar el aprendizaje automático con Spark
Author: Adi Polak
ISBN: 9781098199616

by Adi Polak

September 2024

Intermediate to advanced

294 pages

9h 46m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
¿Quién debería leer este libro?¿Necesitas aprendizaje automático distribuido?Navegar por este libroLo que no está cubiertoEl entorno y las herramientasLas herramientasLos conjuntos de datosConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
1. Terminología y conceptos del aprendizaje automático distribuido
Las etapas del flujo de trabajo del aprendizaje automáticoHerramientas y tecnologías en el proceso de aprendizaje automáticoModelos informáticos distribuidosModelos de uso generalModelos informáticos distribuidos dedicadosIntroducción a la Arquitectura de Sistemas DistribuidosSistemas centralizados frente a descentralizadosModelos de interacciónComunicación en un entorno distribuidoIntroducción a los métodos de conjuntoSesgo alto frente a sesgo bajoTipos de métodos de conjuntoTopologías de entrenamiento distribuidoLos retos de los sistemas distribuidos de aprendizaje automáticoRendimientoGestión de recursosTolerancia a fallosPrivacidadPortabilidadConfigurar tu entorno localCapítulos 2-6 Tutoriales EntornoCapítulos 7-10 Tutoriales EntornoResumen
2. Introducción a Spark y PySpark
Arquitectura de Apache SparkIntroducción a PySparkConceptos básicos de Apache SparkArquitectura de softwarePySpark y la programación funcionalEjecutar código PySparkpandas DataFrames frente a Spark DataFramesScikit-Learn frente a MLlibResumen
3. Gestión del ciclo de vida de los experimentos de aprendizaje automático con MLflow
Requisitos de la gestión del ciclo de vida del aprendizaje automático¿Qué es MLflow?Componentes de software de la plataforma MLflowUsuarios de la Plataforma MLflowComponentes MLflowSeguimiento MLflowProyectos MLflowModelos MLflowRegistro de modelos MLflowUtilizar MLflow a escalaResumen
4. Ingestión de datos, preprocesamiento y estadísticas descriptivas
Ingestión de datos con SparkTrabajar con imágenesTrabajar con datos tabularesPreprocesamiento de datosPreprocesamiento frente a procesamiento¿Por qué preprocesar los datos?Estructuras de datosTipos de datos MLlibPreprocesamiento con Transformadores MLlibPreprocesamiento de datos de imagenGuarda los datos y evita el problema de los archivos pequeñosEstadística descriptiva: Conocer los datosCálculo de estadísticasEstadísticas descriptivas con Spark SummarizerAsimetría de los datosCorrelaciónResumen
5. Ingeniería de características
Características y su impacto en los modelosHerramientas de featurización MLlibExtractoresSelectoresEjemplo: Word2VecEl proceso de featurización de imágenesComprender la manipulación de imágenesExtraer características con las API de SparkEl proceso de texturizaciónBolsa de palabrasTF-IDFN-GramaTécnicas adicionalesEnriquecer el conjunto de datosResumen
6. Entrenamiento de modelos con Spark MLlib
AlgoritmosAprendizaje automático supervisadoClasificaciónRegresiónAprendizaje automático no supervisadoMinería de patrones frecuentesAgrupaciónEvaluandoEvaluadores supervisadosEvaluadores no supervisadosHiperparámetros y experimentos de ajusteConstruir una parrilla de parámetrosDividir los datos en conjuntos de entrenamiento y de pruebaValidación cruzada: Una forma mejor de probar tus modelosPipelines de aprendizaje automáticoConstruir una tubería¿Cómo funciona la división con la API Pipeline?PersistenciaResumen
7. Tendiendo puentes entre Spark y los marcos de aprendizaje profundo
El enfoque de los dos gruposImplementar una capa de acceso a datos dedicadaCaracterísticas de un DALSeleccionar un DAL¿Qué es Petastorm?Convertidor de conjuntos de datos SparkPetastorm como tienda de parquéProyecto HidrógenoModo de ejecución de la barreraProgramación respetuosa con el aceleradorBreve introducción a la API del Estimador HorovodResumen
8. Enfoque de aprendizaje automático distribuido TensorFlow
Una rápida visión general de TensorFlow¿Qué es una red neuronal?Funciones y responsabilidades del proceso del clúster TensorFlowCargar datos de parquet en un conjunto de datos TensorFlowUna mirada al interior de las estrategias de aprendizaje automático distribuido de TensorFlowParámetroEstrategiaServidorEstrategia de almacenamiento central: Una máquina, varios procesadoresEstrategia en espejo: Una máquina, varios procesadores, copia localEstrategiaMultitrabajadorMirrored: Múltiples Máquinas, SincrónicoTPUStrategia¿Qué cosas cambian cuando cambias de estrategia?API de formaciónAPI KerasBucle de entrenamiento personalizadoAPI del estimadorPonerlo todo juntoSolución de problemasResumen
9. Enfoque de aprendizaje automático distribuido PyTorch
Una rápida visión general de los fundamentos de PyTorchGráfico de cálculoMecánica y conceptos de PyTorchEstrategias distribuidas PyTorch para entrenar modelosIntroducción al enfoque distribuido de PyTorchEntrenamiento en paralelo con datos distribuidosFormación distribuida basada en RPCTopologías de comunicación en PyTorch (c10d)¿Qué podemos hacer con las API de bajo nivel de PyTorch?Cargar datos con PyTorch y PetastormGuía de resolución de problemas para trabajar con Petastorm y PyTorch distribuidoEl enigma de los tipos de datos no coincidentesEl misterio de los trabajadores rezagados¿En qué se diferencia PyTorch de TensorFlow?Resumen

10. Implementaciones de modelos de aprendizaje automático
Modelos de ImplementaciónPatrón 1: Predicción por lotesPatrón 2: Modelo en servicioPatrón 3: Modelo como servicioDeterminar qué patrón utilizarRequisitos del software de producciónMonitoreo de modelos de aprendizaje automático en producciónDeriva de datosDeriva de modelos, deriva de conceptosDesplazamiento del dominio distributivo (la larga cola)¿Qué métricas debo monitorizar en producción?¿Cómo mido los cambios con mi sistema de monitoreo?Qué aspecto tiene en la producciónEl circuito de retroalimentación de la producciónImplementación con MLlibPipelines de Aprendizaje Automático de Producción con Streaming EstructuradoImplementación con MLflowDefinición de una envoltura MLflowImplementación del modelo como microservicioCargar el modelo como una UDF de SparkCómo desarrollar tu sistema de forma iterativaResumen
Índice
Sobre el autor

Content preview from Escalar el aprendizaje automático con Spark

Capítulo 2. Introducción a Spark y PySpark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

El objetivo de este capítulo es ponerte al día sobre PySpark y Spark, dándote suficiente información para que te sientas cómodo con los tutoriales del resto del libro. Empecemos por el principio. ¿Qué es exactamente Spark? Desarrollado originalmente en la UC Berkeley en 2009, Apache Spark es un motor analítico de código abierto para big data y aprendizaje automático. Poco después de su lanzamiento, las empresas de muchos sectores lo adoptaron rápidamente, y potencias como Netflix, Yahoo y eBay lo implementan a gran escala para procesar exabytes de datos en clústeres de muchos miles de nodos. La comunidad Spark también ha crecido rápidamente, abarcando a más de 1.000 colaboradores de más de 250 organizaciones.

Nota

Para profundizar en el propio Spark, hazte con un ejemplar de Spark: The Definitive Guide, de Bill Chambers y Matei Zaharia (O'Reilly).

Para prepararte para el resto del libro, este capítulo cubrirá las siguientes áreas:

La arquitectura distribuida de Apache Spark
Conceptos básicos de Apache Spark (arquitectura de software y estructuras de datos)
Inmutabilidad del DataFrame
El paradigma funcional de PySpark
En qué se diferencian los DataFrames de pandas de los de Spark
Scikit-learn frente a PySpark para el aprendizaje automático

Arquitectura de Apache Spark

La arquitectura de Spark consta de los ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781098199616

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design