book

Analítica avanzada con PySpark

Name: Analítica avanzada con PySpark
ISBN: 9781098196844

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

September 2024

Intermediate to advanced

236 pages

7h 11m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
¿Por qué escribimos este libro ahora?Cómo está organizado este libroConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
1. Analizar Big Data
Trabajar con Big DataPresentación de Apache Spark y PySparkComponentesPySparkEcosistemaSpark 3.0PySpark aborda los retos de la ciencia de datos¿Adónde vamos ahora?
2. Introducción al análisis de datos con PySpark
Arquitectura SparkInstalar PySparkConfigurar nuestros datosAnalizar datos con la API DataFrameResumen estadístico rápido para DataFramesPivotar y remodelar marcos de datosUnir marcos de datos y seleccionar característicasPuntuación y evaluación del modelo¿Adónde vamos ahora?
3. Recomendar música y el conjunto de datos Audioscrobbler
Configurar los datosNuestros requisitos para un sistema de recomendaciónAlgoritmo de mínimos cuadrados alternosPreparación de los datosConstruir un primer modeloRecomendaciones para la comprobación aleatoriaEvaluar la calidad de las recomendacionesCálculo de las CUASelección de hiperparámetrosHacer recomendaciones¿Adónde vamos ahora?
4. Hacer predicciones con árboles de decisión y bosques de decisión
Árboles y bosques de decisiónPreparación de los datosNuestro primer árbol de decisionesHiperparámetros del árbol de decisiónAjuste de los árboles de decisiónCaracterísticas categóricas revisadasBosques aleatoriosHacer predicciones¿Adónde vamos ahora?
5. Detección de anomalías con agrupación de K-means
Agrupación de K-meansIdentificar el tráfico de red anómaloConjunto de datos de la Copa KDD 1999Una primera aproximación a la agrupaciónElegir kVisualización con SparkRNormalización de rasgosVariables categóricasUtilizar etiquetas con EntropíaLa agrupación en acción¿Adónde vamos ahora?
6. Comprender Wikipedia con LDA y Spark NLP
Asignación latente de DirichletLDA en PySparkObtener los datosPNL SparkConfigurar tu entornoAnálisis de los datosPreparar los datos con Spark NLPTF-IDFCálculo de los TF-IDFCreación de nuestro modelo LDA¿Adónde vamos ahora?
7. Análisis Geoespacial y Temporal de los Datos de Viajes en Taxi
Preparación de los datosConvertir cadenas de fecha y hora en marcas de tiempoGestión de registros no válidosAnálisis GeoespacialIntroducción a GeoJSONGeoPandasSesionización en PySparkSesiones de construcción: Ordenaciones secundarias en PySpark¿Adónde vamos ahora?
8. Estimación del riesgo financiero
TerminologíaMétodos para calcular el VaRVarianza-CovarianzaSimulación históricaSimulación Monte CarloNuestro modeloObtener los datosPreparación de los datosDeterminación de las ponderaciones de los factoresMuestreoLa distribución normal multivarianteCorrer las pruebasVisualizar la distribución de los rendimientos¿Adónde vamos ahora?
9. El análisis de los datos genómicos y el proyecto BDG
Desvincular el almacenamiento del modeladoConfigurar ADAMIntroducción al trabajo con datos genómicos mediante ADAMConversión de formatos de archivo con la CLI de ADAMIngesta de datos genómicos con PySpark y ADAMPredicción de sitios de unión a factores de transcripción a partir de datos ENCODE¿Adónde vamos ahora?

10. Detección de similitud de imágenes con Deep Learning y PySpark LSH
PyTorchInstalaciónPreparación de los datosRedimensionar imágenes con PyTorchModelo de aprendizaje profundo para la representación vectorial de imágenesIncrustación de imágenesImportar incrustaciones de imágenes a PySparkBúsqueda por similitud de imágenes con PySpark LSHBúsqueda del vecino más próximo¿Adónde vamos ahora?
11. Gestión del ciclo de vida del aprendizaje automático con MLflow
Ciclo de vida del aprendizaje automáticoMLflowSeguimiento de experimentosGestionar y servir modelos MLCrear y utilizar proyectos MLflow¿Adónde vamos ahora?
Índice
Sobre los autores

Content preview from Analítica avanzada con PySpark

Capítulo 1. Analizar los Big Data

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Cuando la gente dice que vivimos en la era de los grandes datos, se refiere a que disponemos de herramientas para recopilar, almacenar y procesar información a una escala hasta ahora desconocida. Las siguientes tareas sencillamente no podrían haberse realizado hace 10 ó 15 años:

Construye un modelo para detectar el fraude con tarjetas de crédito utilizando miles de características y miles de millones de transacciones
Recomienda de forma inteligente millones de productos a millones de usuarios
Estimar el riesgo financiero mediante simulaciones de carteras que incluyen millones de instrumentos
Manipula fácilmente datos genómicos de miles de personas para detectar asociaciones genéticas con enfermedades
Evaluar el uso del suelo agrícola y el rendimiento de los cultivos para mejorar la elaboración de políticas mediante el procesamiento periódico de millones de imágenes de satélite.

Detrás de estas capacidades hay un ecosistema de software de código abierto que puede aprovechar grupos de servidores para procesar cantidades masivas de datos. La introducción/lanzamiento de Apache Hadoop en 2006 ha llevado a la adopción generalizada de la informática distribuida. El ecosistema y las herramientas de big data han evolucionado a gran velocidad desde entonces. En los últimos cinco años también se han introducido y adoptado muchas ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781098196844

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Analítica avanzada con PySpark

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

Capítulo 1. Analizar los Big Data

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.