book

Ciencia de datos en AWS

by Chris Fregly, Antje Barth

October 2024

Intermediate to advanced

524 pages

15h 11m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Resumen de los capítulosQuién debería leer este libroOtros recursosConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
Ventajas de la computación en nubeAgilidadAhorro de costesElasticidadInnovar más rápidoImplementación global en minutosTransición fluida del prototipo a la producciónPipelines y flujos de trabajo de la ciencia de datosCanalizaciones de Amazon SageMakerSDK de Ciencia de Datos de AWS Step FunctionsTuberías KubeflowFlujos de trabajo administrados para Apache Airflow en AWSMLflowTensorFlow ampliadoFlujos de trabajo humanosBuenas prácticas de MLOpsExcelencia operativaSeguridadFiabilidadRendimiento EficienciaOptimización de costesServicios de IA de Amazon y AutoML con Amazon SageMakerServicios de IA de AmazonAutoML con el piloto automático de SageMakerIngestión, exploración y preparación de datos en AWSIngestión de datos y lagos de datos con Amazon S3 y AWS Lake FormationAnálisis de datos con Amazon Athena, Amazon Redshift y Amazon QuickSightEvaluar la calidad de los datos con AWS Deequ y los trabajos de procesamiento de SageMakerEtiquetar los datos de entrenamiento con la verdad fundamental de SageMakerTransformación de datos con AWS Glue DataBrew, SageMaker Data Wrangler y SageMaker Processing JobsEntrenamiento y ajuste de modelos con Amazon SageMakerEntrenar modelos con SageMaker Entrenamiento y experimentosAlgoritmos incorporadosTrae tu propio guión (Modo Guión)Trae tu propio contenedorSoluciones pre-construidas y modelos pre-entrenados con SageMaker JumpStartAfinar y validar modelos con el ajuste de hiperparámetros de SageMakerImplementación de modelos con Amazon SageMaker y funciones AWS LambdaPuntos finales de SageMakerTransformación por lotes de SageMakerImplementación de modelos sin servidor con AWS LambdaAnálisis de streaming y aprendizaje automático en AWSStreaming de Amazon KinesisStreaming administrado de Amazon para Apache KafkaPredicciones de streaming y detección de anomalíasInfraestructura de AWS y hardware a medidaTipos de instancias de cálculo de SageMakerGPU y hardware informático personalizado de AmazonRedes optimizadas para la GPU y hardware personalizadoOpciones de almacenamiento optimizadas para el entrenamiento de modelos a gran escalaReduce costes con etiquetas, presupuestos y alertasResumen
Innovación en todos los sectoresRecomendaciones personalizadas de productosRecomienda productos con Amazon PersonalizaGenerar recomendaciones con Amazon SageMaker y TensorFlowGenerar recomendaciones con Amazon SageMaker y Apache SparkDetectar vídeos inapropiados con Amazon RekognitionPrevisión de la demandaPredecir el consumo de energía con Amazon ForecastPredecir la demanda de instancias de Amazon EC2 con Amazon ForecastIdentifica Cuentas Falsas con el Detector de Fraudes de AmazonActiva la Detección de Fugas de Privacidad con Amazon MacieDispositivos conversacionales y asistentes de vozReconocimiento de voz con Amazon LexConversión de texto a voz con Amazon PollyConversión de voz a texto con Amazon TranscribeAnálisis de Textos y Procesamiento del Lenguaje NaturalTraducir idiomas con Amazon TranslateClasifica los mensajes de atención al cliente con Amazon ComprehendExtraer detalles del currículum con Amazon Textract y ComprehendBúsqueda cognitiva y comprensión del lenguaje naturalCentros inteligentes de atención al clienteServicios de IA Industrial y Mantenimiento PredictivoAutomatización del hogar con AWS IoT y Amazon SageMakerExtraer información médica de documentos sanitariosInfraestructura en nube inteligente y autooptimizableAutoescalado predictivo para Amazon EC2Detección de anomalías en flujos de datosInteligencia empresarial cognitiva y predictivaHaz preguntas en lenguaje natural con Amazon QuickSightEntrenar e invocar modelos de SageMaker con Amazon RedshiftInvocar modelos de Amazon Comprehend y SageMaker desde la base de datos SQL de Amazon AuroraInvocar el modelo SageMaker desde Amazon AthenaEjecutar predicciones sobre datos gráficos con Amazon NeptuneEducar a la próxima generación de desarrolladores de IA y MLCrear modelos de visión informática con AWS DeepLensAprende Aprendizaje por Refuerzo con AWS DeepRacerComprender las GAN con AWS DeepComposerProgramar el Sistema Operativo de la Naturaleza con Computación CuánticaBits cuánticos frente a bits digitalesLa Supremacía Cuántica y las Eras de la Computación CuánticaDescifrar la criptografíaSimulaciones moleculares y descubrimiento de fármacosOptimizaciones Logísticas y FinancierasAprendizaje automático cuántico e IAProgramar un ordenador cuántico con Amazon BraketCentro de Computación Cuántica de AWSAumenta el rendimiento y reduce los costesRevisiones automáticas de código con CodeGuru ReviewerMejorar el rendimiento de las aplicaciones con CodeGuru ProfilerMejora la disponibilidad de las aplicaciones con DevOps GuruResumen
Aprendizaje automático automatizado con SageMaker AutopilotSeguimiento de Experimentos con el Piloto Automático de SageMakerEntrenar e Implementar un Clasificador de Texto con el Piloto Automático de SageMakerFormación e Implementación con SageMaker Autopilot UIEntrenar e Implementar un Modelo con el SDK Python de SageMaker AutopilotPredecir con Amazon Athena y SageMaker AutopilotEntrenar y predecir con Amazon Redshift ML y SageMaker AutopilotAprendizaje automático de máquinas con Amazon ComprehendPredecir con el modelo integrado de Amazon ComprehendEntrenar e implementar un modelo personalizado con la interfaz de usuario de Amazon ComprehendEntrenar e Implementar un Modelo Personalizado con el SDK Python de Amazon ComprehendResumen
Lagos de datosImportar Datos al Lago de Datos S3Describir el conjunto de datosConsulta el lago de datos de Amazon S3 con Amazon AthenaAccede a Athena desde la consola de AWSRegistrar Datos S3 como Tabla AthenaActualiza las tablas de Athena a medida que llegan nuevos datos con AWS Glue CrawlerCrear una tabla basada en parquet en AthenaIngesta continua de nuevos datos con AWS Glue CrawlerConstruye una casa en el lago con Amazon Redshift SpectrumExportar datos de Amazon Redshift a S3 Data Lake como ParquetCompartir datos entre clústeres de Amazon RedshiftElige entre Amazon Athena y Amazon RedshiftReduce los costes y aumenta el rendimientoS3 Tiering InteligenteParticiones de parqué y compresiónDiseño y compresión de tablas de Amazon RedshiftUtilizar filtros Bloom para mejorar el rendimiento de las consultasVistas materializadas en Amazon Redshift SpectrumResumen
Herramientas para explorar datos en AWSVisualizar nuestro lago de datos con SageMaker StudioPreparar SageMaker Studio para visualizar nuestro conjunto de datosEjecutar una consulta Athena de ejemplo en SageMaker StudioProfundiza en el conjunto de datos con Athena y SageMakerConsulta nuestro almacén de datosEjecuta una consulta de muestra de Amazon Redshift desde SageMaker StudioProfundiza en el conjunto de datos con Amazon Redshift y SageMakerCrear cuadros de mando con Amazon QuickSightDetectar problemas de calidad de datos con Amazon SageMaker y Apache SparkTrabajos de Procesamiento SageMakerAnalizar nuestro conjunto de datos con Deequ y Apache SparkDetectar sesgos en nuestro conjunto de datosGenerar y visualizar informes de sesgo con SageMaker Data WranglerDetectar el sesgo con un trabajo de procesamiento de SageMaker ClarifyIntegra la detección de sesgos en guiones personalizados con SageMaker Clarify Open SourceMitigar el sesgo de los datos equilibrándolosDetectar distintos tipos de deriva con SageMaker ClarifyAnalizar nuestros datos con AWS Glue DataBrewReduce los costes y aumenta el rendimientoUtilizar un Bucket S3 Compartido para Resultados de Consulta Athena No SensiblesRecuentos aproximados con HyperLogLogEscala dinámicamente un almacén de datos con AQUA para Amazon RedshiftMejorar el rendimiento del panel de control con QuickSight SPICEResumen
Realiza la selección e ingeniería de característicasSeleccionar características de entrenamiento en función de su importanciaEquilibrar el conjunto de datos para mejorar la precisión del modeloDivide el conjunto de datos en conjuntos de entrenamiento, validación y pruebaTransformar texto sin procesar en incrustaciones BERTConvertir características y etiquetas al formato de archivo TensorFlow optimizadoEscala la ingeniería de características con los trabajos de procesamiento de SageMakerTransformación con scikit-learn y TensorFlowTransformación con Apache Spark y TensorFlowCompartir funciones a través de la Feature Store de SageMakerIngesta de funciones en el almacén de funciones de SageMakerRecuperar funciones del almacén de funciones de SageMakerIngesta y Transformación de Datos con SageMaker Data WranglerRastrea el linaje de artefactos y experimentos con Amazon SageMakerComprender los conceptos de seguimiento del linajeMostrar el linaje de un trabajo de ingeniería de funcionesComprender la API de Experimentos de SageMakerIngesta y transformación de datos con AWS Glue DataBrewResumen
Comprender la infraestructura de SageMakerIntroducción a los Contenedores SageMakerAumenta la Disponibilidad con el Aislamiento de los Ordenadores y la RedImplementación de un modelo BERT preentrenado con SageMaker JumpStartDesarrollar un modelo SageMakerAlgoritmos incorporadosTrae tu propio guiónTrae tu propio contenedorBreve historia del Procesamiento del Lenguaje NaturalArquitectura del transformador BERTEntrenar el BERT desde ceroModelo de lenguaje enmascaradoPredicción de la siguiente fraseAjuste fino de un modelo BERT preentrenadoCrear el guión de formaciónConfigurar las divisiones de los conjuntos de datos de entrenamiento, validación y pruebaConfigurar el modelo clasificador personalizadoEntrenar y validar el modeloGuardar el modeloIniciar el guión de formación desde un cuaderno de SageMakerDefinir las métricas a capturar y monitorizarConfigurar los hiperparámetros de nuestro algoritmoSelecciona el tipo de instancia y el número de instanciasPonerlo todo junto en el cuadernoDescarga e inspecciona nuestro modelo entrenado desde S3Mostrar linaje de experiencia para nuestro trabajo de formación en SageMakerMostrar linaje de artefactos para nuestro trabajo de formación de SageMakerEvaluar modelosEjecuta algunas predicciones ad hoc del CuadernoAnalizar nuestro clasificador con una matriz de confusiónVisualizar nuestra red neuronal con TensorBoardMonitorea las métricas con SageMaker StudioMonitorea las métricas con CloudWatch MetricsDepurar y perfilar la formación de modelos con el depurador de SageMakerDetectar y Resolver Problemas con las Reglas y Acciones del Depurador de SageMakerPerfil Formación EmpleoInterpreta y explica las predicciones del modeloDetectar el sesgo del modelo y explicar las prediccionesDetectar el sesgo con un trabajo de procesamiento de SageMaker ClarifyAtribución e importancia de las características con SageMaker Clarify y SHAPMás opciones de formación para el BERTConvertir el modelo BERT de TensorFlow a PyTorchEntrenar modelos BERT PyTorch con SageMakerEntrenar modelos BERT de Apache MXNet con SageMakerEntrenar modelos BERT con PyTorch y la biblioteca Java de AWS DeepReduce los costes y aumenta el rendimientoUtiliza pequeñas instancias de portátilProbar guiones de entrenamiento de modelos localmente en el bloc de notasTrabajos de formación de perfil con Depurador SageMakerEmpieza con un modelo preentrenadoUtiliza la media precisión de 16 bits y bfloat16Precisión mixta completa de 32 bits y media de 16 bitsCuantizaciónUtilizar hardware optimizado para la formaciónInstancias puntuales y puntos de controlRegla de parada anticipada en el depurador de SageMakerResumen
Encuentra automáticamente los mejores hiperparámetros del modeloConfigurar los rangos de hiperparámetrosEjecuta el Trabajo de Ajuste de HiperparámetrosAnalizar los mejores hiperparámetros del trabajo de ajusteMostrar linaje de experimentos para nuestro trabajo de ajuste de SageMakerUtilizar Warm Start para trabajos adicionales de ajuste de hiperparámetros de SageMakerEjecutar un trabajo HPT con arranque en calienteAnalizar los mejores hiperparámetros del trabajo de ajuste de arranque en calienteAmpliar con la formación distribuida de SageMakerElige una estrategia de comunicación distribuidaElige una estrategia de paralelismoElegir un sistema de archivos distribuidoIniciar el trabajo de formación distribuidaReduce los costes y aumenta el rendimientoEmpieza con rangos de hiperparámetros razonablesFragmenta los datos con ShardedByS3KeyTransmite datos sobre la marcha con el Modo TuberíaActivar red mejoradaResumen
Elige predicciones en tiempo real o por lotesPredicciones en tiempo real con los puntos finales de SageMakerImplementación del modelo mediante el SDK Python de SageMakerSeguimiento de la Implementación del Modelo en Nuestro ExperimentoAnalizar el linaje experimental de un modelo implementadoInvocar predicciones utilizando el SDK Python de SageMakerInvocar predicciones mediante POST HTTPCrear conductos de inferenciaInvocar modelos de SageMaker desde consultas SQL y basadas en gráficosEscalar automáticamente los puntos finales de SageMaker mediante Amazon CloudWatchDefinir una política de escalado con métricas proporcionadas por AWSDefinir una política de escalado con una métrica personalizadaAjustar la capacidad de respuesta mediante un periodo de enfriamientoPolíticas de autoescaladoEstrategias de Implementación de Modelos Nuevos y ActualizadosTráfico dividido para los lanzamientos canariosDesplazamiento del Tráfico para Implementaciones Azul/VerdeProbar y comparar nuevos modelosRealiza pruebas A/B para comparar variantes de modelosAprendizaje por Refuerzo con Pruebas de Bandido MultiarmadoMonitorea el rendimiento del modelo y detecta la derivaActivar la captura de datosComprender las líneas de base y la derivaMonitorear la Calidad de los Datos de los Puntos Finales de SageMaker ImplementadosCrear una línea de base para medir la calidad de los datosProgramar trabajos de monitoreo de la calidad de los datosInspeccionar los resultados de la calidad de los datosMonitorea la Calidad del Modelo de los Puntos Finales de SageMaker ImplementadosCrear una línea de base para medir la calidad del modeloProgramar trabajos de monitoreo de la calidad del modeloInspeccionar los resultados del monitoreo de la calidad del modeloMonitorear la Deriva de Sesgo de los Puntos Finales de SageMaker ImplementadosCrear una línea de base para detectar sesgosProgramar trabajos de monitoreo de desviaciones de polarizaciónInspecciona los resultados del monitoreo del sesgo-derivaMonitorear el Desplazamiento de la Atribución de Funciones de los Puntos Finales de SageMaker ImplementadosCrear una línea de base para monitorear la atribución de característicasProgramar trabajos de monitoreo de la deriva de la atribución de funcionesInspeccionar los resultados del monitoreo de la deriva de la atribución de característicasRealiza predicciones por lotes con SageMaker Transformación por lotesSelecciona un tipo de instanciaConfigurar los datos de entradaAjustar la configuración de transformación por lotes de SageMakerPreparar el trabajo de transformación por lotes de SageMakerEjecutar el trabajo de transformación por lotes de SageMakerRevisar las predicciones de loteFunciones Lambda de AWS y Amazon API GatewayOptimizar y gestionar modelos en el perímetroImplementación de un modelo PyTorch con TorchServeInferencia TensorFlow-BERT con la biblioteca AWS Deep JavaReduce los costes y aumenta el rendimientoBorrar Endpoints No Utilizados y Escalar Clusters InfrautilizadosImplementación de varios modelos en un contenedorAdjuntar un acelerador de inferencia elástico basado en la GPUOptimizar un modelo entrenado con SageMaker Neo y TensorFlow LiteUtilizar hardware optimizado para la inferenciaResumen

Operaciones de aprendizaje automáticoCanalizaciones de softwarePipelines de aprendizaje automáticoComponentes de las cadenas eficaces de aprendizaje automáticoPasos de un proceso eficaz de aprendizaje automáticoOrquestación de Pipelines con SageMaker PipelinesCrear un experimento para rastrear nuestro linaje de tuberíasDefinir los pasos de nuestro pipelineConfigurar los parámetros de la tuberíaCrear la tuberíaIniciar el Pipeline con el SDK de PythonIniciar la canalización con la interfaz de usuario de SageMaker StudioAprobar el Modelo de Puesta en Escena y ProducciónRevisar el linaje de artefactos de la tuberíaRevisar el linaje del experimento PipelineAutomatización con SageMaker PipelinesActivación de GitOps al confirmar códigoDisparador S3 cuando llegan nuevos datosDesencadenante de programación en función del tiempoActivador de deriva estadísticaMás opciones de tuberíasFunciones escalonadas de AWS y el SDK de ciencia de datosTuberías KubeflowFlujo de aire ApacheMLflowTensorFlow ampliadoFlujos de trabajo humanosMejorar la precisión del modelo con Amazon A2IBucles de realimentación de aprendizaje activo con la verdad sobre el terreno de SageMakerReducir costes y mejorar el rendimientoPasos del proceso de cachéUtiliza instancias puntuales menos costosasResumen
Aprendizaje online frente a aprendizaje offlineAplicaciones de streamingConsultas con ventanas sobre datos en flujoEscalonar ventanasVentanas giratoriasVentanas correderasAnálisis de streaming y aprendizaje automático en AWSClasificar reseñas de productos en tiempo real con Amazon Kinesis, AWS Lambda y Amazon SageMakerImplementar la ingesta de datos en streaming utilizando Amazon Kinesis Data FirehoseCrear función lambda para invocar el punto final de SageMakerCrear el flujo de entrega de la Manguera de Fuego de Datos KinesisPon mensajes en la corrienteResume las revisiones de productos en tiempo real con los análisis en tiempo realConfiguración de los análisis de datos de Amazon KinesisCrear un flujo de datos Kinesis para entregar datos a una aplicación personalizadaCrear una función AWS Lambda para enviar notificaciones a través de Amazon SNSCrear una función AWS Lambda para publicar métricas en Amazon CloudWatchTransformar datos en flujo en Kinesis Data AnalyticsComprender los flujos y las bombas en la aplicaciónAplicaciones de análisis de datos de Amazon KinesisCalcular la clasificación media por estrellasDetectar anomalías en los datos en flujoCalcular Recuentos Aproximados de Datos en FlujoCrear una aplicación de análisis de datos KinesisIniciar la Aplicación de Análisis de Datos KinesisPon mensajes en la corrienteClasificar reseñas de productos con Apache Kafka, AWS Lambda y Amazon SageMakerReducir costes y mejorar el rendimientoMensajes AgregadosConsidera Kinesis Firehose frente a Kinesis Data StreamsActivar el Fan-Out mejorado para flujos de datos KinesisResumen
Modelo de responsabilidad compartida entre AWS y los clientesAplicación de AWS Identity and Access ManagementUsuarios IAMPolíticas IAMRoles de usuario IAMRoles de Servicio IAMEspecificar claves de condición para roles IAMActivar la autenticación multifactorAcceso con mínimos privilegios con funciones y políticas IAMPolíticas IAM basadas en recursosPolíticas IAM basadas en la identidadAislar los entornos informáticos y de redNube Privada VirtualVPC Endpoints y PrivateLinkLimitar las API de Athena con una política de punto final de VPCAsegurar el acceso a los datos de Amazon S3Requerir un Endpoint VPC con una Política de Bucket S3Limitar las API de S3 para un Bucket de S3 con una Política de Punto Final de VPCRestringir el acceso al cubo S3 a una VPC específica con una política de cubo S3Limitar las API de S3 con una Política de Cubos de S3Restringir el Acceso a los Datos del S3 Utilizando Políticas de Rol IAMRestringir el acceso a S3 Bucket a una VPC específica con una política de roles IAMRestringir el acceso a datos S3 mediante puntos de acceso S3Cifrado en reposoCrear una clave AWS KMSCifrar los volúmenes de Amazon EBS durante el entrenamientoCifrar el modelo cargado en S3 después del entrenamientoAlmacenar claves de cifrado con AWS KMSAplicar el Cifrado S3 a los Objetos S3 SubidosAplicar la encriptación en reposo a los trabajos de SageMakerAplicar la encriptación en reposo a los cuadernos SageMakerAplicar la encriptación en reposo para SageMaker StudioCifrado en tránsitoCifrado TLS poscuántico en tránsito con KMSCifrar el tráfico entre contenedores de clúster de entrenamientoAplicar la encriptación entre contenedores a los trabajos de SageMakerProteger las instancias de SageMaker NotebookDenegar el acceso root dentro de los cuadernos SageMakerDesactivar el acceso a Internet para los cuadernos SageMakerProteger SageMaker StudioRequerir una VPC para SageMaker StudioAutenticación de SageMaker StudioProteger los trabajos y modelos de SageMakerRequerir una VPC para los trabajos de SageMakerRequerir aislamiento de red para los trabajos de SageMakerAsegurar la formación del lago AWSAsegurar las credenciales de la base de datos con AWS Secrets ManagerGobernanzaEntornos AWS multicuenta seguros con AWS Control TowerAdministrar cuentas con organizaciones de AWSImponer permisos a nivel de cuenta con SCPImplementaciones del Modelo MulticuentaAuditabilidadRecursosRegistrar Actividades y Recopilar EventosRastrea la actividad de los usuarios y las llamadas a la APIReducir costes y mejorar el rendimientoLimitar los tipos de instancia para controlar el costePoner en cuarentena o eliminar recursos no etiquetadosUtiliza Claves KMS de Bucket S3 para Reducir Costes y Aumentar el RendimientoResumen

Content preview from Ciencia de datos en AWS

Capítulo 5. Explorar el conjunto de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el capítulo anterior, demostramos cómo ingerir datos en la nube con Amazon Athena y Redshift. Amazon Athena ofrece consultas SQL ad hoc y sin servidor para datos en S3 sin necesidad de configurar, escalar ni administrar ningún clúster. Amazon Redshift proporciona el rendimiento de consulta más rápido para las cargas de trabajo de informes empresariales e inteligencia de negocios, en particular las que implican SQL complejo con múltiples uniones y subconsultas a través de muchas fuentes de datos, incluyendo bases de datos relacionales y archivos planos. Creamos un mapeo de datos-catálogo para nuestro lago de datos basado en S3 utilizando AWS Glue Catalog. Ejecutamos consultas ad hoc en nuestro lago de datos con Athena. Y ejecutamos consultas en nuestro almacén de datos con Amazon Redshift.

También echamos un primer vistazo a nuestro conjunto de datos. Según hemos sabido, el conjunto de datos de opiniones de clientes de Amazon consta de más de 150 millones de opiniones de clientes sobre productos de 43 categorías de productos diferentes en el sitio web Amazon.com desde 1995 hasta 2015. El conjunto de datos contiene el texto real de las reseñas de los clientes junto con metadatos adicionales. Se presenta en dos formatos valores separados por tabuladores (TSV) basados en filas y Apache Parquet basado en columnas.

En este ...