book

Ciência de dados na AWS

by Chris Fregly, Antje Barth

April 2025

Intermediate to advanced

524 pages

14h 50m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Visão geral dos capítulosQuem deve ler este livroOutros recursosConvenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
Benefícios da computação em CloudAgilePoupança de custosElasticidadeInova mais depressaImplementa globalmente em minutosTransição suave do protótipo para a produçãoPipelines e fluxos de trabalho de ciência de dadosPipelines do Amazon SageMakerSDK de ciência de dados do AWS Step FunctionsPipelines KubeflowFluxos de trabalho geridos para o Apache Airflow na AWSMLflowTensorFlow estendidoFluxos de trabalho humanos no circuitoMelhores práticas de MLOpsExcelência operacionalSegurançaFiabilidadeEficiência de desempenhoOtimização de custosServiços de IA da Amazon e AutoML com o Amazon SageMakerServiços de IA da AmazonAutoML com SageMaker AutopilotIngestão, exploração e preparação de dados na AWSIngestão de dados e Data Lakes com o Amazon S3 e AWS Lake FormationAnálise de dados com o Amazon Athena, o Amazon Redshift e o Amazon QuickSightAvalia a qualidade dos dados com o AWS Deequ e as tarefas de processamento do SageMakerRotula os dados de treino com o SageMaker Ground TruthTransformação de dados com AWS Glue DataBrew, SageMaker Data Wrangler e SageMaker Processing JobsTreinamento e ajuste de modelos com o Amazon SageMakerTreinar modelos com o SageMaker Treinamento e experiênciasAlgoritmos incorporadosTraz o teu próprio guião (Modo de guião)Traz o teu próprio recipienteSoluções pré-construídas e modelos pré-treinados com o SageMaker JumpStartAjusta e valida modelos com o ajuste de hiper-parâmetros do SageMakerImplantação de modelos com o Amazon SageMaker e funções AWS LambdaPontos de extremidade do SageMakerTransformação em lote SageMakerImplantação de modelos sem servidor com o AWS LambdaAnalítica de streaming e aprendizagem automática na AWSAmazon Kinesis StreamingAmazon Managed Streaming para o Apache KafkaPrevisões de streaming e deteção de anomaliasInfraestrutura AWS e hardware personalizadoTipos de Instância do SageMaker ComputeGPUs e hardware de computação personalizado da AmazonNetwork+ optimizado para GPU e hardware personalizadoOpções de armazenamento optimizadas para o treino de modelos em grande escalaReduzir custos com etiquetas, orçamentos e alertasResumo
Inovação em todos os sectoresRecomendações personalizadas de produtosRecomenda produtos com o Amazon PersonalizeGera recomendações com o Amazon SageMaker e o TensorFlowGera recomendações com o Amazon SageMaker e o Apache SparkDetecta vídeos impróprios com o Amazon RekognitionPrevisão da procuraPrevê o consumo de energia com o Amazon ForecastPrevê a procura de instâncias do Amazon EC2 com o Amazon ForecastIdentifica contas falsas com o Detetor de Fraudes da AmazonAtivar a deteção de fuga de privacidade com o Amazon MacieDispositivos de conversação e assistentes de vozReconhecimento de voz com o Amazon LexConversão de texto em voz com o Amazon PollyConversão de voz para texto com o Amazon TranscribeAnálise de texto e processamento de linguagem naturalTraduzir idiomas com o Amazon TranslateClassifica as mensagens de apoio ao cliente com o Amazon ComprehendExtrai detalhes do currículo com o Amazon Textract e o ComprehendPesquisa Cognitiva e Compreensão de Linguagem NaturalCentros inteligentes de apoio ao clienteServiços de IA industrial e manutenção preditivaAutomação doméstica com AWS IoT e Amazon SageMakerExtrai informações médicas de documentos de saúdeInfraestrutura Cloud inteligente e auto-optimizadaEscalonamento automático preditivo para o Amazon EC2Deteção de anomalias em fluxos de dadosInteligência Empresarial Cognitiva e PreditivaFaz perguntas em linguagem natural com o Amazon QuickSightTreina e invoca modelos SageMaker com o Amazon RedshiftInvoca modelos do Amazon Comprehend e do SageMaker a partir da base de dados SQL do Amazon AuroraInvoca o modelo SageMaker a partir do Amazon AthenaExecuta previsões em dados de gráfico usando o Amazon NeptuneEducar a próxima geração de programadores de IA e MLCria modelos de visão computacional com o AWS DeepLensAprende o aprendizado por reforço com o AWS DeepRacerCompreende as GANs com o AWS DeepComposerPrograma o sistema operativo da natureza com a computação quânticaBits Quânticos Versus Bits DigitaisA supremacia quântica e as eras da computação quânticaDecifrar a criptografiaSimulações moleculares e descoberta de medicamentosOptimizações logísticas e financeirasAprendizagem automática quântica e IAProgramar um computador quântico com o Amazon BraketCentro AWS para Computação QuânticaAumenta o desempenho e reduz os custosRevisões automáticas de código com o CodeGuru ReviewerMelhora o desempenho das aplicações com o CodeGuru ProfilerMelhora a disponibilidade das aplicações com o DevOps GuruResumo
Aprendizagem automática de máquinas com o piloto automático da SageMakerAcompanha as experiências com o piloto automático do SageMakerTreina e implementa um classificador de texto com o SageMaker AutopilotTreina e implementa com o SageMaker Autopilot UITreina e implementa um modelo com o SageMaker Autopilot Python SDKPrevê com o Amazon Athena e o SageMaker AutopilotTreina e prevê com o Amazon Redshift ML e o SageMaker AutopilotAprendizagem automática de máquinas com o Amazon ComprehendPrevê com o modelo incorporado do Amazon ComprehendTreina e implementa um modelo personalizado com a IU do Amazon ComprehendTreina e implementa um modelo personalizado com o Amazon Comprehend Python SDKResumo
Lagos de dadosImportar dados para o lago de dados S3Descreve o conjunto de dadosConsulta o lago de dados do Amazon S3 com o Amazon AthenaAcede ao Athena a partir da consola da AWSRegistar dados S3 como uma tabela AthenaActualiza as tabelas do Athena à medida que chegam novos dados com o AWS Glue CrawlerCria uma tabela baseada em parquet no AthenaIngerir continuamente novos dados com o AWS Glue CrawlerConstrói uma casa no lago com o Amazon Redshift SpectrumExportar dados do Amazon Redshift para o S3 Data Lake como ParquetPartilha de dados entre clusters do Amazon RedshiftEscolhe entre o Amazon Athena e o Amazon RedshiftReduzir os custos e aumentar o desempenhoS3 Intelligent-TieringDivisórias de parquet e compressãoDesenho e compressão de tabelas do Amazon RedshiftUtiliza Bloom Filters para melhorar o desempenho da consultaVisualizações materializadas no Amazon Redshift SpectrumResumo
Ferramentas para explorar dados no AWSVisualiza o nosso lago de dados com o SageMaker StudioPrepara o SageMaker Studio para visualizar o nosso conjunto de dadosExecuta um exemplo de consulta Athena no SageMaker StudioMergulha profundamente no conjunto de dados com o Athena e o SageMakerConsulta o nosso Data WarehouseExecuta uma consulta de amostra do Amazon Redshift a partir do SageMaker StudioMergulha profundamente no conjunto de dados com o Amazon Redshift e o SageMakerCria Dashboards com o Amazon QuickSightDetecta problemas de qualidade de dados com o Amazon SageMaker e o Apache SparkSageMaker Processamento EmpregosAnalisa o nosso conjunto de dados com o Deequ e o Apache SparkDetetar preconceitos no nosso conjunto de dadosGera e Visualiza Relatórios de Preconceitos com o SageMaker Data WranglerDetetar distorções com uma tarefa de processamento do SageMaker ClarifyIntegra a Deteção de Preconceitos em Scripts Personalizados com o SageMaker Clarify Open SourceAtenua o enviesamento dos dados equilibrando-osDetecta diferentes tipos de desvio com o SageMaker ClarifyAnalisa os nossos dados com o AWS Glue DataBrewReduzir os custos e aumentar o desempenhoUsa um compartimento S3 partilhado para resultados de consultas Athena não sensíveisContagens aproximadas com HyperLogLogDimensiona dinamicamente um Data Warehouse com AQUA para Amazon RedshiftMelhora o desempenho do Dashboard com o QuickSight SPICEResumo
Efectua a seleção e engenharia de caraterísticasSelecionar caraterísticas de treino com base na importância das caraterísticasEquilibra o conjunto de dados para melhorar a precisão do modeloDivide o conjunto de dados em conjuntos de treino, validação e testeTransforma texto em bruto em BERT EmbeddingsConverte caraterísticas e rótulos para o formato de ficheiro TensorFlow optimizadoEscala a engenharia de recursos com empregos de processamento do SageMakerTransforma com o scikit-learn e o TensorFlowTransforma com o Apache Spark e o TensorFlowPartilha caraterísticas através do SageMaker Feature StoreIngerir recursos no armazenamento de recursos do SageMakerRecupera caraterísticas do SageMaker Feature StoreIngere e transforma dados com o SageMaker Data WranglerAcompanha a linhagem de artefactos e experiências com o Amazon SageMakerCompreende os conceitos de rastreio de linhagemMostra a linhagem de um trabalho de engenharia de recursosCompreender o SageMaker Experiments APIIngerir e transformar dados com o AWS Glue DataBrewResumo
Compreende a infraestrutura SageMakerIntrodução aos contentores SageMakerAumenta a disponibilidade com o isolamento de computação e de redeImplementa um modelo BERT pré-treinado com o SageMaker JumpStartDesenvolve um modelo SageMakerAlgoritmos incorporadosTraz o teu próprio guiãoTraz o teu próprio recipienteUma breve história do processamento de linguagem naturalArquitetura do transformador BERTTreinar o BERT a partir do zeroModelo de linguagem mascaradaPrevisão da frase seguinteAperfeiçoa um modelo BERT pré-treinadoCria o guião de formaçãoConfigura as divisões dos conjuntos de dados de treino, validação e testeConfigura o modelo de classificador personalizadoTreina e valida o modeloGuarda o modeloLança o Script de Treinamento a partir de um Notebook SageMakerDefine as métricas a captar e monitorizarConfigura os hiper-parâmetros para o nosso algoritmoSeleciona o tipo de instância e a contagem de instânciasColoca tudo no bloco de notasTransfere e inspecciona o nosso modelo treinado a partir do S3Mostra a linhagem da experiência para o nosso trabalho de formação SageMakerMostra a linhagem do artefacto para o nosso trabalho de formação SageMakerAvalia os modelosExecuta algumas previsões ad hoc a partir do bloco de notasAnalisa o nosso classificador com uma matriz de confusãoVisualiza a nossa rede neural com o TensorBoardMonitoriza as métricas com o SageMaker StudioMonitoriza as métricas com o CloudWatch MetricsDepura e traça o perfil do treinamento de modelos com o depurador do SageMakerDetetar e resolver problemas com as regras e acções do SageMaker DebuggerPerfil Formação EmpregosInterpreta e explica as previsões do modeloDetecta o desvio do modelo e explica as previsõesDetetar distorções com uma tarefa de processamento do SageMaker ClarifyAtribuição de caraterísticas e importância com SageMaker Clarify e SHAPMais opções de formação para o BERTConverte o modelo BERT do TensorFlow para PyTorchTreina modelos BERT do PyTorch com o SageMakerTreina modelos Apache MXNet BERT com o SageMakerTreina modelos BERT com PyTorch e a biblioteca AWS Deep JavaReduzir os custos e aumentar o desempenhoUtiliza pequenas instâncias do NotebookTesta os scripts de treino de modelos localmente no NotebookPerfil Empregos de formação com o SageMaker DebuggerComeça com um modelo pré-treinadoUsa meia precisão de 16 bits e bfloat16Mistura de 32 bits de precisão total e 16 bits de meia precisãoQuantizaçãoUsa hardware otimizado para treinamentoInstâncias pontuais e pontos de controloRegra de paragem antecipada no depurador do SageMakerResumo
Encontra automaticamente os melhores hiper-parâmetros do modeloConfigurar os intervalos de hiperparâmetrosExecuta a tarefa de ajuste do hiper-parâmetroAnalisa os melhores hiper-parâmetros da tarefa de afinaçãoMostra a linhagem da experiência para o nosso trabalho de afinação SageMakerUsa o Warm Start para tarefas adicionais de ajuste de hiper-parâmetros do SageMakerExecuta uma tarefa HPT usando o Warm StartAnalisa os melhores hiper-parâmetros da tarefa de afinação de arranque a quenteAmplia a escala com a Formação Distribuída SageMakerEscolhe uma estratégia de comunicação distribuídaEscolhe uma estratégia de paralelismoEscolhe um sistema de ficheiros distribuídoLança a tarefa de formação distribuídaReduzir os custos e aumentar o desempenhoComeça com intervalos razoáveis de hiper-parâmetrosFragmentar os dados com ShardedByS3KeyTransmite dados em tempo real com o modo PipePermite um Network+ melhoradoResumo
Escolhe Previsões em Tempo Real ou em LotePrevisões em tempo real com SageMaker EndpointsImplanta o modelo usando o SageMaker Python SDKAcompanha a implementação do modelo na nossa experiênciaAnalisa a linhagem de experiências de um modelo implementadoInvoca previsões usando o SageMaker Python SDKInvoca Previsões usando HTTP POSTCria Pipelines de InferênciaInvoca modelos SageMaker a partir de consultas SQL e baseadas em gráficosEscala automaticamente os pontos de extremidade do SageMaker usando o Amazon CloudWatchDefine uma política de dimensionamento com métricas fornecidas pela AWSDefine uma política de escalonamento com uma métrica personalizadaAjustar a capacidade de resposta utilizando um período de arrefecimentoPolíticas de auto-escalaEstratégias de implementação de modelos novos e actualizadosTráfego dividido para lançamentos canáriosMuda o tráfego para implantações azuis/verdesTeste e comparação de novos modelosExecuta testes A/B para comparar variantes de modelosAprendizagem por reforço com teste de bandido multiarmasMonitoriza o desempenho do modelo e detecta desviosAtivar a captura de dadosCompreende as linhas de base e a derivaMonitora a qualidade dos dados dos SageMaker Endpoints implantadosCria uma linha de base para medir a qualidade dos dadosAgenda os trabalhos de monitorização da qualidade dos dadosInspecciona os resultados da qualidade dos dadosMonitora a qualidade do modelo dos pontos de extremidade implantados do SageMakerCria uma linha de base para medir a qualidade do modeloAgenda os trabalhos de monitorização da qualidade do modeloInspecciona os resultados da monitorização da qualidade do modeloMonitora o desvio de tendência dos pontos de extremidade implantados do SageMakerCria uma linha de base para detetar preconceitosMonitorização de desvios de programação EmpregosInspecciona os resultados da monitorização do desvio de polarizaçãoMonitora o desvio de atribuição de recursos dos pontos de extremidade implantados do SageMakerCria uma linha de base para monitorizar a atribuição de funcionalidadesAtribuição da função de programação Trabalhos de monitorização da derivaInspecionar os resultados do controlo da deriva da atribuição do elementoExecuta previsões em lote com SageMaker Batch TransformSelecionar um tipo de instânciaPrepara os dados de entradaAjusta a configuração de transformação em lote do SageMakerPrepara a tarefa de transformação em lote do SageMakerExecuta a tarefa de transformação em lote do SageMakerRevê as previsões de lotesFunções AWS Lambda e Amazon API GatewayOptimiza e gere modelos no EdgeImplementa um modelo PyTorch com o TorchServeInferência TensorFlow-BERT com a biblioteca Java do AWS DeepReduzir os custos e aumentar o desempenhoEliminar pontos finais não utilizados e dimensionar em clusters subutilizadosImplementa vários modelos num contentorAnexa um acelerador de inferência elástica baseado em GPUOtimiza um modelo treinado com o SageMaker Neo e o TensorFlow LiteUsa hardware otimizado por inferênciaResumo

Operações de aprendizagem automáticaPipelines de softwarePipelines de aprendizagem automáticaComponentes de pipelines de aprendizagem automática eficazesEtapas de um pipeline de aprendizagem automática eficazOrquestração de pipelines com o SageMaker PipelinesCria uma experiência para seguir a linha do nosso pipelineDefine as etapas do nosso pipelineConfigura os parâmetros do pipelineCria o pipelineInicia o Pipeline com o Python SDKInicia o Pipeline com o SageMaker Studio UIAprova o modelo de preparação e produçãoRevê a linhagem de artefactos do pipelineRevê a linhagem da experiência do pipelineAutomatização com o SageMaker PipelinesAciona o GitOps ao fazer o commit do códigoS3 Trigger quando chegam novos dadosAcionador de programa baseado no tempoDisparador de desvio estatísticoMais opções de condutasFunções AWS Step e o SDK de ciência de dadosPipelines KubeflowApache AirflowMLflowTensorFlow estendidoFluxos de trabalho humanos no circuitoMelhorar a precisão do modelo com o Amazon A2ILoops de feedback de aprendizagem ativa com o SageMaker Ground TruthReduzir os custos e melhorar o desempenhoEtapas do pipeline de cacheUtiliza instâncias Spot menos dispendiosasResumo
Aprendizagem em linha versus aprendizagem fora de linhaAplicações de streamingConsultas em Windows sobre dados em fluxo contínuoEscalonar WindowsJanelas de quedaWindows de correrAnalítica de streaming e aprendizagem automática na AWSClassifica as avaliações de produtos em tempo real com o Amazon Kinesis, o AWS Lambda e o Amazon SageMakerImplementar a ingestão de dados em fluxo contínuo utilizando o Amazon Kinesis Data FirehoseCria uma função Lambda para invocar o SageMaker EndpointCria o fluxo de entrega do Kinesis Data FirehoseColoca mensagens no fluxoResume as análises de produtos em tempo real com o Streaming AnalyticsConfigurar a análise de dados do Amazon KinesisCriar um fluxo de dados do Kinesis para fornecer dados a um aplicativo personalizadoCria uma função AWS Lambda para enviar notificações através do Amazon SNSCria uma função AWS Lambda para publicar métricas no Amazon CloudWatchTransforma os dados de streaming no Kinesis Data AnalyticsCompreende os fluxos e as bombas na aplicaçãoAplicações de análise de dados do Amazon KinesisCalcula a classificação média por estrelasDetecta anomalias em dados em fluxo contínuoCalcula contagens aproximadas de dados em fluxo contínuoCria a aplicação de análise de dados do KinesisInicia a aplicação de análise de dados KinesisColoca mensagens no fluxoClassifica as avaliações de produtos com o Apache Kafka, o AWS Lambda e o Amazon SageMakerReduzir os custos e melhorar o desempenhoAgrega mensagensConsidera o Kinesis Firehose versus o Kinesis Data StreamsHabilita o Fan-Out aprimorado para fluxos de dados do KinesisResumo
Modelo de responsabilidade partilhada entre a AWS e os clientesAplicar o AWS Identity and Access ManagementUtilizadores IAMPolíticas de IAMFunções de utilizador IAMFunções de serviço IAMEspecificar chaves de condição para funções IAMAtivar a Autenticação MultifactorAcesso com privilégios mínimos com funções e políticas de IAMPolíticas de IAM baseadas em recursosPolíticas de IAM baseadas em identidadeIsola os ambientes de computação e de redeNuvem privada virtualPontos de extremidade VPC e PrivateLinkLimitar as APIs do Athena com uma política de ponto de extremidade VPCProteger o acesso aos dados do Amazon S3Requer um ponto de extremidade VPC com uma política de bucket S3Limitar APIs S3 para um bucket S3 com uma política de ponto de extremidade VPCRestringir o acesso ao S3 Bucket a uma VPC específica com uma política de S3 BucketLimitar APIs S3 com uma política de bucket S3Restringir o acesso aos dados S3 usando políticas de função IAMRestringir o acesso ao S3 Bucket a uma VPC específica com uma política de função IAMRestringir o acesso aos dados do S3 usando pontos de acesso do S3Encriptação em repousoCria uma chave AWS KMSCriptografa os volumes do Amazon EBS durante o treinamentoEncripta o modelo carregado no S3 após o treinoArmazena chaves de encriptação com o AWS KMSAplicar a criptografia S3 para objetos S3 carregadosAplica a criptografia em repouso para trabalhos do SageMakerAplica criptografia em repouso para notebooks SageMakerAplica a criptografia em repouso para o SageMaker StudioEncriptação em trânsitoEncriptação TLS Post-Quantum em trânsito com KMSCriptografa o tráfego entre os contêineres do cluster de treinamentoAplicar encriptação entre contentores para tarefas SageMakerProtegendo instâncias do SageMaker NotebookNegar acesso à raiz dentro dos notebooks SageMakerDesativar o acesso à Internet para os notebooks do SageMakerProtegendo o SageMaker StudioRequer uma VPC para o SageMaker StudioAutenticação do SageMaker StudioProtegendo trabalhos e modelos do SageMakerRequer uma VPC para trabalhos do SageMakerRequer isolamento de rede para trabalhos SageMakerProteger a formação de lagos da AWSProtegendo credenciais de banco de dados com o AWS Secrets ManagerGovernaçãoProtege ambientes AWS de várias contas com a AWS Control TowerGerir contas com organizações AWSAplicar permissões ao nível da conta com SCPsImplementa implementações de modelos de várias contasAuditabilidadeEtiqueta RecursosRegistar atividades e recolher eventosMonitoriza a atividade do utilizador e as chamadas APIReduzir os custos e melhorar o desempenhoLimitar os tipos de instância para controlar o custoColoca em quarentena ou elimina recursos não marcadosUtiliza as chaves KMS do S3 Bucket para reduzir os custos e aumentar o desempenhoResumo

Content preview from Ciência de dados na AWS

Capítulo 6. Prepara o conjunto de dados para o treinamento do modelo

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Em o capítulo anterior, explorámos o nosso conjunto de dados utilizando o SageMaker Studio e várias bibliotecas de visualização baseadas em Python. Obtivemos algumas informações comerciais importantes sobre o nosso catálogo de produtos utilizando o Amazon Customer Reviews Dataset. Além disso, analisámos estatísticas resumidas e realizámos verificações de qualidade no nosso conjunto de dados utilizando o SageMaker Processing Jobs, o Apache Spark e a biblioteca de código aberto AWS Deequ.

Neste capítulo, discutimos como transformar texto legível por humanos em vectores legíveis por máquinas, num processo chamado "engenharia de caraterísticas". Especificamente, converte a coluna review_body bruta do conjunto de dados Amazon Customer Reviews em vectores BERT. Utilizamos estes vectores BERT para treinar e otimizar um modelo de classificador de críticas nos Capítulos 7 e 8, respetivamente. No Capítulo 7, também nos aprofundaremos nas origens do processamento de linguagem natural e do BERT.

Usaremos o modelo de classificador de avaliação para prever o star_rating de avaliações de produtos de canais sociais, sites de parceiros, etc. Ao prever o star_rating das críticas, as equipas de gestão de produtos e de apoio ao cliente podem utilizar estas previsões para resolver problemas de qualidade à medida ...