book

Python para Análise de Dados, 3ª Edição

Name: Python para Análise de Dados, 3ª Edição
Author: Wes McKinney
ISBN: 9798341641280

by Wes McKinney

April 2025

Intermediate to advanced

582 pages

13h 33m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Read now

Unlock full access

Prefácio
Convenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentosIn Memoriam: John D. Hunter (1968-2012)Agradecimentos da terceira edição (2022)Agradecimentos da segunda edição (2017)Agradecimentos pela primeira edição (2012)
Preliminares
1.1 De que trata este livro?Que tipos de dados?1.2 Porquê Python para análise de dados?Python como colaResolver o problema das "duas línguas"Porque não o Python?1.3 Bibliotecas Python essenciaisNumPypandasmatplotlibIPython e JupyterSciPyscikit-learnmodelos estatísticosOutros pacotes1.4 Instalação e configuraçãoMiniconda no WindowsGNU/LinuxMiniconda no macOSInstalar os pacotes necessáriosAmbientes de desenvolvimento integrado e editores de texto1.5 Comunidade e conferências1.6 Navegar neste livroExemplos de códigosDados para exemplosConvenções de importação
Noções básicas da linguagem Python, IPython e Jupyter Notebooks
2.1 O interpretador Python2.2 Noções básicas de IPythonExecutar o IPython ShellExecutando o Jupyter NotebookConclusão do separadorIntrospeção2.3 Noções básicas da linguagem PythonSemântica da línguaTipos escalaresFluxo de controlo2.4 Conclusão
Estruturas de dados, funções e ficheiros incorporados
3.1 Estruturas de dados e sequênciasTuplaListaDicionárioPrepara-teFunções de sequência incorporadasCompreensões de listas, conjuntos e dicionários3.2 FunçõesNamespaces, escopo e funções locaisRetorna vários valoresAs funções são objectosFunções anónimas (Lambda)GeradoresErros e tratamento de excepções3.3 Ficheiros e o sistema operativoBytes e Unicode com ficheiros3.4 Conclusão
Noções básicas sobre NumPy: Matrizes e Computação Vetorizada
4.1 O NumPy ndarray: Um Objeto de Matriz MultidimensionalCriar ndarraysTipos de dados para ndarraysAritmética com matrizes NumPyIndexação e corte básicosIndexação booleanaIndexação de fantasiaTransposição de matrizes e troca de eixos4.2 Geração de números pseudo-aleatórios4.3 Funções universais: Funções rápidas de matriz com elementos4.4 Programação orientada a matrizes com matrizesExpressando a lógica condicional como operações de matrizMétodos matemáticos e estatísticosMétodos para matrizes booleanasOrdenaçãoLógica de conjuntos únicos e outros4.5 Entrada e saída de ficheiros com matrizes4.6 Álgebra Linear4.7 Exemplo: Passeios aleatóriosSimulando muitos passeios aleatórios de uma só vez4.8 Conclusão
Começar a utilizar o pandas
5.1 Introdução às estruturas de dados do pandasSérieDataFrameObjetos de índice5.2 Funcionalidade essencialReindexaçãoEliminar entradas de um eixoIndexação, seleção e filtragemAlinhamento aritmético e de dadosAplicação e mapeamento de funçõesOrdenação e classificaçãoÍndices de eixos com etiquetas duplicadas5.3 Resumo e cálculo de estatísticas descritivasCorrelação e CovariânciaValores exclusivos, contagens de valores e associação5.4 Conclusão
Carregamento de dados, armazenamento e formatos de ficheiros
6.1 Ler e escrever dados em formato de textoLer ficheiros de texto por partesEscrever dados em formato de textoTrabalhar com outros formatos delimitadosDados JSONXML e HTML: Raspagem da Web6.2 Formatos de dados bináriosLer ficheiros Microsoft ExcelUtilizar o formato HDF56.3 Interagir com APIs da Web6.4 Interagir com bases de dados6.5 Conclusão
Limpeza e preparação de dados
7.1 Tratamento de dados em faltaFiltragem de dados em faltaPreencher dados em falta7.2 Transformação de dadosRemover duplicadosTransformando dados usando uma função ou mapeamentoSubstituição de valoresRenomear índices de eixosDiscretização e BinningDeteção e filtragem de outliersPermutação e amostragem aleatóriaCálculo de variáveis indicadoras/dummy7.3 Tipos de dados de extensão7.4 Manipulação de cordasMétodos incorporados de objectos String em PythonExpressões regularesFunções de cadeia de caracteres no pandas7.5 Dados categóricosAntecedentes e motivaçãoTipo de extensão categórica em pandasCálculos com categóricosMétodos categóricos7.6 Conclusão
Organizar dados: Unir, combinar e remodelar
8.1 Indexação hierárquicaReordenação e ordenação de níveisEstatísticas resumidas por nívelIndexação com as colunas de um DataFrame8.2 Combinação e fusão de conjuntos de dadosJunções de DataFrame no estilo de banco de dadosFundir no índiceConcatenação ao longo de um eixoCombinação de dados com sobreposição8.3 Remodelação e rotaçãoReformulação com indexação hierárquicaPassa do formato "longo" para o "largo"Passa do formato "largo" para o formato "longo"8.4 Conclusão
Plotagem e visualização
9.1 Uma breve introdução à API do matplotlibFiguras e subtramasCores, marcadores e estilos de linhaCarraças, rótulos e lendasAnotações e desenho numa subparcelaGuardar parcelas num ficheiroConfiguração do matplotlib9.2 Traçar gráficos com pandas e seabornParcelas de linhasLotes de barrasHistogramas e gráficos de densidadeGráficos de dispersão ou de pontosGrelhas de facetas e dados categóricos9.3 Outras ferramentas de visualização Python9.4 Conclusão

Agregação de dados e operações de grupo
10.1 Como pensar nas operações de grupoIteração sobre gruposSeleção de uma coluna ou subconjunto de colunasAgrupar com dicionários e sériesAgrupar com funçõesAgrupamento por níveis de índice10.2 Agregação de dadosAplicação de funções múltiplas e por colunasRetornando dados agregados sem índices de linha10.3 Aplicar: Geral dividir-aplicar-combinarSuprimir as teclas de grupoAnálise de quantis e de compartimentosExemplo: Preenchimento de valores em falta com valores específicos do grupoExemplifica: Amostragem aleatória e permutaçãoExemplo: Média ponderada de grupo e correlaçãoExemplo: Regressão linear de grupo10.4 Transformações de grupo e GroupBys "não envoltos"10.5 Tabelas dinâmicas e tabelas cruzadasTabulações cruzadas: Tabulação cruzada10.6 Conclusão
Séries temporais
11.1 Tipos e ferramentas de dados de data e horaConvertendo entre String e Datetime11.2 Noções básicas sobre séries temporaisIndexação, seleção, subconjuntoSéries cronológicas com índices duplicados11.3 Intervalos de datas, frequências e deslocaçõesGeração de intervalos de datasFrequências e desvios de dataMudança de dados (principais e atrasados)11.4 Tratamento do fuso horárioLocalização e conversão de fusos horáriosOperações com objectos de carimbo de data/hora sensíveis ao fuso horárioOperações entre fusos horários diferentes11.5 Períodos e aritmética de períodosConversão período-frequênciaFrequências de períodos trimestraisConverter carimbos de data/hora em períodos (e vice-versa)Criando um PeriodIndex a partir de matrizes11.6 Reamostragem e conversão de frequênciaReduzir a amostragemUpsampling e interpolaçãoReamostragem com períodosReamostragem de tempo agrupado11.7 Funções de janelas móveisFunções ponderadas exponencialmenteFunções de janela móvel bináriaFunções de janelas móveis definidas pelo utilizador11.8 Conclusão
Introdução às bibliotecas de modelação em Python
12.1 Interface entre o pandas e o código modelo12.2 Criar descrições de modelos com o PatsyTransformações de dados em fórmulas PatsyDados categóricos e Patsy12.3 Introdução aos modelos estatísticosEstimativa de modelos linearesEstimativa de processos de séries temporais12.4 Introdução ao scikit-learn12.5 Conclusão
Exemplos de análise de dados
13.1 Dados Bitly de 1.USA.govContando Fusos Horários em Python PuroConta os fusos horários com pandas13.2 Conjunto de dados MovieLens 1MMedir a discordância das classificações13.3 Nomes de bebés nos EUA 1880-2010Analisar as tendências de nomes13.4 Base de dados alimentar do USDA13.5 Base de dados da Comissão Eleitoral Federal de 2012Estatísticas de donativos por profissão e entidade patronalQuantias de donativos para o BucketingEstatísticas de doações por estado13.6 Conclusão
NumPy avançado
A.1 Aspectos internos do objeto ndarrayHierarquia de tipos de dados NumPyA.2 Manipulação avançada de matrizesReformulação de matrizesOrdem C versus FORTRANConcatenação e divisão de matrizesElementos de repetição: telha e repeteEquivalentes de indexação especiais: compra e vendaA.3 DifusãoTransmissão através de outros eixosDefinindo valores de matriz por difusãoA.4 Utilização avançada de ufuncMétodos de instância ufuncEscreve novas ufuncs em PythonA.5 Matrizes estruturadas e de registosTipos de dados aninhados e campos multidimensionaisPor que usar matrizes estruturadas?A.6 Mais sobre a ordenaçãoOrdenação indireta: argsort e lexsortAlgoritmos de ordenação alternativosOrdenação parcial de matrizesnumpy.searchsorted: Encontrando elementos em uma matriz ordenadaA.7 Escrever funções NumPy rápidas com o NumbaCriar objectos numpy.ufunc personalizados com o NumbaA.8 Entrada e saída de matriz avançadaFicheiros com memória mapeadaHDF5 e outras opções de armazenamento em matrizA.9 Sugestões de desempenhoA importância da memória contígua
Mais sobre o sistema IPython
B.1 Atalhos de teclado do terminalB.2 Acerca dos comandos mágicosO comando %runExecutando código da área de transferênciaB.3 Utilizar o histórico de comandosPesquisa e reutilização do histórico de comandosVariáveis de entrada e saídaB.4 Interagir com o sistema operativoComandos e aliases do shellSistema de marcadores de diretórioB.5 Ferramentas de desenvolvimento de softwareDepurador interativoCódigo de temporização: %time e %timeitCriação básica de perfis: %prun e %run -pCriação de perfil de uma função linha a linhaB.6 Dicas para um desenvolvimento produtivo de código usando IPythonDependências do módulo de recargaDicas de design de códigoB.7 Funcionalidades avançadas do IPythonPerfis e configuraçãoB.8 Conclusão
Índice
Sobre o autor

Content preview from Python para Análise de Dados, 3ª Edição

Capítulo 7. Limpeza e preparação dos dados

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Durante a análise e modelação de dados, gasta uma quantidade significativa de tempo na preparação de dados: carregamento, limpeza, transformação e reorganização. Estas tarefas ocupam frequentemente 80% ou mais do tempo de um analista. Por vezes, a forma como os dados são armazenados em ficheiros ou bases de dados não é a mais adequada para uma determinada tarefa. Muitos pesquisadores optam por fazer o processamento ad hoc de dados de um formato para outro usando uma linguagem de programação de uso geral, como Python, Perl, R, ou Java, ou ferramentas de processamento de texto Unix como sed ou awk. Felizmente, o pandas, juntamente com as caraterísticas da linguagem Python, fornece-te um conjunto de ferramentas de alto nível, flexíveis e rápidas que te permitem manipular os dados para a forma correta.

Se identificares um tipo de manipulação de dados que não se encontra neste livro ou noutro local da biblioteca pandas, sente-te à vontade para partilhar o teu caso de utilização numa das listas de discussão Python ou no site GitHub do pandas. De facto, grande parte do design e da implementação do pandas foram impulsionados pelas necessidades das aplicações do mundo real.

Neste capítulo, discuto ferramentas para dados em falta, dados duplicados, manipulação de cadeias de caracteres e algumas outras transformações analíticas de ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341641280

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Python para Análise de Dados, 3ª Edição

by Wes McKinney

Capítulo 7. Limpeza e preparação dos dados

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.