book

Python Polars: O Guia Definitivo

by Jeroen Janssens, Thijs Nieuwdorp

March 2025

Beginner to intermediate

504 pages

11h 53m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Read now

Unlock full access

A quem se destina este livroHanna: A analista de dadosKosjo: O engenheiro de dadosUm público mais vastoTira mais partido deste livroConvenções utilizadas neste livroAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
O que é esta coisa chamada Polares?Caraterísticas principaisConceitos-chaveVantagensPorque é que deves usar PolarsDesempenhoUsabilidadePopularidadeSustentabilidadePolars em comparação com outros pacotes de processamento de dadosPorque é que nos concentramos nos Python PolarsComo este livro está organizadoUma demonstração de ETLExtraiBónus: Visualizar bairros e estaçõesTransforma-teBónus: Visualização das viagens diárias por bairroCarregaBónus: Torna-te mais rápido sendo preguiçosoConclusões
Configurar o teu ambienteDescarregar o projetoInstalar o uvInstalar o projetoTrabalhar com o ambiente virtualVerificar a tua instalaçãoCurso rápido sobre o JupyterLabAtalhos de tecladoInstalação de polares noutros projectosTodas as dependências opcionaisDependências opcionais para a interoperabilidadeDependências opcionais para trabalhar com folhas de cálculoDependências opcionais para trabalhar com bancos de dadosDependências opcionais para trabalhar com sistemas de arquivos remotosDependências opcionais para outros formatos de E/SDependências opcionais para funcionalidade extraInstalação de dependências opcionaisConfiguração dos polaresConfiguração temporária usando um gerenciador de contextoConfiguração local usando um DecoradorCompilar Polars a partir do zeroCaso extremo: Conjuntos de dados muito grandesCaso extremo: Processadores sem suporte para AVXConclusões
AnimaisSemelhanças a reconhecerAparências a valorizarDiferenças no códigoDiferenças no ecrãConceitos a desaprenderÍndiceEixosIndexação e corteAnsiedadeDescontraçãoSintaxe para esquecerOperações comuns lado a ladoDe e para pandasConclusões
Séries, DataFrames e LazyFramesTipos de dadosTipos de dados aninhadosValores em faltaConversão de tipos de dadosConclusões
API do Eager: DataFrameAPI preguiçosa: LazyFrameDiferenças de desempenhoDiferenças de funcionalidadeAtributosMétodos de agregaçãoMétodos de cálculoMétodos descritivosMétodos GroupByMétodos de exportaçãoMétodos de Manipulação e SeleçãoMétodos diversosDicas e truquesGo from LazyFrame to DataFrame and Vice VersaUnindo um DataFrame com um LazyFrameArmazenamento em cache de resultados intermitentesConclusões
Visão geral do formatoLer ficheiros CSVAnalisar corretamente os valores em faltaLer ficheiros com codificações diferentes de UTF-8Ler folhas de cálculo do ExcelTrabalhar com vários ficheirosParquet de leituraLer JSON e NDJSONJSONNDJSONOutros formatos de ficheiroConsulta de bases de dadosEscrever dadosFormato CSVFormato ExcelFormato ParquetOutras consideraçõesConclusões

Métodos e NamespacesExpressões por exemploSeleção de colunas com expressõesCriar novas colunas com expressõesFiltrar linhas com expressõesAgregação com expressõesOrdenar linhas com expressõesA definição de uma expressãoPropriedades das expressõesCriar expressõesA partir de colunas existentesDe valores literaisDos intervalosOutras funções para criar expressõesRenomear expressõesAs expressões são idiomáticasConclusões
Tipos de operaçõesExemplo A: Operações com elementosExemplo B: Operações que se resumem a umExemplo C: Operações que resumem a um ou maisExemplo D: Operações que se estendemOperações com elementosOperações que realizam transformações matemáticasOperações relacionadas com a TrigonometriaOperações que arredondam e categorizamOperações para valores em falta ou infinitosOutras operaçõesOperações em série não redutorasOperações que acumulamOperações que enchem e deslocamOperações relacionadas a valores duplicadosOperações que calculam estatísticas de rolagemOperações que ordenamOutras operaçõesOperações em série que se resumem a umOperações que são quantificadoresOperações que calculam estatísticasOperações que contamOutras operaçõesOperações em série que resumem a um ou maisOperações relacionadas a valores exclusivosOperações que selecionamOperações que eliminam valores em faltaOutras operaçõesOperações em série que se estendemConclusões
Operadores em linha versus métodosOperações aritméticasOperações de comparaçãoOperações de álgebra booleanaOperações bit a bitUtilizar funçõesQuando, então, senãoConclusões
Seleção de colunasApresentando os seletoresSelecionar com base no nomeSeleção com base no tipo de dadosSeleção com base na posiçãoCombinar selectoresCriar colunasOperações de coluna relacionadasDeixar cairRenomearEmpilhamentoAdicionar índices de linhaConclusões
Filtragem de linhasFiltragem baseada em expressõesFiltragem baseada em nomes de colunasFiltragem baseada em restriçõesOrdenar linhasOrdenação baseada numa única colunaOrdenar em sentido inversoOrdenar com base em várias colunasOrdenação baseada em expressõesOrdenação de tipos de dados aninhadosOperações de linha relacionadasFiltragem de valores em faltaCortaEm cima e em baixoAmostragemSemi-juntasConclusões
CordasMétodos StringExemplos de cadeias de caracteresCategóricaMétodos categóricosExemplos categóricosEnumTemporalMétodos temporaisExemplos temporaisListaMétodos de listagemLista de exemplosMatrizMétodos de matrizExemplos de matrizesEstruturaMétodos StructExemplos de StructConclusões
Dividir, aplicar e combinarContexto GroupByOs descritivosMétodos avançadosAgregações em linhaFunções do Windows no contexto de seleçãoAgrupamento dinâmicoAgregações progressivasUpsamplingConclusões
AderirEstratégias de adesãoUnir em várias colunasValidaçãoJunção inexactaEstratégias de junção inexactasAfinação adicionalCaso de utilização: Atribuição de campanhas de marketingConcatenação vertical e horizontalVerticalHorizontalDiagonalAlinhaDescontraídoEmpilhamentoAnexarEstenderConclusões
DataFrames largos versus longosPivotar para um DataFrame mais amploDesinclinar para um DataFrame mais longoTransposiçãoExplosãoPartição em vários DataFramesConclusões
Viagens de bicicleta em Nova IorquePlotagem integrada com AltairApresentamos-te o AltairMétodos nos espaços nominais de plotagemPlotagem de DataFramesDemasiado grande para manusearTraçar sériesPlotagem semelhante ao pandas com hvPlotApresentando o hvPlotUm primeiro enredoMétodos no espaço de nomes hvPlotpandas como BackupTransformações manuaisModificar o backend de plotagemTraçar pontos num mapaComposição de enredosAdicionar widgets interactivosGráficos com qualidade de publicação com plotnineApresentamos-te o plotnineParcelas para exploraçãoParcelas para comunicaçãoEstilizando DataFrames com ótimas tabelasConclusões
Funções definidas pelo utilizador em PythonAplicar uma função a elementosAplicar uma função a uma sérieAplicar uma função a gruposAplicar uma função a uma expressãoAplicação de uma função a um DataFrame ou LazyFrameRegistar o teu próprio espaço de nomePlugins Polares em RustPré-requisitosA Anatomia de um Projeto de PluginO PluginCompilar o pluginReferência de desempenhoArgumentos de registoUtilizar um caixote RustCaso de utilização: geoConclusões
Arquitetura de PolarsSetaComputações multithreaded e operações SIMDO tipo de dados String na memóriaChunkedArrays em SérieOtimização de consultasOptimizações ao nível do scan LazyFrameOutras optimizaçõesVerificar as tuas expressõesmeta Namespace Descrição geralmeta Namespace ExemplosPolares de perfilagemTestes em PolarsComparando DataFrames e SériesAntipadrões comunsUtilização de parênteses para seleção de colunasUtilização indevida do CollectUtilizar código Python nas tuas consultas PolarsConclusões
NVIDIA RAPIDSInstalar o motor GPUPasso 1: Instala o WSL2 no WindowsPasso 2: Instala o Ubuntu Linux no WSL2Passo 3: Instala os pacotes de pré-requisitos do Ubuntu LinuxPasso 4: Instala o kit de ferramentas CUDAPasso 5: Instala as Dependências do PythonPasso 6: Testa a tua instalaçãoUtilizar o motor GPU PolarsConfiguraçãoCaraterísticas não suportadasAvalia o motor GPU PolarsSoluçõesConsultas e dadosMétodoResultados e discussãoConclusãoO futuro dos polares na GPUConclusões

Content preview from Python Polars: O Guia Definitivo

Capítulo 15. Remodelar

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

No último capítulo, concentrámo-nos na agregação de dados para criar resumos informativos. No entanto, o que deves fazer se os dados não estiverem na forma correta para realizar estas agregações? A reformulação dos dados é um passo crucial no processo de análise de dados.

Neste capítulo, aprenderás a:

Reformula os dados para os tornar mais adequados à análise
Altera as dimensões dos dados para os tornar mais adequados para análise, melhorar o desempenho computacional ou prepará-los para visualização
Utiliza os vários métodos que a Polars oferece, tais como df.pivot(), df.unpivot(), df.transpose(), df.explode(), e df.partition_by()

As instruções para obter quaisquer ficheiros de que possas precisar estão no Capítulo 2. Assumimos que tens os ficheiros na subdiretoria de dados.

DataFrames largos versus longos

Os quadros de dados largos têm muitas colunas e poucas linhas. A ideia é que cada linha contenha uma coluna com um identificador e que os dados estejam distribuídos por muitas colunas. Este formato é frequentemente utilizado quando existem várias medições por observação. Um exemplo de dados largos seria o seguinte:

grades_wide = pl.DataFrame(
    {
        "student": ["Jeroen", "Thijs", "Ritchie"],
        "math": [85, 78, 92],
        "science": [90, 82, 85],
        "history": [88, 80, 87],
    }
)

grades_wide

shape: (3, 4) ┌─────────┬──────┬─────────┬─────────┐ ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341637962Supplemental Content

Python Polars: O Guia Definitivo

by Jeroen Janssens, Thijs Nieuwdorp

Capítulo 15. Remodelar

DataFrames largos versus longos

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Analítica de futebol com Python e R

Padrões de arquitetura com Python

Spark: O Guia Definitivo

Modelos de aprendizagem automática e ciência de dados para finanças

Publisher Resources

Capítulo 15. Remodelar

DataFrames largos versus longos

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Analítica de futebol com Python e R

Padrões de arquitetura com Python

Spark: O Guia Definitivo

Modelos de aprendizagem automática e ciência de dados para finanças

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.