Capítulo 15. Remodelar
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
No último capítulo, concentrámo-nos na agregação de dados para criar resumos informativos. No entanto, o que deves fazer se os dados não estiverem na forma correta para realizar estas agregações? A reformulação dos dados é um passo crucial no processo de análise de dados.
Neste capítulo, aprenderás a:
-
Reformula os dados para os tornar mais adequados à análise
-
Altera as dimensões dos dados para os tornar mais adequados para análise, melhorar o desempenho computacional ou prepará-los para visualização
-
Utiliza os vários métodos que a Polars oferece, tais como
df.pivot(),df.unpivot(),df.transpose(),df.explode(), edf.partition_by()
As instruções para obter quaisquer ficheiros de que possas precisar estão no Capítulo 2. Assumimos que tens os ficheiros na subdiretoria de dados.
DataFrames largos versus longos
Os quadros de dados largos têm muitas colunas e poucas linhas. A ideia é que cada linha contenha uma coluna com um identificador e que os dados estejam distribuídos por muitas colunas. Este formato é frequentemente utilizado quando existem várias medições por observação. Um exemplo de dados largos seria o seguinte:
grades_wide=pl.DataFrame({"student":["Jeroen","Thijs","Ritchie"],"math":[85,78,92],"science":[90,82,85],"history":[88,80,87],})grades_wide
shape: (3, 4) ┌─────────┬──────┬─────────┬─────────┐ ...