Capítulo 8. Gestión de datos: Unir, combinar y remodelar
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En muchas aplicaciones, los datos pueden estar repartidos en varios archivos o bases de datos, o estar ordenados de una forma que no resulte cómoda de analizar. Este capítulo se centra en las herramientas que ayudan a combinar, unir y reorganizar los datos.
En primer lugar, introduzco el concepto de indexación jerárquica en pandas, que se utiliza ampliamente en algunas de estas operaciones. A continuación, profundizo en las manipulaciones de datos concretas. Puedes ver varios usos aplicados de estas herramientas en el Capítulo 13.
8.1 Indexación jerárquica
La indexación jerárquica es una importante característica de pandas que te permite tener múltiples (dos o más) niveles de índice en un eje. Otra forma de verlo es que te proporciona una forma de trabajar con datos de mayor dimensión en una forma de menor dimensión. Empecemos con un ejemplo sencillo: crea una Serie con una lista de listas (o matrices) como índice:
In
[
11
]:
data
=
pd
.
Series
(
np
.
random
.
uniform
(
size
=
9
),
....
:
index
=
[[
"a"
,
"a"
,
"a"
,
"b"
,
"b"
,
"c"
,
"c"
,
"d"
,
"d"
],
....
:
[
1
,
2
,
3
,
1
,
3
,
1
,
2
,
2
,
3
]])
In
[
12
]:
data
Out
[
12
]:
a
1
0.929616
2
0.316376
3
0.183919
b
1
0.204560
3
0.567725
c
1
0.595545
2
0.964515
d
2
0.653177
3
0.748907
dtype
:
float64
Lo que ves es una vista embellecida de una Serie con un MultiIndex
como índice. Los "huecos" en la visualización ...
Get Python para el Análisis de Datos, 3ª Edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.