Capítulo 3. Gestión de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
3.0 Introducción
La manipulación de datos es un término amplio que se utiliza, a menudo de manera informal, para describir el proceso de transformación de datos brutos en un formato limpio y organizado, listo para su uso. Para nosotros, la manipulación de datos es sólo un paso en el preprocesamiento de nuestros datos, pero es un paso importante.
La estructura de datos más utilizada para "manejar" datos es el marco de datos , que puede ser intuitivo e increíblemente versátil. Los marcos de datos son tabulares, es decir, se basan en filas y columnas como las que verías en una hoja de cálculo. Aquí tienes un marco de datos creado a partir de datos sobre los pasajeros del Titanic:
# Load library
import
pandas
as
pd
# Create URL
url
=
'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'
# Load data as a dataframe
dataframe
=
pd
.
read_csv
(
url
)
# Show first five rows
dataframe
.
head
(
5
)
Nombre | Clase PC | Edad | Sexo | Sobrevivido | CódigoSexo | |
---|---|---|---|---|---|---|
0 | Allen, Srta. Elisabeth Walton | 1º | 29.00 | mujer | 1 | 1 |
1 | Allison, Srta. Helen Loraine | 1º | 2.00 | mujer | 0 | 1 |
2 | Allison, Sr. Hudson Joshua Creighton | 1º | 30.00 | hombre | 0 | 0 |
3 | Allison, Sra. Hudson JC (Bessie Waldo Daniels) | 1º | 25.00 | mujer | 0 | 1 |
4 | Allison, Maestro Hudson Trevor | 1º | 0.92 | hombre | 1 | 0 |
Hay tres cosas importantes que observar en este marco de datos.
En primer lugar, en un marco de ...
Get Recetario de Aprendizaje Automático con Python, 2ª Edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.