Capítulo 3. Gestión de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

3.0 Introducción

La manipulación de datos es un término amplio que se utiliza, a menudo de manera informal, para describir el proceso de transformación de datos brutos en un formato limpio y organizado, listo para su uso. Para nosotros, la manipulación de datos es sólo un paso en el preprocesamiento de nuestros datos, pero es un paso importante.

La estructura de datos más utilizada para "manejar" datos es el marco de datos , que puede ser intuitivo e increíblemente versátil. Los marcos de datos son tabulares, es decir, se basan en filas y columnas como las que verías en una hoja de cálculo. Aquí tienes un marco de datos creado a partir de datos sobre los pasajeros del Titanic:

# Load library
import pandas as pd

# Create URL
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Load data as a dataframe
dataframe = pd.read_csv(url)

# Show first five rows
dataframe.head(5)
Nombre Clase PC Edad Sexo Sobrevivido CódigoSexo
0 Allen, Srta. Elisabeth Walton 29.00 mujer 1 1
1 Allison, Srta. Helen Loraine 2.00 mujer 0 1
2 Allison, Sr. Hudson Joshua Creighton 30.00 hombre 0 0
3 Allison, Sra. Hudson JC (Bessie Waldo Daniels) 25.00 mujer 0 1
4 Allison, Maestro Hudson Trevor 0.92 hombre 1 0

Hay tres cosas importantes que observar en este marco de datos.

En primer lugar, en un marco de ...

Get Recetario de Aprendizaje Automático con Python, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.