Capítulo 3. Gestión de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
3.0 Introducción
La manipulación de datos es un término amplio que se utiliza, a menudo de manera informal, para describir el proceso de transformación de datos brutos en un formato limpio y organizado, listo para su uso. Para nosotros, la manipulación de datos es sólo un paso en el preprocesamiento de nuestros datos, pero es un paso importante.
La estructura de datos más utilizada para "manejar" datos es el marco de datos , que puede ser intuitivo e increíblemente versátil. Los marcos de datos son tabulares, es decir, se basan en filas y columnas como las que verías en una hoja de cálculo. Aquí tienes un marco de datos creado a partir de datos sobre los pasajeros del Titanic:
# Load libraryimportpandasaspd# Create URLurl='https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'# Load data as a dataframedataframe=pd.read_csv(url)# Show first five rowsdataframe.head(5)
| Nombre | Clase PC | Edad | Sexo | Sobrevivido | CódigoSexo | |
|---|---|---|---|---|---|---|
| 0 | Allen, Srta. Elisabeth Walton | 1º | 29.00 | mujer | 1 | 1 |
| 1 | Allison, Srta. Helen Loraine | 1º | 2.00 | mujer | 0 | 1 |
| 2 | Allison, Sr. Hudson Joshua Creighton | 1º | 30.00 | hombre | 0 | 0 |
| 3 | Allison, Sra. Hudson JC (Bessie Waldo Daniels) | 1º | 25.00 | mujer | 0 | 1 |
| 4 | Allison, Maestro Hudson Trevor | 1º | 0.92 | hombre | 1 | 0 |
Hay tres cosas importantes que observar en este marco de datos.
En primer lugar, en un marco de ...