Skip to Content
Referencia de bolsillo sobre aprendizaje automático
book

Referencia de bolsillo sobre aprendizaje automático

by Matt Harrison
October 2024
Intermediate to advanced
320 pages
5h 2m
Spanish
O'Reilly Media, Inc.
Book available
Content preview from Referencia de bolsillo sobre aprendizaje automático

Capítulo 5. Limpieza de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Podemos utilizar herramientas genéricas como pandas y herramientas especializadas como pyjanitor para ayudarnos con la limpieza de datos.

Nombres de columnas

Si utilizas pandas, tener nombres de columna compatibles con Python hace posible el acceso a los atributos. La función pyjanitor clean_names devolverá un DataFrame con las columnas en minúsculas y los espacios sustituidos por guiones bajos:

>>> import janitor as jn
>>> Xbad = pd.DataFrame(
...     {
...         "A": [1, None, 3],
...         "  sales numbers ": [20.0, 30.0, None],
...     }
... )
>>> jn.clean_names(Xbad)
     a  _sales_numbers_
0  1.0             20.0
1  NaN             30.0
2  3.0              NaN
Consejo

Recomiendo actualizar las columnas utilizando la asignación de índices, el método .assign, la asignación .loc o .iloc. También recomiendo no utilizar la asignación de atributos para actualizar columnas en pandas. Debido al riesgo de sobrescribir métodos existentes con el mismo nombre que una columna, no está garantizado que la asignación de atributos funcione.

La biblioteca pyjanitor es útil, pero no nos permite eliminar los espacios en blanco alrededor de las columnas. Podemos utilizar pandas para tener un control más preciso del cambio de nombre de las columnas:

>>> def clean_col(name):
...     return (
...         name.strip().lower().replace(" ", "_")
...     )

>>> Xbad.rename(columns=clean_col)
     a  sales_numbers
0  1.0           20.0
1 NaN 30.0 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Entrevistas sobre aprendizaje automático

Entrevistas sobre aprendizaje automático

Susan Shu Chang

Publisher Resources

ISBN: 9798341602267Supplemental Content