Capítulo 5. Limpieza de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Podemos utilizar herramientas genéricas como pandas y herramientas especializadas como pyjanitor para ayudarnos con la limpieza de datos.
Nombres de columnas
Si utilizas pandas, tener nombres de columna compatibles con Python hace posible el acceso a los atributos. La función pyjanitor clean_names devolverá un DataFrame con las columnas en minúsculas y los espacios sustituidos por guiones bajos:
>>>importjanitorasjn>>>Xbad=pd.DataFrame(...{..."A":[1,None,3],..." sales numbers ":[20.0,30.0,None],...}...)>>>jn.clean_names(Xbad)a _sales_numbers_0 1.0 20.01 NaN 30.02 3.0 NaN
Consejo
Recomiendo actualizar las columnas utilizando la asignación de índices, el método .assign, la asignación .loc o .iloc. También recomiendo no utilizar la asignación de atributos para actualizar columnas en pandas. Debido al riesgo de sobrescribir métodos existentes con el mismo nombre que una columna, no está garantizado que la asignación de atributos funcione.
La biblioteca pyjanitor es útil, pero no nos permite eliminar los espacios en blanco alrededor de las columnas. Podemos utilizar pandas para tener un control más preciso del cambio de nombre de las columnas:
>>>defclean_col(name):...return(...name.strip().lower().replace(" ","_")...)>>>Xbad.rename(columns=clean_col)a sales_numbers0 1.0 20.01 NaN 30.0 ...