Capítulo 10. Trabajar con datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Los expertos suelen poseer más datos que criterio.

Colin Powell

Trabajar con datos es tanto un arte como una ciencia. Hemos hablado sobre todo de la parte científica, pero en este capítulo veremos algo del arte.

Explorar tus datos

Después de has identificado las preguntas que intentas responder y te has hecho con algunos datos, puedes tener la tentación de zambullirte y empezar inmediatamente a construir modelos y obtener respuestas. Pero debes resistir este impulso. Tu primer paso debe ser explorar tus datos.

Explorar datos unidimensionales

El caso más sencillo es cuando tienes un conjunto de datos unidimensional, que no es más que una colección de números. Por ejemplo, podrían ser la media diaria de minutos que cada usuario pasa en tu sitio, el número de veces que se ha visto cada uno de una colección de vídeos tutoriales de ciencia de datos, o el número de páginas de cada uno de los libros de ciencia de datos de tu biblioteca de ciencia de datos.

Un primer paso obvio es calcular unos cuantos estadísticos de resumen. Te gustaría saber cuántos puntos de datos tienes, el más pequeño, el más grande, la media y la desviación típica.

Pero ni siquiera éstos te proporcionan necesariamente una gran comprensión. Un buen paso siguiente es crear un histograma, en el que agrupas tus datos en cubos discretos y cuentas cuántos puntos caen ...

Get Ciencia de datos desde cero, 2ª edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.