Capítulo 3. Obtención de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo trata del primer paso del modelo OSEMN: la obtención de datos. Al fin y al cabo, sin datos no podemos hacer mucha ciencia de datos. Doy por supuesto que los datos que necesitas para resolver tu problema de ciencia de datos ya existen. Tu primera tarea consiste en introducir estos datos en tu ordenador (y posiblemente también dentro del contenedor Docker) de una forma con la que puedas trabajar.

Según la filosofía Unix, el texto es una interfaz universal. Casi todas las herramientas de línea de comandos toman texto como entrada, producen texto como salida, o ambas cosas. Ésta es la razón principal por la que las herramientas de línea de comandos pueden funcionar tan bien juntas. Sin embargo, como veremos, incluso el simple texto puede adoptar múltiples formas.

Los datos pueden obtenerse de varias formas, por ejemplo, descargándolos de un servidor, consultando una base de datos o conectándose a una API Web. A veces, los datos vienen comprimidos o en formato binario, como una hoja de cálculo de Microsoft Excel. En este capítulo, hablo de varias herramientas que ayudan a abordar esto desde la línea de comandos, como curl,1 in2csv,2 sql2csv,3 y tar.4

Visión general

En este capítulo aprenderás a:

  • Copia los archivos locales a la imagen Docker

  • Descargar datos de Internet

  • Descomprimir archivos

  • Extraer datos de hojas de ...

Get Ciencia de datos en la línea de comandos, 2ª edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.