Overview
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Esta guía completamente revisada demuestra cómo la flexibilidad de la línea de comandos puede ayudarte a convertirte en un científico de datos más eficiente y productivo. Aprenderás a combinar pequeñas pero potentes herramientas de línea de comandos para obtener, depurar, explorar y modelar rápidamente tus datos. Para empezar, el autor Jeroen Janssens proporciona una imagen Docker repleta de más de 100 potentes herramientas Unix, útiles tanto si trabajas con Windows, macOS o Linux.
Descubrirás rápidamente por qué la línea de comandos es una tecnología ágil, escalable y extensible. Aunque te sientas cómodo procesando datos con Python o R, aprenderás a mejorar enormemente tu flujo de trabajo en ciencia de datos aprovechando la potencia de la línea de comandos. Este libro es ideal para científicos de datos, analistas, ingenieros, administradores de sistemas e investigadores.
- Obtén datos de sitios web, API, bases de datos y hojas de cálculo
- Realiza operaciones de depuración en archivos de texto, CSV, HTML, XML y JSON
- Explorar datos, calcular estadísticas descriptivas y crear visualizaciones
- Gestiona tu flujo de trabajo de ciencia de datos
- Crea tus propias herramientas a partir de una sola línea y código Python o R existente
- Paraleliza y distribuye pipelines de datos intensivos
- Modela datos con algoritmos de reducción dimensional, regresión y clasificación
- Aprovecha la línea de comandos de Python, Jupyter, R, RStudio y Apache Spark