book

Ciencia de datos en la línea de comandos, 2ª edición

by Jeroen Janssens

October 2024

Intermediate to advanced

282 pages

6h 36m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Qué esperar de este libroCambios para la Segunda EdiciónCómo leer este libroA quién va dirigido este libroConvenciones utilizadas en este libroAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos por la Segunda Edición (2021)Agradecimientos por la primera edición (2014)
La Ciencia de Datos es OSEMNObtención de datosDatos de fregadoExplorar los datosModelado de datosInterpretar los datosCapítulos del Intermezzo¿Qué es la línea de comandos?¿Por qué la Ciencia de Datos en la Línea de Comandos?La línea de comandos es ágilAumenta la línea de comandosLa línea de comandos es escalableLa línea de comandos es extensibleLa línea de comandos está omnipresenteResumenPara seguir explorando
Obtener los datosInstalar la imagen DockerConceptos esenciales de UnixMedio ambienteEjecutar una herramienta de línea de comandosCinco tipos de herramientas de línea de comandosCombinar herramientas de línea de comandosRedirigir la entrada y la salidaTrabajar con archivos y directoriosGestión de la producción¡Ayuda!ResumenPara seguir explorando
Visión generalCopiar archivos locales al contenedor DockerDescargar de InternetPresentación del rizoGuardarOtros protocolosSiguiendo RedireccionesDescomprimir archivosConvertir hojas de cálculo de Microsoft Excel a CSVConsulta de bases de datos relacionalesLlamar a las API webAutenticaciónAPI de streamingResumenPara seguir explorando
Visión generalConvertir frases sencillas en guiones de shellPaso 1: Crear un archivoPaso 2: Dar permiso para ejecutarPaso 3: Definir un ShebangPaso 4: Elimina la Entrada FijaPaso 5: Añade argumentosPaso 6: Amplía tu SENDEROCrear herramientas de línea de comandos con Python y RPortar el script de shellProcesamiento de datos de entrada estándarResumenPara seguir explorando
Visión generalTransformaciones, transformaciones por todas partesTexto sin formatoLíneas de filtradoExtraer valoresSustituir y eliminar valoresCSVCuerpos, cabeceras y columnas, ¡vaya!Realizar consultas SQL en CSVExtraer y reordenar columnasFiltrar filasFusionar columnasCombinar varios archivos CSVTrabajar con XML/HTML y JSONResumenPara seguir explorando
Visión generalPresentación de MakeTareas en ejecuciónConstruir, de verdadAñadir dependenciasResumenPara seguir explorando
Visión generalInspeccionar datos y sus propiedadesCabeza o no, allá voyInspeccionar todos los datosNombres y tipos de datos de las característicasIdentificadores únicos, variables continuas y factoresCálculo de estadísticas descriptivasEstadísticas de columnaR One-Liners en el caparazónCrear visualizacionesVisualizar imágenes desde la línea de comandosTrazar con prisasCrear gráficos de barrasCrear histogramasCrear parcelas de densidadPequeños accidentes felicesCrear gráficos de dispersiónCrear líneas de tendenciaCrear gráficos de cajasAñadir etiquetasIr más allá de las tramas básicasResumenPara seguir explorando
Visión generalProcesamiento en serieHacer bucles sobre númerosBucle sobre líneasRecorrer archivos en bucleProcesamiento paraleloPresentación de GNU ParallelEspecificar la entradaControlar el número de trabajos concurrentesRegistro y salidaCrear herramientas paralelasProcesamiento distribuidoObtener lista de instancias AWS EC2 en ejecuciónEjecutar comandos en máquinas remotasDistribuir datos locales entre máquinas remotasProcesar archivos en máquinas remotasResumenPara seguir explorando

Visión general¡Más vino, por favor!Reducción de la dimensionalidad con TapkeePresentación de TapkeeMapeados lineales y no linealesRegresión con Vowpal WabbitPreparación de los datosEntrenar el modeloProbar el modeloClasificación con SciKit-Learn LaboratoryPreparación de los datosEjecutar el experimentoAnálisis de los resultadosResumenPara seguir explorando
Visión generalJupyterPythonRRStudioApache SparkResumenPara seguir explorando
RecapitulemosTres consejosSé pacienteSé creativoSé práctico¿Adónde vamos ahora?La línea de comandosProgramación ShellPython, R y SQLAPIsAprendizaje automáticoPonerse en contacto
aliasawkawsbashmurciélagobccuerpocatcdchmodcolscolumnacowsaycpcsv2vwcsvcutcsvgrepcsvjoincsvlookcsvquotecsvsortcsvsqlcsvstackcsvstatrizocortamuestradseqhazte eco deenvexportarfcencuentrapliegaparafxgitgrepgroncabezacabecerahistorianombre de hostin2csvjqjson2csvlmenoslshazhombremkdirmvnanonlen paralelopegarpbcpipcachorropwdpythonRrevrmprisamuestrascpsedseqservewdshufskllordenardividiresponjasql2csvsshsudocolatapkeealquitrántetelnettldrtrárbolrecortartstipouniqdesempaquetaunrardescomprimirvwwcquexml2jsonxmlstarletxsvzcatzsh

Overview

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Esta guía completamente revisada demuestra cómo la flexibilidad de la línea de comandos puede ayudarte a convertirte en un científico de datos más eficiente y productivo. Aprenderás a combinar pequeñas pero potentes herramientas de línea de comandos para obtener, depurar, explorar y modelar rápidamente tus datos. Para empezar, el autor Jeroen Janssens proporciona una imagen Docker repleta de más de 100 potentes herramientas Unix, útiles tanto si trabajas con Windows, macOS o Linux.

Descubrirás rápidamente por qué la línea de comandos es una tecnología ágil, escalable y extensible. Aunque te sientas cómodo procesando datos con Python o R, aprenderás a mejorar enormemente tu flujo de trabajo en ciencia de datos aprovechando la potencia de la línea de comandos. Este libro es ideal para científicos de datos, analistas, ingenieros, administradores de sistemas e investigadores.

Obtén datos de sitios web, API, bases de datos y hojas de cálculo
Realiza operaciones de depuración en archivos de texto, CSV, HTML, XML y JSON
Explorar datos, calcular estadísticas descriptivas y crear visualizaciones
Gestiona tu flujo de trabajo de ciencia de datos
Crea tus propias herramientas a partir de una sola línea y código Python o R existente
Paraleliza y distribuye pipelines de datos intensivos
Modela datos con algoritmos de reducción dimensional, regresión y clasificación
Aprovecha la línea de comandos de Python, Jupyter, R, RStudio y Apache Spark