book

Ciencia de datos en la línea de comandos, 2ª edición

by Jeroen Janssens

October 2024

Intermediate to advanced

282 pages

6h 36m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Qué esperar de este libroCambios para la Segunda EdiciónCómo leer este libroA quién va dirigido este libroConvenciones utilizadas en este libroAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos por la Segunda Edición (2021)Agradecimientos por la primera edición (2014)
La Ciencia de Datos es OSEMNObtención de datosDatos de fregadoExplorar los datosModelado de datosInterpretar los datosCapítulos del Intermezzo¿Qué es la línea de comandos?¿Por qué la Ciencia de Datos en la Línea de Comandos?La línea de comandos es ágilAumenta la línea de comandosLa línea de comandos es escalableLa línea de comandos es extensibleLa línea de comandos está omnipresenteResumenPara seguir explorando
Obtener los datosInstalar la imagen DockerConceptos esenciales de UnixMedio ambienteEjecutar una herramienta de línea de comandosCinco tipos de herramientas de línea de comandosCombinar herramientas de línea de comandosRedirigir la entrada y la salidaTrabajar con archivos y directoriosGestión de la producción¡Ayuda!ResumenPara seguir explorando
Visión generalCopiar archivos locales al contenedor DockerDescargar de InternetPresentación del rizoGuardarOtros protocolosSiguiendo RedireccionesDescomprimir archivosConvertir hojas de cálculo de Microsoft Excel a CSVConsulta de bases de datos relacionalesLlamar a las API webAutenticaciónAPI de streamingResumenPara seguir explorando
Visión generalConvertir frases sencillas en guiones de shellPaso 1: Crear un archivoPaso 2: Dar permiso para ejecutarPaso 3: Definir un ShebangPaso 4: Elimina la Entrada FijaPaso 5: Añade argumentosPaso 6: Amplía tu SENDEROCrear herramientas de línea de comandos con Python y RPortar el script de shellProcesamiento de datos de entrada estándarResumenPara seguir explorando
Visión generalTransformaciones, transformaciones por todas partesTexto sin formatoLíneas de filtradoExtraer valoresSustituir y eliminar valoresCSVCuerpos, cabeceras y columnas, ¡vaya!Realizar consultas SQL en CSVExtraer y reordenar columnasFiltrar filasFusionar columnasCombinar varios archivos CSVTrabajar con XML/HTML y JSONResumenPara seguir explorando
Visión generalPresentación de MakeTareas en ejecuciónConstruir, de verdadAñadir dependenciasResumenPara seguir explorando
Visión generalInspeccionar datos y sus propiedadesCabeza o no, allá voyInspeccionar todos los datosNombres y tipos de datos de las característicasIdentificadores únicos, variables continuas y factoresCálculo de estadísticas descriptivasEstadísticas de columnaR One-Liners en el caparazónCrear visualizacionesVisualizar imágenes desde la línea de comandosTrazar con prisasCrear gráficos de barrasCrear histogramasCrear parcelas de densidadPequeños accidentes felicesCrear gráficos de dispersiónCrear líneas de tendenciaCrear gráficos de cajasAñadir etiquetasIr más allá de las tramas básicasResumenPara seguir explorando
Visión generalProcesamiento en serieHacer bucles sobre númerosBucle sobre líneasRecorrer archivos en bucleProcesamiento paraleloPresentación de GNU ParallelEspecificar la entradaControlar el número de trabajos concurrentesRegistro y salidaCrear herramientas paralelasProcesamiento distribuidoObtener lista de instancias AWS EC2 en ejecuciónEjecutar comandos en máquinas remotasDistribuir datos locales entre máquinas remotasProcesar archivos en máquinas remotasResumenPara seguir explorando

Visión general¡Más vino, por favor!Reducción de la dimensionalidad con TapkeePresentación de TapkeeMapeados lineales y no linealesRegresión con Vowpal WabbitPreparación de los datosEntrenar el modeloProbar el modeloClasificación con SciKit-Learn LaboratoryPreparación de los datosEjecutar el experimentoAnálisis de los resultadosResumenPara seguir explorando
Visión generalJupyterPythonRRStudioApache SparkResumenPara seguir explorando
RecapitulemosTres consejosSé pacienteSé creativoSé práctico¿Adónde vamos ahora?La línea de comandosProgramación ShellPython, R y SQLAPIsAprendizaje automáticoPonerse en contacto
aliasawkawsbashmurciélagobccuerpocatcdchmodcolscolumnacowsaycpcsv2vwcsvcutcsvgrepcsvjoincsvlookcsvquotecsvsortcsvsqlcsvstackcsvstatrizocortamuestradseqhazte eco deenvexportarfcencuentrapliegaparafxgitgrepgroncabezacabecerahistorianombre de hostin2csvjqjson2csvlmenoslshazhombremkdirmvnanonlen paralelopegarpbcpipcachorropwdpythonRrevrmprisamuestrascpsedseqservewdshufskllordenardividiresponjasql2csvsshsudocolatapkeealquitrántetelnettldrtrárbolrecortartstipouniqdesempaquetaunrardescomprimirvwwcquexml2jsonxmlstarletxsvzcatzsh

Content preview from Ciencia de datos en la línea de comandos, 2ª edición

Capítulo 3. Obtención de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo trata del primer paso del modelo OSEMN: la obtención de datos. Al fin y al cabo, sin datos no podemos hacer mucha ciencia de datos. Doy por supuesto que los datos que necesitas para resolver tu problema de ciencia de datos ya existen. Tu primera tarea consiste en introducir estos datos en tu ordenador (y posiblemente también dentro del contenedor Docker) de una forma con la que puedas trabajar.

Según la filosofía Unix, el texto es una interfaz universal. Casi todas las herramientas de línea de comandos toman texto como entrada, producen texto como salida, o ambas cosas. Ésta es la razón principal por la que las herramientas de línea de comandos pueden funcionar tan bien juntas. Sin embargo, como veremos, incluso el simple texto puede adoptar múltiples formas.

Los datos pueden obtenerse de varias formas, por ejemplo, descargándolos de un servidor, consultando una base de datos o conectándose a una API Web. A veces, los datos vienen comprimidos o en formato binario, como una hoja de cálculo de Microsoft Excel. En este capítulo, hablo de varias herramientas que ayudan a abordar esto desde la línea de comandos, como curl,¹ in2csv,² sql2csv,³ y tar.⁴