book

Ciencia de datos en la línea de comandos, 2ª edición

by Jeroen Janssens

October 2024

Intermediate to advanced

282 pages

6h 36m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Qué esperar de este libroCambios para la Segunda EdiciónCómo leer este libroA quién va dirigido este libroConvenciones utilizadas en este libroAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos por la Segunda Edición (2021)Agradecimientos por la primera edición (2014)
La Ciencia de Datos es OSEMNObtención de datosDatos de fregadoExplorar los datosModelado de datosInterpretar los datosCapítulos del Intermezzo¿Qué es la línea de comandos?¿Por qué la Ciencia de Datos en la Línea de Comandos?La línea de comandos es ágilAumenta la línea de comandosLa línea de comandos es escalableLa línea de comandos es extensibleLa línea de comandos está omnipresenteResumenPara seguir explorando
Obtener los datosInstalar la imagen DockerConceptos esenciales de UnixMedio ambienteEjecutar una herramienta de línea de comandosCinco tipos de herramientas de línea de comandosCombinar herramientas de línea de comandosRedirigir la entrada y la salidaTrabajar con archivos y directoriosGestión de la producción¡Ayuda!ResumenPara seguir explorando
Visión generalCopiar archivos locales al contenedor DockerDescargar de InternetPresentación del rizoGuardarOtros protocolosSiguiendo RedireccionesDescomprimir archivosConvertir hojas de cálculo de Microsoft Excel a CSVConsulta de bases de datos relacionalesLlamar a las API webAutenticaciónAPI de streamingResumenPara seguir explorando
Visión generalConvertir frases sencillas en guiones de shellPaso 1: Crear un archivoPaso 2: Dar permiso para ejecutarPaso 3: Definir un ShebangPaso 4: Elimina la Entrada FijaPaso 5: Añade argumentosPaso 6: Amplía tu SENDEROCrear herramientas de línea de comandos con Python y RPortar el script de shellProcesamiento de datos de entrada estándarResumenPara seguir explorando
Visión generalTransformaciones, transformaciones por todas partesTexto sin formatoLíneas de filtradoExtraer valoresSustituir y eliminar valoresCSVCuerpos, cabeceras y columnas, ¡vaya!Realizar consultas SQL en CSVExtraer y reordenar columnasFiltrar filasFusionar columnasCombinar varios archivos CSVTrabajar con XML/HTML y JSONResumenPara seguir explorando
Visión generalPresentación de MakeTareas en ejecuciónConstruir, de verdadAñadir dependenciasResumenPara seguir explorando
Visión generalInspeccionar datos y sus propiedadesCabeza o no, allá voyInspeccionar todos los datosNombres y tipos de datos de las característicasIdentificadores únicos, variables continuas y factoresCálculo de estadísticas descriptivasEstadísticas de columnaR One-Liners en el caparazónCrear visualizacionesVisualizar imágenes desde la línea de comandosTrazar con prisasCrear gráficos de barrasCrear histogramasCrear parcelas de densidadPequeños accidentes felicesCrear gráficos de dispersiónCrear líneas de tendenciaCrear gráficos de cajasAñadir etiquetasIr más allá de las tramas básicasResumenPara seguir explorando
Visión generalProcesamiento en serieHacer bucles sobre númerosBucle sobre líneasRecorrer archivos en bucleProcesamiento paraleloPresentación de GNU ParallelEspecificar la entradaControlar el número de trabajos concurrentesRegistro y salidaCrear herramientas paralelasProcesamiento distribuidoObtener lista de instancias AWS EC2 en ejecuciónEjecutar comandos en máquinas remotasDistribuir datos locales entre máquinas remotasProcesar archivos en máquinas remotasResumenPara seguir explorando

Visión general¡Más vino, por favor!Reducción de la dimensionalidad con TapkeePresentación de TapkeeMapeados lineales y no linealesRegresión con Vowpal WabbitPreparación de los datosEntrenar el modeloProbar el modeloClasificación con SciKit-Learn LaboratoryPreparación de los datosEjecutar el experimentoAnálisis de los resultadosResumenPara seguir explorando
Visión generalJupyterPythonRRStudioApache SparkResumenPara seguir explorando
RecapitulemosTres consejosSé pacienteSé creativoSé práctico¿Adónde vamos ahora?La línea de comandosProgramación ShellPython, R y SQLAPIsAprendizaje automáticoPonerse en contacto
aliasawkawsbashmurciélagobccuerpocatcdchmodcolscolumnacowsaycpcsv2vwcsvcutcsvgrepcsvjoincsvlookcsvquotecsvsortcsvsqlcsvstackcsvstatrizocortamuestradseqhazte eco deenvexportarfcencuentrapliegaparafxgitgrepgroncabezacabecerahistorianombre de hostin2csvjqjson2csvlmenoslshazhombremkdirmvnanonlen paralelopegarpbcpipcachorropwdpythonRrevrmprisamuestrascpsedseqservewdshufskllordenardividiresponjasql2csvsshsudocolatapkeealquitrántetelnettldrtrárbolrecortartstipouniqdesempaquetaunrardescomprimirvwwcquexml2jsonxmlstarletxsvzcatzsh

Content preview from Ciencia de datos en la línea de comandos, 2ª edición

Capítulo 5. Depuración de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Hace dos capítulos, en el primer paso del modelo OSEMN para la ciencia de datos, nos ocupamos de la obtención de datos de diversas fuentes. Este capítulo trata del segundo paso: la depuración de datos. Verás, es bastante raro que puedas pasar directamente de la obtención de datos a la exploración o incluso a la modelización de los datos. Hay una plétora de razones por las que tus datos necesitan primero algo de limpieza, o depuración.

Para empezar, puede que los datos no estén en el formato deseado. Por ejemplo, puedes haber obtenido algunos datos JSON de una API, pero necesitas que estén en formato CSV para crear una visualización. Otros formatos habituales son el texto sin formato, HTML y XML. La mayoría de las herramientas de línea de comandos sólo trabajan con uno o dos formatos, por lo que es importante que puedas convertir los datos de un formato a otro.

Una vez que los datos están en el formato deseado, todavía puede haber problemas como valores que faltan, incoherencias, caracteres extraños o partes innecesarias. Puedes solucionarlos aplicando filtros, sustituyendo valores y combinando varios archivos. La línea de comandos es especialmente adecuada para este tipo de transformaciones, porque hay muchas herramientas especializadas disponibles, la mayoría de las cuales pueden manejar grandes cantidades de datos. En este capítulo ...