book

Ingeniería de Software para Científicos de Datos

by Catherine Nelson

September 2024

Intermediate to advanced

260 pages

6h 59m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

¿A quién va dirigido este libro?¿Por qué Python?Lo que no está en este libroGuía de este libroOrden de lecturaConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
Por qué es importante un buen códigoAdaptarse a las necesidades cambiantesSimplicidadNo te repitas (DRY)Evita el Código VerborreicoModularidadLegibilidadNormas y ConveniosNombresLimpiezaDocumentaciónRendimientoRobustezErrores y registroPruebaPuntos clave
Métodos para mejorar el rendimientoCronometrar tu códigoPerfilar tu códigocPerfilperfil_de_líneaPerfiles de memoria con MemrayComplejidad temporalCómo estimar la complejidad temporalNotación Big OPuntos clave
Estructuras de datos nativas de PythonListasTuplasDiccionariosEstableceMatrices NumPyFuncionalidad de matrices NumPyConsideraciones sobre el rendimiento de las matrices NumPyOperaciones con matrices utilizando DaskMatrices en el aprendizaje automáticopandas DataFramesFuncionalidad del Marco de DatosConsideraciones sobre el rendimiento del marco de datosPuntos clave
Programación Orientada a ObjetosClases, métodos y atributosDefinir tus propias clasesPrincipios OOPProgramación funcionalFunciones lambda y map()Aplicar funciones a marcos de datos¿Qué paradigma debo utilizar?Puntos clave
Errores en PythonLeer mensajes de error de PythonTratamiento de erroresPlanteamiento de erroresRegistroQué registrarConfiguración del registroCómo registrarteDepurandoEstrategias de depuraciónHerramientas de depuraciónPuntos clave
Formateo del código y guías de estiloPEP8Formato de importaciónFormateo automático de código con negroPelusaHerramientas de pelusaPelusa en tu IDETipo ComprobaciónAnotaciones de tipoComprobación tipográfica con mypyPuntos clave
Por qué debes escribir pruebasCuándo hacer la pruebaCómo escribir y ejecutar pruebasUna prueba básicaProbar entradas inesperadasEjecutar pruebas automatizadas con PytestTipos de pruebasPruebas unitariasPruebas de integraciónValidación de datosEjemplos de validación de datosUso de Pandera para la Validación de DatosValidación de datos con PydanticPruebas para el aprendizaje automáticoPrueba Modelo FormaciónComprobación de la inferencia del modeloPuntos clave
Diseño y estructura del proyectoConsideraciones sobre el diseño del proyectoUn ejemplo de proyecto de aprendizaje automáticoDiseño de códigoCódigo modularUn marco de diseño de códigoInterfaces y contratosAcoplamientoDe los cuadernos a los scripts escalables¿Por qué utilizar guiones en lugar de cuadernos?Crear guiones a partir de cuadernosRefactorizaciónEstrategias de refactorizaciónUn ejemplo de flujo de trabajo de refactorizaciónPuntos clave
Documentación dentro de la base de códigoNombresComentariosDocstringsProgramas, tutoriales y otros documentos más largosDocumentación en Jupyter NotebooksDocumentar experimentos de aprendizaje automáticoPuntos clave

Control de versiones con Git¿Cómo funciona Git?Seguimiento de cambios y confirmaciónRemoto y localRamas y Pull RequestsDependencias y entornos virtualesEntornos virtualesGestión de dependencias con pipGestionar las dependencias con poesíaEmbalaje PythonConceptos básicos de envasadopyproject.tomlConstruir y subir paquetesPuntos clave
Llamar a una APIMétodos HTTP y códigos de estadoObtener datos de la API SDGCrear tu propia API con FastAPIConfigurar la APIAñadir funcionalidad a tu APIHacer peticiones a tu APIPuntos clave
Implementación del códigoEjemplos de automatizaciónGanchos Pre-CompromisoAcciones de GitHubImplementaciones en la nubeContenedores y DockerConstruir un contenedor DockerImplementación de una API en Google CloudImplementación de una API en otros proveedores en la nubePuntos clave
¿Qué es la seguridad?Riesgos de seguridadCredenciales, seguridad física e ingeniería socialPaquetes de tercerosEl módulo Pickle de PythonRiesgos del control de versionesRiesgos de seguridad de la APIPrácticas de seguridadRevisiones y políticas de seguridadHerramientas de codificación seguraEscaneado sencillo de códigosSeguridad para el aprendizaje automáticoAtaques a los sistemas de MLPrácticas de seguridad para sistemas de MLPuntos clave
Principios y prácticas de desarrolloEl ciclo de vida del desarrollo de softwareDesarrollo de software en cascadaDesarrollo ágil de softwareCiencia de datos ágilFunciones en la industria del softwareIngeniero de softwareQA o Ingeniero de PruebasIngeniero de datosAnalista de datosJefe de ProductoInvestigador UXDiseñadorComunidadCódigo abiertoIntervención en eventosLa Comunidad PythonPuntos clave
El futuro del códigoTu futuro en códigoGracias

Content preview from Ingeniería de Software para Científicos de Datos

Capítulo 1. ¿Qué es un buen código? ¿Qué es un buen código?

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este libro pretende ayudarte a escribir mejor código. Pero primero, ¿qué hace que un código sea "bueno"? Hay varias formas de pensar en ello: el mejor código podría ser el que se ejecuta más rápido. O podría ser el más fácil de leer. Otra posible definición es que un buen código es fácil de mantener. Es decir, si el proyecto cambia, debería ser fácil volver al código y cambiarlo para reflejar los nuevos requisitos. Los requisitos de tu código cambiarán con frecuencia debido a actualizaciones del problema empresarial que estás resolviendo, nuevas direcciones de investigación o actualizaciones en otras partes de la base de código.

Además, tu código no debe ser complejo, y no debe romperse si recibe una entrada inesperada. Debería ser fácil añadir una nueva función sencilla a tu código; si esto es difícil, sugiere que tu código no está bien escrito. En este capítulo, presentaré aspectos de un buen código y mostraré ejemplos de cada uno de ellos. Los dividiré en cinco categorías: simplicidad, modularidad, legibilidad, rendimiento y robustez.

Por qué es importante un buen código

Un buen código es especialmente importante cuando tu código de ciencia de datos se integra con un sistema mayor. Puede tratarse de poner en producción un modelo de aprendizaje automático, escribir paquetes para una distribución más ...