book

Python de alto rendimiento, 3.ª edición

by Micha Gorelick, Ian Ozsvald

May 2025

Intermediate to advanced

524 pages

16h 9m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

A quién va dirigido este libroPara quién no es este libroLo que aprenderásPython 3LicenciaCómo hacer una atribuciónUtilizar ejemplos de códigoErratas y comentariosConvenciones utilizadas en este libroAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
El Sistema Informático FundamentalUnidades de cálculoUnidades de memoriaCapas de comunicaciónLa informática idealizada frente a la máquina virtual PythonInformática idealizadaLa máquina virtual de Python¿Por qué usar Python?Cómo ser un programador de alto rendimientoBuenas prácticas laboralesOptimizar para el equipo y no para el bloque de códigoEl programador ejecutante a distanciaAlgunas reflexiones sobre las buenas prácticas con los cuadernosTu trabajoEl futuro de Python¿Adónde ha ido el GIL?¿Tiene Python un JIT?Recapitulación
Perfilar eficazmentePresentación del Conjunto de JuliaCálculo del Conjunto de Julia completoEnfoques sencillos para cronometrar y un decoradorCronometraje sencillo mediante el comando tiempo de UnixUtilizar el módulo cProfileVisualizar la salida del perfil c con SnakeVizUso de line_profiler para mediciones línea a líneaUso de memory_profiler para diagnosticar el uso de memoriaCombinar perfiles de CPU y memoria con ScaleneIntrospección de un proceso existente con PySpyVizTracer para una pila de llamadas interactiva basada en el tiempoBytecode: Bajo el capóUtilizar el módulo dis para examinar el Bytecode de CPythonProfundizar en la especialización en Bytecode con EspecialistaDiferentes enfoques, diferente complejidadPruebas unitarias durante la optimización para mantener la correcciónNo-op @perfil DecoradorEstrategias para perfilar tu código con éxitoRecapitulación
Una búsqueda más eficazListas frente a tuplasListas como matrices dinámicasTuplas como matrices estáticasRecapitulación
¿Cómo funcionan los diccionarios y los conjuntos?Insertar y recuperarSupresiónRedimensionarFunciones Hash y EntropíaRecapitulación
Iteradores para series infinitasEvaluación del generador perezosoRecapitulación
Introducción al problema¿Las listas de Python no son suficientemente buenas?Problemas de asignar demasiadoFragmentación de la memoriaComprender el perfTomar decisiones con los resultados de perfIntroduce numpyAplicación de numpy al problema de la difusiónAsignaciones de memoria y operaciones in situOptimizaciones Selectivas: Encontrar lo que hay que arreglarnumexpr: Hacer más rápidas y sencillas las operaciones in situUnidades de procesamiento gráfico (GPU)Grafos dinámicos: PyTorchVelocidad de la GPU y precisión numéricaOperaciones específicas de la GPUPerfilado básico de la GPUConsideraciones sobre el rendimiento de las GPUCuándo utilizar GPUsConsideraciones sobre el rendimiento del Deep LearningUn cuento con moraleja: Verifica las "Optimizaciones" (scipy)Lecciones de las optimizaciones matricialesRecapitulación
PandasModelo interno de PandasArrow y NumPyAplicar una función a muchas filas de datosNumba para compilar NumPy para PandasConstruir a partir de resultados parciales en lugar de concatenarHay más de una forma (y posiblemente más rápida) de hacer un trabajoConsejos para un desarrollo eficaz de PandasDask para estructuras de datos y marcos de datos distribuidosDiagnósticoPandas en paralelo con DaskAplicación paralelizada con Swifter sobre DaskPolares para DataFrames rápidosRecapitulación
¿Qué tipo de ganancias de velocidad son posibles?Compiladores JIT frente a AOT¿Por qué la información tipográfica ayuda a que el código funcione más rápido?Utilizar un compilador de CRepasar el ejemplo del Conjunto de JuliaCythonCompilar una versión en Python puro con CythonpyximportAnotaciones Cython para analizar un bloque de códigoAñadir algunas anotaciones de tipoCython y numpyParalelizar la solución con OpenMP en una máquinaNumbaPyPyDiferencias en la Recogida de BasuraEjecutar PyPy e instalar módulosResumen de las mejoras de velocidadCuándo utilizar cada tecnologíaInterfaces de funciones externasctiposcffif2pyExtensiones CPython: CExtensiones CPython: RustRecapitulación

Introducción a la programación asíncrona¿Cómo funciona async/await?Rastreador web en serieRastreador web asíncronoCarga de trabajo CPU-I/O compartidaCarga de trabajo de la CPU en serieCarga de trabajo de CPU por lotesCarga de trabajo de la CPU totalmente asíncronaRecapitulación
Una visión general del módulo multiprocesamientoEstimación de Pi mediante el método de MontecarloEstimación de Pi mediante procesos e hilosUtilizar objetos de PythonSustituir el multiprocesamiento por JoblibNúmeros aleatorios en sistemas paralelosUtilizar numpyEncontrar números primosColas de trabajoAñadir trabajos a la cola de forma asíncronaVerificación de primos mediante comunicación entre procesosSolución en serieSolución de piscina ingenuaUna solución para piscinas menos ingenuaUsar gestor.Valor como indicadorUtilizar Redis como indicadorUtilizar RawValue como indicadorUtilizar mmap como indicadorUtilizar mmap como Bandera ReduxCompartir datos numpy con multiprocesamientoSincronizar el acceso a archivos y variablesBloqueo de archivosBloquear un valorRecapitulación
Ventajas de la agrupaciónInconvenientes de la agrupaciónPérdida de 462 millones de dólares en Wall Street por una mala estrategia de actualización del clústerInterrupción mundial de 24 horas de SkypeDiseños comunes de agrupacionesCómo iniciar una solución en clústerFormas de evitar el dolor al utilizar racimosDos soluciones de agrupaciónUtilizar IPython Parallel para apoyar la investigaciónIntermediación de mensajes para la eficiencia del clústerOtras herramientas de agrupación a tener en cuentaDockerRendimiento de DockerVentajas de DockerRecapitulación
Los objetos para primitivas son carosEl módulo array almacena muchos objetos primitivos de forma barataUsar menos RAM en NumPy con NumExprComprender la RAM utilizada en una colecciónBytes frente a UnicodeAlmacenamiento eficiente de mucho texto en RAMProbar estos enfoques con 11 millones de fichasModelar más texto con FeatureHasher de scikit-learnPresentación de DictVectorizer y FeatureHasherComparación de DictVectorizer y FeatureHasher en un problema realMatrices dispersas de SciPyConsejos para usar menos RAMEstructuras de datos probabilísticasRecuento muy aproximado con un contador Morris de 1 byteValores K-MínimosFiltros BloomContador LogLogEjemplo realRecapitulación
Desarrollar un algoritmo de aprendizaje automático de alto rendimientoLa informática de alto rendimiento en el periodismoLecciones del ámbito del ciberreaseguroPython en Finanzas CuánticasMantener la flexibilidad para lograr un alto rendimientoRacionalizar los procesos de ingeniería de características con Feature-engine (2020)Equipos de Ciencia de Datos de Alto Rendimiento (2020)Numba (2020)Optimizar frente a pensar (2020)Hacer volar el Deep Learning con RadimRehurek.com (2014)Análisis de medios sociales a gran escala en Smesh (2014)

Content preview from Python de alto rendimiento, 3.ª edición

Capítulo 7. Pandas, Dask y Polares

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Muchos proyectos científicos y de ciencia de datos utilizan datos en forma de tabla que se ajustan a un marco de datos. Un marco de datos suele recoger una colección heterogénea (es decir, mixta) de tipos de datos, asignados a columnas. Cada entrada del marco de datos es una fila; generalmente se parecen a una hoja de cálculo que podrías ver en Excel.

Pandas se publicó en 2008 y rápidamente se convirtió en la principal biblioteca de marcos de datos del ecosistema Python. A medida que evolucionaba, se discutieron muchas deficiencias, como se documentó más tarde en la infame entrada del blog de Wes McKinney de 2017 "Apache Arrow y las '10 cosas que odio de pandas'". En el momento de escribir esto, ocho años después de esa entrada de blog, Pandas sigue siendo la biblioteca de marcos de datos de Python más popular. En las siguientes ...