book

Visualización de Datos con Python y JavaScript, 2ª Edición

by Kyran Dale

September 2024

Intermediate to advanced

568 pages

14h 15m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Parte I: Herramientas básicasParte II: Obtención de datosParte III: Limpieza y exploración de datos con pandasParte IV: Entrega de los datosParte V: Visualizar tus datos con D3 y PlotlySegunda ediciónConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientosSegunda edición
A quién va dirigido este libroRequisitos mínimos para utilizar este libro¿Por qué Python y JavaScript?¿Por qué no Python en el navegador?Por qué Python para el tratamiento de datosPython mejora cada vez másLo que aprenderásLa elección de las bibliotecasPreliminaresLa cadena de herramientas Dataviz1. Raspado de datos con Scrapy2. Limpieza de datos con pandas3. Exploración de datos con pandas y Matplotlib4. Entrega tus datos con Flask5. Transformar datos en visualizaciones interactivas con Plotly y D3Bibliotecas más pequeñasUtilizar el LibroUn poco de contextoResumenLibros recomendados
El código de acompañamientoPythonAnacondaInstalar bibliotecas adicionalesEntornos virtualesJavaScriptRedes de distribución de contenidosInstalar bibliotecas localmenteBases de datosPoner en marcha MongoDBMongoDB fácil con DockerEntornos de desarrollo integradosResumen
Similitudes y diferenciasInteractuar con el códigoPythonJavaScriptTrabajos básicos en puentesDirectrices de estilo, PEP 8, y utiliza estrictamenteCamelCase Versus UnderscoreImportar módulos, incluidos los scriptsMódulos JavaScriptMantener limpios tus espacios de nombresSalida "¡Hola Mundo!"Tratamiento simple de datosConstrucción de cuerdasEspacio en blanco significativo frente a paréntesis rizadosComentarios y Doc-StringsDeclarar variables con let o varCadenas y númerosBooleanosContenedores de datos: dicts, objetos, listas, matricesFuncionesIterar: bucles for y alternativas funcionalesCondicionales: if, else, elif, switchEntrada y salida de archivosClases y prototiposDiferencias en la prácticaEncadenamiento de métodosEnumerar una listaDesempaquetado de tuplasColeccionesSubrayadoMétodos funcionales de matrices y comprensión de listasMapear, Reducir y Filtrar con las Lambdas de PythonCierres de JavaScript y el patrón de módulosUna chuletaResumen
Fácil lo haceTransmisión de datosTrabajar con archivos del sistemaFormatos de datos CSV, TSV y Fila-ColumnaJSONTratar con fechas y horasSQLCrear el motor de base de datosDefinir las tablas de la base de datosAñadir instancias con una sesiónConsultar la base de datosSQL más fácil con el Conjunto de datosMongoDBTratar con fechas, horas y datos complejosResumen
Panorama generalAplicaciones de una sola páginaEquipamientoEl mito de los IDEs, Frameworks y HerramientasUn caballo de batalla para la edición de textosNavegador con herramientas de desarrolloTerminal o símbolo del sistemaConstruir una página webServir páginas con HTTPEl DOMEl esqueleto HTMLMarcar contenidosCSSJavaScriptDatosChrome DevToolsLa pestaña ElementosLa pestaña FuentesOtras herramientasUna página básica con marcadores de posiciónPosicionar y dimensionar contenedores con FlexRellenar los marcadores de posición con contenidoGráficos vectoriales escalablesEl elemento <gCírculosAplicar estilos CSSLíneas, rectángulos y polígonosTextoCaminosEscalar y girarTrabajar con gruposEstratificación y transparenciaSVG con JavaResumen
Obtener datos web con la Biblioteca de PeticionesObtener archivos de datos con solicitudesUtilizar Python para consumir datos de una API WebConsumir una API Web RESTful con PeticionesObtener datos de países para el Nobel DatavizUtilizar bibliotecas para acceder a las API webUtilizar las hojas de cálculo de GoogleUtilizar la API de Twitter con TweepyRaspado de datosPor qué necesitamos rascarSopa hermosa y lxmlUna primera incursión de raspadoConseguir la sopaSeleccionar etiquetasCreación de patrones de selecciónAlmacenamiento en caché de las páginas webRaspando las nacionalidades de los ganadoresResumen
Configurar ScrapyEstablecer los objetivosDirigir HTML con XpathsProbar Xpaths con la Shell de ScrapySeleccionar con rutas X relativasUna primera araña de chatarraRaspando las páginas de biografías individualesEncadenar peticiones y ceder datosPáginas en cachéPeticiones de cesiónTuberías ScrapyRaspado de texto e imágenes con una tuberíaEspecificar pipelines con varias arañasResumen

La matriz NumPyCrear matricesIndexación y segmentación de matricesAlgunas operaciones básicasCrear funciones de matrizCálculo de una media móvilResumen
Por qué pandas está hecho a medida para DatavizPor qué se desarrollaron los pandasCategorizar datos y medicionesEl DataFrameÍndicesFilas y columnasSeleccionar gruposCrear y guardar marcos de datosJSONCSVArchivos ExcelSQLMongoDBSeries en DataFramesResumen
Aclarar los datos suciosInspeccionar los datosÍndices y pandas Selección de datosSeleccionar varias filasLimpiar los datosEncontrar tipos mixtosSustitución de cuerdasEliminar filasEncontrar duplicadosOrdenar datosEliminar duplicadosCómo tratar los campos que faltanTratar con horas y fechasLa función completa limpiar_datosAñadir la columna born_inFusionar DataFramesGuardar los conjuntos de datos depuradosResumen
pyplot y Matplotlib orientado a objetosIniciar una sesión interactivaTrazado interactivo con el Estado Global de pyplotConfigurar MatplotlibAjustar el tamaño de la figuraPuntos, no píxelesEtiquetas y leyendasEtiquetas de Títulos y EjesGuardar tus gráficosFiguras y Matplotlib orientado a objetosEjes y subtramasTipos de tramasGráficos de barrasGráficos de dispersiónseabornFacetGridsPairGridsResumen
Empezar a explorarTrazar con pandasDisparidades de géneroDesapilar GruposTendencias históricasTendencias nacionalesPremiados per cápitaPremios por categoríaTendencias históricas en la distribución de premiosEdad y esperanza de vida de los ganadoresEdad en el momento de la concesiónEsperanza de vida de los ganadoresAumento de la esperanza de vida a lo largo del tiempoLa diáspora del NobelResumen
Servir los datosOrganizar tus archivos de FlaskServir datos con FlaskEntrega de archivos de datosDatos dinámicos con las API de FlaskUna API de datos sencilla con FlaskUtilizar la entrega estática o dinámicaResumen
Las herramientas para un trabajo RESTfulCrear la base de datosUn servidor de datos RESTful de FlaskSerializar con marshmallowAñadir nuestras rutas API RESTfulEnviar datos a la APIAmpliar la API con MethodViewsPaginación de los datos devueltosImplementación remota de la API con HerokuCORSConsumir la API utilizando JavaScriptResumen
Gráficos estáticos con MatplotlibAdaptación a los tamaños de pantallaUtilizar imágenes o activos remotosGráficos con PlotlyGráficos básicosPlotly ExpressObjetos gráficos PlotlyMapear con PlotlyAñadir controles personalizados con PlotlyDel cuaderno a la Web con PlotlyGráficos nativos JavaScript con PlotlyObtener archivos JSONPlotly dirigido por el usuario con JavaScript y HTMLResumen
¿A quién va dirigido?Elegir elementos visualesBarra de menúsPremios por añoUn mapa con una selección de países NobelUn gráfico de barras que muestra el número de ganadores por paísLista de los ganadores seleccionadosUna caja mini biográfica con fotoLa visualización completaResumen
PreliminaresComponentes básicosOrganizar tus archivosServir los datosEl esqueleto HTMLEstilo CSSEl motor JavaScriptImportar los guionesJS modular con importacionesFlujo básico de datosEl Código BásicoInicializar la visualización del Premio NobelListo para empezarActualizaciones basadas en datosFiltrar datos con CrossfilterEjecutar la aplicación de visualización del Premio NobelResumen
Enmarcar el problemaTrabajar con seleccionesAñadir elementos DOMAprovechar D3Medirse con las escalas de D3Escalas cuantitativasEscalas ordinalesLiberar la potencia de D3 con la vinculación/unión de datosActualizar el DOM con datosMontaje del diagrama de barrasEjes y etiquetasTransicionesActualizar el gráfico de barrasResumen
Construir el marcoEscalasEjesEtiquetas de categoríaAnidar los datosAñadir los Ganadores con un Data-Join AnidadoUn poco de brillo de transiciónActualizar el gráfico de barrasResumen
Mapas disponiblesFormatos de datos de mapeo de D3GeoJSONTopoJSONConvertir mapas a TopoJSOND3 Geo, Proyecciones y TrayectoriasProyeccionesCaminosgràticulesReunir los elementosActualizar el mapaIndicadores de Valor AñadidoNuestro mapa completadoCrear un Tooltip sencilloActualizar el mapaResumen
Construir la listaConstruir la BiocajaActualizar la lista de ganadoresResumen
Crear elementos HTML con D3Construir la barra de menúsConstruir el selector de categoríasAñadir el selector de géneroAñadir el selector de paísConectar el botón de opción MétricoResumen
RecapitulaParte I: Herramientas básicasParte II: Obtención de datosParte III: Limpieza y exploración de datos con pandasParte IV: Entrega de los datosParte V: Visualizar tus datos con D3 y PlotlyProgreso futuroVisualizar las redes de medios socialesVisualizaciones de aprendizaje automáticoReflexiones finales
El método enterAcceder a los datos encuadernados

Content preview from Visualización de Datos con Python y JavaScript, 2ª Edición

Capítulo 6. Scraping pesado con Scrapy

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

A medida que tus objetivos de scraping se hacen más ambiciosos, las soluciones de hacking con Beautiful Soup y peticiones pueden volverse muy complicadas muy rápidamente. Gestionar los datos raspados a medida que las solicitudes engendran más solicitudes se vuelve complicado, y si tus solicitudes se realizan de forma sincrónica, las cosas empiezan a ralentizarse rápidamente. Un montón de problemas que probablemente no habías previsto empiezan a manifestarse. Es en este punto cuando quieres recurrir a una biblioteca potente y robusta que resuelva todos estos problemas y más. Y ahí es donde entra Scrapy.

Mientras que Beautiful Soup es una pequeña navaja muy práctica para el scraping rápido y sucio, Scrapy es una biblioteca de Python que puede hacer scrapes de datos a gran escala con facilidad. Tiene todo lo que cabría esperar, como caché integrada (con tiempos de caducidad), peticiones asíncronas a través del marco web Twisted de Python, aleatorización de agente de usuario y mucho más. El precio de toda esta potencia es una curva de aprendizaje bastante pronunciada, que este capítulo pretende suavizar, utilizando un ejemplo sencillo. Creo que Scrapy es una potente adición a cualquier conjunto de herramientas dataviz y que realmente abre posibilidades para la recopilación de datos web.

En "Raspado de datos", conseguimos raspar ...