Capítulo 5. Obtener datos de la Web con Python
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Una parte fundamental del conjunto de habilidades del visualizador de datos es conseguir el conjunto de datos adecuado de la forma más limpia posible. A veces te darán un conjunto de datos bonito y limpio para analizar, pero a menudo tendrás que encontrar los datos y/o limpiar los datos suministrados.
Y hoy en día, la mayoría de las veces, obtener datos implica sacarlos de la web. Hay varias formas de hacerlo, y Python proporciona algunas bibliotecas estupendas que facilitan la obtención de datos.
Las principales formas de obtener datos de la web son:
-
Obtén un archivo de datos sin procesar en un formato de datos reconocido (por ejemplo, JSON o CSV) a través de HTTP.
-
Utiliza una API específica para obtener los datos.
-
Raspa los datos obteniendo páginas web mediante HTTP y analizándolas localmente en busca de los datos necesarios.
Este capítulo tratará estas formas sucesivamente, pero primero vamos a familiarizarnos con la mejor biblioteca HTTP de Python que existe: Peticiones.
Obtener datos web con la Biblioteca de Peticiones
Como vimos en el Capítulo 4, los archivos que utilizan los navegadores web para construir páginas web se comunican mediante el Protocolo de Transferencia de Hipertexto (HTTP), desarrollado por primera vez por Tim Berners-Lee. Obtener contenido web para analizarlo en busca de datos implica ...