Capítulo 24. Raspado web
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Introducción
Este capítulo te presenta los fundamentos del web scraping con rvest. El web scraping es una herramienta útil para extraer datos de páginas web. Algunos sitios web ofrecerán una API, un conjunto de solicitudes HTTP estructuradas que devuelven datos como JSON, y que tú puedes manejar utilizando las técnicas del Capítulo 23. Siempre que sea posible, debes utilizar la API1 porque normalmente te proporcionará datos más fiables. Pero, por desgracia, la programación con API web está fuera del alcance de este libro. En su lugar, estamos enseñando scraping, una técnica que funciona tanto si un sitio proporciona una API como si no.
En este capítulo, primero hablaremos de la ética y los aspectos legales del scraping antes de sumergirnos en los fundamentos del HTML. A continuación, aprenderás los fundamentos de los selectores CSS para localizar elementos específicos en la página y cómo utilizar las funciones rvest para obtener datos de texto y atributos de HTML y pasarlos a R. Después, hablaremos de algunas técnicas para averiguar qué selector CSS necesitas para la página que estás raspando, antes de terminar con un par de casos prácticos y un breve debate sobre los sitios web dinámicos.
Requisitos previos
En este capítulo, nos centraremos en las herramientas proporcionadas por rvest. rvest es un miembro del tidyverse pero no es un miembro ...
Get R para la Ciencia de Datos, 2ª Edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.