Capítulo 24. Raspado web

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Introducción

Este capítulo te presenta los fundamentos del web scraping con rvest. El web scraping es una herramienta útil para extraer datos de páginas web. Algunos sitios web ofrecerán una API, un conjunto de solicitudes HTTP estructuradas que devuelven datos como JSON, y que tú puedes manejar utilizando las técnicas del Capítulo 23. Siempre que sea posible, debes utilizar la API¹ porque normalmente te proporcionará datos más fiables. Pero, por desgracia, la programación con API web está fuera del alcance de este libro. En su lugar, estamos enseñando scraping, una técnica que funciona tanto si un sitio proporciona una API como si no.

En este capítulo, primero hablaremos de la ética y los aspectos legales del scraping antes de sumergirnos en los fundamentos del HTML. A continuación, aprenderás los fundamentos de los selectores CSS para localizar elementos específicos en la página y cómo utilizar las funciones rvest para obtener datos de texto y atributos de HTML y pasarlos a R. Después, hablaremos de algunas técnicas para averiguar qué selector CSS necesitas para la página que estás raspando, antes de terminar con un par de casos prácticos y un breve debate sobre los sitios web dinámicos.

Requisitos previos

En este capítulo, nos centraremos en las herramientas proporcionadas por rvest. rvest es un miembro del tidyverse pero no es un miembro ...

Get R para la Ciencia de Datos, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

R para la Ciencia de Datos, 2ª Edición by Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund

Capítulo 24. Raspado web

Introducción

Requisitos previos

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly