Capítulo 7. Modelos de rastreo web
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Escribir código limpio y escalable ya es bastante difícil cuando tienes control sobre tus datos y tus entradas. Escribir código para rastreadores web, que pueden necesitar raspar y almacenar una variedad de datos de diversos conjuntos de sitios web sobre los que el programador no tiene control, a menudo presenta retos organizativos únicos.
Puede que te pidan que recopiles artículos de noticias o entradas de blog de varios sitios web, cada uno con plantillas y diseños diferentes. La etiqueta h1 de un sitio web contiene el título del artículo, la etiqueta h1 de otro contiene el título del propio sitio web, y el título del artículo está en <span id="title">.
Puede que necesites un control flexible sobre qué sitios web se raspan y cómo se raspan, y una forma de añadir rápidamente nuevos sitios web o modificar los existentes, lo más rápido posible sin escribir múltiples líneas de código.
Puede que te pidan que extraigas los precios de los productos de distintos sitios web, con el fin último de comparar los precios de un mismo producto. Quizá estos precios estén en distintas monedas, y quizá también tengas que combinarlos con datos externos de alguna otra fuente ajena a la web.
Aunque las aplicaciones de los rastreadores web son casi infinitas, los grandes rastreadores escalables tienden a caer en uno de varios patrones. Aprendiendo ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access