... pasándola por una secuencia inteligente de comandos para aislar las URL de las imágenes, una por línea, y aplicando después una de las técnicas que acabo de mostrarte:
curl URL | ...clever pipeline here... | xargs -n1 wget
Procesar HTML con HTML-XML-utils
Si sabes algo de HTML y CSS, puedes analizar el código fuente HTML de las páginas web desde la línea de comandos. A veces es más eficaz que copiar y pegar a mano trozos de una página web desde una ventana del navegador. Un práctico conjunto de herramientas para este fin es HTML-XML-utils, que está disponible en muchas distribuciones Linux y en elConsorcio World Wide Web. Una receta general es:
-
Utiliza
curl
(owget
) para capturar la fuente HTML. -
Utiliza
hxnormalize
para asegurarte de que el HTML está bien formado. -
Identifica los selectores CSS para los valores que quieres capturar.
-
Utiliza
hxselect
para aislar los valores, y canaliza la salida a otros comandos para su procesamiento.
Vamos a ampliar el ejemplo de "Crear una base de datos de códigos de área" para obtener los datos de los códigos de áreade la Web y producir el archivo areacodes.txt utilizado en ese ejemplo. Para tu comodidad, he creado una tabla HTML de códigos de área para que la descargues y la proceses, que se muestra en la Figura 10-1.
Primero, captura la fuente HTML con ...
Get Linux eficiente en la línea de comandos now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.