... pasándola por una secuencia inteligente de comandos para aislar las URL de las imágenes, una por línea, y aplicando después una de las técnicas que acabo de mostrarte:
curl URL | ...clever pipeline here... | xargs -n1 wget
Procesar HTML con HTML-XML-utils
Si sabes algo de HTML y CSS, puedes analizar el código fuente HTML de las páginas web desde la línea de comandos. A veces es más eficaz que copiar y pegar a mano trozos de una página web desde una ventana del navegador. Un práctico conjunto de herramientas para este fin es HTML-XML-utils, que está disponible en muchas distribuciones Linux y en elConsorcio World Wide Web. Una receta general es:
-
Utiliza
curl(owget) para capturar la fuente HTML. -
Utiliza
hxnormalizepara asegurarte de que el HTML está bien formado. -
Identifica los selectores CSS para los valores que quieres capturar.
-
Utiliza
hxselectpara aislar los valores, y canaliza la salida a otros comandos para su procesamiento.
Vamos a ampliar el ejemplo de "Crear una base de datos de códigos de área" para obtener los datos de los códigos de áreade la Web y producir el archivo areacodes.txt utilizado en ese ejemplo. Para tu comodidad, he creado una tabla HTML de códigos de área para que la descargues y la proceses, que se muestra en la Figura 10-1.
Figura 10-1. Tabla de códigos de área en https://efficientlinux.com/areacodes.html
Primero, captura la fuente HTML con ...