... pasándola por una secuencia inteligente de comandos para aislar las URL de las imágenes, una por línea, y aplicando después una de las técnicas que acabo de mostrarte:

curl URL | ...clever pipeline here... | xargs -n1 wget

Procesar HTML con HTML-XML-utils

Si sabes algo de HTML y CSS, puedes analizar el código fuente HTML de las páginas web desde la línea de comandos. A veces es más eficaz que copiar y pegar a mano trozos de una página web desde una ventana del navegador. Un práctico conjunto de herramientas para este fin es HTML-XML-utils, que está disponible en muchas distribuciones Linux y en elConsorcio World Wide Web. Una receta general es:

  1. Utiliza curl (o wget) para capturar la fuente HTML.

  2. Utiliza hxnormalize para asegurarte de que el HTML está bien formado.

  3. Identifica los selectores CSS para los valores que quieres capturar.

  4. Utiliza hxselect para aislar los valores, y canaliza la salida a otros comandos para su procesamiento.

Vamos a ampliar el ejemplo de "Crear una base de datos de códigos de área" para obtener los datos de los códigos de áreade la Web y producir el archivo areacodes.txt utilizado en ese ejemplo. Para tu comodidad, he creado una tabla HTML de códigos de área para que la descargues y la proceses, que se muestra en la Figura 10-1.

A table of area codes, US states, and US cities
Figura 10-1. Tabla de códigos de área en https://efficientlinux.com/areacodes.html

Primero, captura la fuente HTML con ...

Get Linux eficiente en la línea de comandos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.