... séquence intelligente de commandes pour isoler les URL des images, une par ligne, et en appliquant ensuite l'une des techniques que je viens de te montrer :
curl URL | ...clever pipeline here... | xargs -n1 wget
Traiter le HTML avec HTML-XML-utils
Si tu connais un peu le HTML et le CSS, tu peux analyser la source HTML des pages Web à partir de la ligne de commande. C'est parfois plus efficace que de copier et coller à la main des morceaux d'une page web depuis la fenêtre d'un navigateur. Une suite d'outils pratique à cette fin est HTML-XML-utils, qui est disponible dans de nombreuses distros Linux et auprès duWorld Wide Web Consortium. La recette générale est la suivante :
-
Utilise
curl(ouwget) pour capturer la source HTML. -
Utilise
hxnormalizepour t'assurer que le HTML est bien formé. -
Identifie les sélecteurs CSS pour les valeurs que tu veux capturer.
-
Utilise
hxselectpour isoler les valeurs et acheminer la sortie vers d'autres commandes pour traitement.
Étendons l'exemple de "Création d'une base de données d'indicatifs régionaux" pour récupérer les données d'indicatifs régionauxsur le Web et produire le fichier areacodes.txt utilisé dans cet exemple. Pour te faciliter la tâche, j'ai créé un tableau HTML de codes régionaux que tu peux télécharger et traiter, comme le montre la figure 10-1.