February 2008
Intermediate to advanced
400 pages
10h
German
Beautiful Soup ist ein Python-Parser für HTML- und XML-Dokumente. Er ist darauf ausgelegt, auch schlecht geschriebene Webseiten zu parsen. Der Parser wird in diesem Buch genutzt, um Datenmengen aus Websites zu erstellen, die keine API bieten, und um alle Texte auf einer Seite für eine Indexierung zu finden. Die Homepage für diese Bibliothek ist http://www.crummy.com/software/BeautifulSoup.
Installation auf allen Plattformen
Beautiful Soup ist als einzelne Quelldatei herunterzuladen. Ziemlich am Ende der Homepage finden Sie einen Link, um BeautifulSoup.py zu laden. Tun Sie das und stecken Sie die Datei entweder in Ihr Arbeitsverzeichnis oder in Python/Lib.
Einfaches Anwendungsbeispiel
Dieses Beispiel parst den HTML-Code der Google-Homepage ...