Skip to Main Content
Blaupausen für Textanalyse mit Python
book

Blaupausen für Textanalyse mit Python

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler
September 2024
Intermediate to advanced content levelIntermediate to advanced
424 pages
13h 12m
German
O'Reilly Media, Inc.
Book available
Content preview from Blaupausen für Textanalyse mit Python

Kapitel 3. Scraping von Websites und Extraktion von Daten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Oft passiert es, dass du eine Website besuchst und den Inhalt interessant findest. Wenn es nur ein paar Seiten sind, ist es möglich, alles alleine zu lesen. Aber sobald es eine beträchtliche Menge an Inhalten gibt, wird es nicht mehr möglich sein, alles alleine zu lesen .

Um die in diesem Buch beschriebenen leistungsstarken Textanalyseverfahren nutzen zu können, musst du dir zunächst die Inhalte beschaffen. Auf den meisten Websites gibt es keine Schaltfläche "Alle Inhalte herunterladen", also müssen wir einen cleveren Weg finden, die Seiten herunterzuladen ("scrapen").

Normalerweise interessieren wir uns hauptsächlich für den Inhalt jeder einzelnen Webseite, weniger für die Navigation usw. Sobald wir die Daten lokal zur Verfügung haben, können wir leistungsstarke Extraktionstechniken einsetzen, um die Seiten in Elemente wie Titel, Inhalt und auch einige Metainformationen (Veröffentlichungsdatum, Autor usw.) zu zerlegen.

Was du lernen wirst und was wir bauen werden

In diesem Kapitel zeigen wir dir auf , wie du HTML-Daten von Websites beschaffst und mit leistungsstarken Werkzeugen den Inhalt aus diesen HTML-Dateien extrahierst. Wir zeigen dies anhand von Inhalten aus einer bestimmten Datenquelle, dem Reuters Nachrichtenarchiv.

Im ersten Schritt laden wir einzelne HTML-Dateien herunter und ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Python für die Bioinformatik beherrschen

Python für die Bioinformatik beherrschen

Ken Youens-Clark
Python in a Nutshell, 4. Auflage

Python in a Nutshell, 4. Auflage

Alex Martelli, Anna Martelli Ravenscroft, Steve Holden, Paul McGuire

Publisher Resources

ISBN: 9781098191191Supplemental Content