Rozdział 2. Zaawansowana analiza składniowa HTML

Michał Anioł, zapytany, jak udało mu się wykuć takie arcydzieło, jakim jest Dawid, udzielił słynnej odpowiedzi: „To proste. Usunąłem te elementy, które nie były Dawidem”.

W przeważającej liczbie aspektów ekstrakcja danych z internetu nie ma nic wspólnego z rzeźbiarstwem, jednak podczas wydobywania informacji ze skomplikowanych stron WWW wymaga podobnego podejścia. Możemy korzystać z wielu technik usuwających treści niebędące poszukiwaną przez nas zawartością aż do pozostawienia jedynie potrzebnych informacji. W tym rozdziale przyjrzymy się analizie składniowej skomplikowanych witryn internetowych w celu wyszukiwania jedynie interesujących nas informacji.

Młotek nie zawsze jest potrzebny

Podczas ...

Get Ekstrakcja danych z językiem Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.