Rozdział 7. Odczytywanie dokumentów
Kuszące jest myślenie o internecie jako miejscu stanowiącym głównie siedzibę witryn tekstowych przeplatanych nowomodnymi treściami multimedialnymi, które można ignorować w większości zastosowań ekstrakcji danych. Jednak zignorowalibyśmy w ten sposób fundamentalne założenie internetu: niezależny od treści nośnik przesyłanych danych.
Internet istnieje w jakiejś formie już od lat 60. ubiegłego wieku, jednak język HTML został po raz pierwszy zastosowany dopiero w 1992 roku. Do tego czasu internet służył głównie do przesyłania wiadomości e-mail i plików, a strony internetowe w takiej postaci, w jakiej je dziś znamy, nie istniały. Innymi słowy internet nie stanowi zbioru plików HTML, lecz raczej zestaw wielu typów ...
Get Ekstrakcja danych z językiem Python now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.