February 2019
Intermediate to advanced
272 pages
8h 26m
Polish
Kuszące jest myślenie o internecie jako miejscu stanowiącym głównie siedzibę witryn tekstowych przeplatanych nowomodnymi treściami multimedialnymi, które można ignorować w większości zastosowań ekstrakcji danych. Jednak zignorowalibyśmy w ten sposób fundamentalne założenie internetu: niezależny od treści nośnik przesyłanych danych.
Internet istnieje w jakiejś formie już od lat 60. ubiegłego wieku, jednak język HTML został po raz pierwszy zastosowany dopiero w 1992 roku. Do tego czasu internet służył głównie do przesyłania wiadomości e-mail i plików, a strony internetowe w takiej postaci, w jakiej je dziś znamy, nie istniały. Innymi słowy internet nie stanowi zbioru plików HTML, lecz raczej zestaw wielu typów ...