November 2012
Intermediate to advanced
888 pages
54h 46m
Polish
Chcemy odnaleźć wszystkie lokalizatory URL na danej stronie WWW.
Czy chodzi jedynie o hiperłącza (czyli URL-e stanowiące wartość atrybutu HREF w znaczniku <A)? Czy może interesują nas również URL-e w osadzonych obiektach — obrazkach lub apletach? A może po prostu chcemy odnaleźć wszystkie URL-e, także te wymienione w treści strony?
Wbrew pozorom, ten ostatni przypadek jest najprostszy. Ekstrakcję URL-i przeprowadzić można za pomocą metody URI.extract; możemy zażądać wyodrębnienia wszystkich URL-i w danym łańcuchu bądź ograniczyć się tylko do ich podzbioru. W poniższym przykładzie wykorzystujemy zarówno pierwszą, jak i drugą możliwość:
require 'uri' text = ...