November 2012
Intermediate to advanced
888 pages
54h 46m
Polish
Chcemy wydobyć informację z dokumentu, który wydaje się być dokumentem HTML lub XML, lecz zawiera błędy składniowe.
W charakterze doraźnego rozwiązania można wykorzystać bibliotekę Rubyful Soup, napisaną przez Leonarda Richardsona i dostępną w gemie rubyful_soup. Umożliwia ona budowanie modelu dokumentu także na podstawie błędnej zawartości dokumentów XML i HTML, oferując przy tym podejście idiomatyczne dla języka Ruby. Nadaje się idealnie w charakterze „lekarza pierwszego kontaktu” dla niepoprawnych dokumentów HTML.
require 'rubygems' require 'rubyful_soup' invalid_html = 'A lot of <b class=1>tags are <i class=2>never closed.' soup = BeautifulSoup.new(invalid_html) puts soup.prettify ...