11.5. Parsowanie błędnych dokumentów
Problem
Chcemy wydobyć informację z dokumentu, który wydaje się być dokumentem HTML lub XML, lecz zawiera błędy składniowe.
Rozwiązanie
W charakterze doraźnego rozwiązania można wykorzystać bibliotekę Rubyful Soup
, napisaną przez Leonarda Richardsona i dostępną w gemie rubyful_soup
. Umożliwia ona budowanie modelu dokumentu także na podstawie błędnej zawartości dokumentów XML i HTML, oferując przy tym podejście idiomatyczne dla języka Ruby. Nadaje się idealnie w charakterze „lekarza pierwszego kontaktu” dla niepoprawnych dokumentów HTML.
require 'rubygems' require 'rubyful_soup' invalid_html = 'A lot of <b class=1>tags are <i class=2>never closed.' soup = BeautifulSoup.new(invalid_html) puts soup.prettify ...
Get Ruby. Receptury now with the O’Reilly learning platform.
O’Reilly members experience live online training, plus books, videos, and digital content from nearly 200 publishers.