11.5. Parsowanie błędnych dokumentów

Problem

Chcemy wydobyć informację z dokumentu, który wydaje się być dokumentem HTML lub XML, lecz zawiera błędy składniowe.

Rozwiązanie

W charakterze doraźnego rozwiązania można wykorzystać bibliotekę Rubyful Soup, napisaną przez Leonarda Richardsona i dostępną w gemie rubyful_soup. Umożliwia ona budowanie modelu dokumentu także na podstawie błędnej zawartości dokumentów XML i HTML, oferując przy tym podejście idiomatyczne dla języka Ruby. Nadaje się idealnie w charakterze „lekarza pierwszego kontaktu” dla niepoprawnych dokumentów HTML.

require 'rubygems' require 'rubyful_soup' invalid_html = 'A lot of <b class=1>tags are <i class=2>never closed.' soup = BeautifulSoup.new(invalid_html) puts soup.prettify ...

Get Ruby. Receptury now with the O’Reilly learning platform.

O’Reilly members experience live online training, plus books, videos, and digital content from nearly 200 publishers.