11.5. Parsowanie błędnych dokumentów

Problem

Chcemy wydobyć informację z dokumentu, który wydaje się być dokumentem HTML lub XML, lecz zawiera błędy składniowe.

Rozwiązanie

W charakterze doraźnego rozwiązania można wykorzystać bibliotekę Rubyful Soup, napisaną przez Leonarda Richardsona i dostępną w gemie rubyful_soup. Umożliwia ona budowanie modelu dokumentu także na podstawie błędnej zawartości dokumentów XML i HTML, oferując przy tym podejście idiomatyczne dla języka Ruby. Nadaje się idealnie w charakterze „lekarza pierwszego kontaktu” dla niepoprawnych dokumentów HTML.

require 'rubygems' require 'rubyful_soup' invalid_html = 'A lot of <b class=1>tags are <i class=2>never closed.' soup = BeautifulSoup.new(invalid_html) puts soup.prettify ...

Get Ruby. Receptury now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.