Skip to Main Content
Ruby. Receptury
book

Ruby. Receptury

by Lucas Carlson, Leonard Richardson
November 2012
Intermediate to advanced content levelIntermediate to advanced
888 pages
54h 46m
Polish
Helion
Content preview from Ruby. Receptury

11.15. Konwertowanie ściągniętego z internetu dokumentu HTML na tekst

Problem

Chcemy otrzymać czysty tekst odzwierciedlający zawartość strony WWW.

Rozwiązanie

Biblioteka open-uri jest wygodnym środkiem do pobierania zawartości stron WWW: umożliwia ona otwieranie zasobów identyfikowanych przez URL-e tak, jakby były one plikami.

require 'open-uri'

example = open('http://www.example.com/')
# => #<StringIO:0x8519188>

html = example.read

Podobnie jak w przypadku pliku, metoda read zwraca łańcuch. Za pomocą szeregu wywołań metod sub i gsub można łańcuchowi temu nadać bardziej czytelną postać:

plain_text = html.sub(%r{<body.*?>(.*?)</body>}mi, '\1').gsub(/<.*?>/m, ' ').
  gsub(%r{(\n\s*){2}}, "\n\n")

Ponadto, wykorzystując standardową bibliotekę ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

ReasonML Quick Start Guide

ReasonML Quick Start Guide

Raphael Rafatpanah, Bruno Joseph D'mello
Microsoft Excel: Formeln & Funktionen - Das Maxibuch, 3., aktualisierte und erweiterte Auflage

Microsoft Excel: Formeln & Funktionen - Das Maxibuch, 3., aktualisierte und erweiterte Auflage

Egbert Jeschke, Eckehard Pfeifer, Helmut Reinke, Sara Unverhau, Bodo Fienitz
Mastering Ruby Closures

Mastering Ruby Closures

Benjamin Tan Wei Hao

Publisher Resources

ISBN: 9781457177453Errata Page