
679
22
結構化文字:HTML
Web 上的大多數文件都使用 HTML,即 HyperText Markup Language(超
文件標示語言)。
Markup
(
標示
)代表在文字文件(text document)中插
入特殊的記號(tokens),稱為
標記
(
tags
),以將文字結構化。HTML,
在理論上,是大型、通用的標準SGML(Standard General Markup
Language)的一個應用。實務上,web 上的許多文件都是以草率或不正確
的方式使用 HTML。這些年來,瀏覽器演化出了試探法(heuristics)來彌
補這點,但即使是這樣,仍然會發生瀏覽器以怪異的方式顯示一個錯誤標
示(wrongly marked-up)的網頁的情形(如果是現代的瀏覽器,就別責備
它們:十之八九,該責怪的是那個網頁的作者)。
除了在瀏覽器中呈現文件以外,HTML
1
能做的不多。想要從文件呈現
出來的樣子往回推,完整且精確地擷取出文件中的資訊,很多時候並不
可行。為了讓事情有條理一點,HTML 試著演進為一個更嚴謹的標準,
叫做 XHTML。XHTML 類似傳統的 HTML,但它是以 XML 來定義的,
比 HTML 更為精確。你能以第 23 章中所涵蓋的工具來處理格式正確的
XHTML。然而,在本文寫作之時,XHTML 看起來並未取得壓到性的成
功,反而是被(非 XML 的)最新版本 HTML5 搶了風采。
儘管困難,通常還是可能至少從 HTML 文件擷取出一些實用的資訊(這
種任務被稱為
screen-scraping ...