22章構造化テキスト:HTML
Web上のほとんどのドキュメントでは、HTML(HyperText Markup Language)が使われている。マークアップとは、タグと呼ばれる特殊なトークンをテキストドキュメントに挿入することで、テキストを構造化することである。HTMLは、理論上は、SGML(Standard Generalized Markup Language)†1として知られる大規模で一般的な規格の応用である。実際には、Web上の多くのドキュメントで、HTMLはずさんな、または誤った方法で使われている。
HTMLは、Webブラウザにドキュメントを表示することを目的として設計されている。Webコンテンツが進化すると、ユーザーはHTMLにセマンティックマークアップ(semantic markup)の機能がないことに気付いた。セマンティックマークアップでは、マークアップは単に記述されたテキストの外観を表すだけではなく、テキストに意味を持たせる。HTMLドキュメント内の情報を完全に、正確に抽出することは、多くの場合、実行不可能である。そこで、XHTMLと呼ばれるより厳格な規格でこうした欠点を克服するという試みがなされた。XHTMLは従来のHTMLに似ているが、XML(eXtensible Markup Language)の観点から、HTMLよりも正確に定義されている。23章で説明するツールを使うと、整形式のXHTMLを扱うことができる。ただし、本書の執筆時点では、XHTMLは圧倒的な成功を収めるには至っておらず、より実利的なHTML5に先を越されつつある。
そう簡単ではないが、多くの場合は、HTMLドキュメントから少なくともある程度の有益な情報を抽出することができる。このタスクは、 ...
Get Pythonクイックリファレンス 第4版 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.