Skip to Content
Pythonクイックリファレンス 第4版
book

Pythonクイックリファレンス 第4版

by Alex Martelli, Anna Martelli Ravenscroft, Steve Holden, Paul McGuire, 鈴木 駿, 株式会社クイープ
June 2024
Intermediate to advanced
864 pages
12h 14m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonクイックリファレンス 第4版

22章構造化テキスト:HTML

Web上のほとんどのドキュメントでは、HTML(HyperText Markup Language)が使われている。マークアップとは、タグと呼ばれる特殊なトークンをテキストドキュメントに挿入することで、テキストを構造化することである。HTMLは、理論上は、SGML(Standard Generalized Markup Language)†1として知られる大規模で一般的な規格の応用である。実際には、Web上の多くのドキュメントで、HTMLはずさんな、または誤った方法で使われている。

HTMLは、Webブラウザにドキュメントを表示することを目的として設計されている。Webコンテンツが進化すると、ユーザーはHTMLにセマンティックマークアップ(semantic markup)の機能がないことに気付いた。セマンティックマークアップでは、マークアップは単に記述されたテキストの外観を表すだけではなく、テキストに意味を持たせる。HTMLドキュメント内の情報を完全に、正確に抽出することは、多くの場合、実行不可能である。そこで、XHTMLと呼ばれるより厳格な規格でこうした欠点を克服するという試みがなされた。XHTMLは従来のHTMLに似ているが、XML(eXtensible Markup Language)の観点から、HTMLよりも正確に定義されている。23章で説明するツールを使うと、整形式のXHTMLを扱うことができる。ただし、本書の執筆時点では、XHTMLは圧倒的な成功を収めるには至っておらず、より実利的なHTML5に先を越されつつある。

そう簡単ではないが、多くの場合は、HTMLドキュメントから少なくともある程度の有益な情報を抽出することができる。このタスクは、 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

SQLではじめるデータ分析 ―クエリで行う前処理、時系列解析、コホート分析、テキスト分析、異常検知

SQLではじめるデータ分析 ―クエリで行う前処理、時系列解析、コホート分析、テキスト分析、異常検知

Cathy Tanimura, 大橋 真也, 嶋田 健志, 木下 哲也

Publisher Resources

ISBN: 9784814400812Publisher Website