Kapitel 22. Strukturierter Text: HTML

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die meisten Dokumente im Internet verwenden HTML, die HyperText Markup Language. Die Auszeichnungssprache ist das Einfügen von speziellen Zeichen, den sogenannten Tags, in ein Textdokument, um den Text zu strukturieren. HTML ist in der Theorie eine Anwendung des großen, allgemeinen Standards SGML, der Standard Generalized Markup Language. In der Praxis verwenden viele Dokumente im Internet HTML auf schlampige oder falsche Weise.

HTML wurde für die Darstellung von Dokumenten in einem Browser entwickelt. Als sich die Webinhalte weiterentwickelten, stellten die Nutzer fest, dass es an der Fähigkeit zur semantischen Markierung von fehlte, bei der die Markierung die Bedeutung des dargestellten Textes und nicht nur sein Aussehen angibt. Eine vollständige, präzise Extraktion der Informationen in einem HTML-Dokument erweist sich oft als nicht durchführbar. Ein strengerer Standard namens XHTML versucht, diese Mängel zu beheben. XHTML ähnelt dem traditionellen HTML, ist aber in Form von XML, der eXtensible Markup Language, definiert und präziser als HTML. Du kannst wohlgeformtes XHTML mit den in Kapitel 23 behandelten Werkzeugen bearbeiten. Bislang hat XHTML jedoch keinen überwältigenden Erfolg, sondern wurde von dem pragmatischeren HTML5 verdrängt.

Trotz dieser Schwierigkeiten ist es oft möglich, zumindest einige nützliche ...

Get Python in a Nutshell, 4. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.