Kapitel 5. Informationsextraktion

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Was verbirgt sich hinter einem Namen? Eine Rose würde unter jedem anderen Namen genauso süß duften.

William Shakespeare

Wir haben jeden Tag mit vielen Textinhalten zu tun, seien es kurze Nachrichten am Telefon oder tägliche E-Mails oder längere Texte, die wir zum Spaß oder bei der Arbeit lesen oder um uns über das aktuelle Geschehen zu informieren. Solche Textdokumente sind eine reichhaltige Informationsquelle für uns. Je nach Kontext kann "Information" mehrere Dinge bedeuten, z. B. wichtige Ereignisse, Personen oder Beziehungen zwischen Menschen, Orten oder Organisationen usw. Informationsextraktion (IE) bezieht sich auf die NLP-Aufgabe, relevante Informationen aus Textdokumenten zu extrahieren. Ein Beispiel für die Anwendung von IE in der Praxis sind die kurzen Texte, die wir rechts sehen, wenn wir bei Google nach dem Namen einer bekannten Persönlichkeit suchen.

Im Vergleich zu strukturierten Informationsquellen wie Datenbanken oder Tabellen oder halbstrukturierten Quellen wie Webseiten (die über ein gewisses Markup verfügen), ist Text eine Form von unstrukturierten Daten. In einer Datenbank wissen wir zum Beispiel aufgrund des Schemas, wo wir nach etwas suchen müssen. Textdokumente bestehen jedoch zu einem großen Teil aus frei fließendem Text ohne ein festes Schema. Das macht IE zu einem schwierigen Problem. ...

Get Praktische natürliche Sprachverarbeitung now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.