Kapitel 5. Einbettungen: Wie MaschinenWörter "verstehen"

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In der ersten Phase unserer Reise durch das NLP der unteren Ebenen haben wir herausgefunden, wie wir unsere Textdaten mit Hilfe von Tokenizern in ein Format bringen, das für ein neuronales Netz leichter zu lesen ist. Das nächste Teil des Puzzles ist die Einbettungsschicht. Wenn unsere Modelle mit Hilfe von Tokenizern den Text lesen, sind es die Einbettungen, mit denen sie ihnverstehen.

Verstehen versus Lesen von Texten

Schon seit langem können Maschinen Zeichen (und damit auch Wörter, Sätze usw.) digital darstellen. Die Idee, ein binäres Kodierungssystem für Sprache und Kommunikation zu verwenden, geht mindestens auf die Erfindung des Telegrafen im 19.

Eine der frühesten Formen der Codierung von Sprache war der Morsecode. In diesem System wurden binäre Signale, wie das Ein- und Ausschalten eines Lichts oder das Senden einer Folge von langen und kurzen Tonimpulsen, verwendet, um verschiedene Zeichen darzustellen. Wenn zwei Menschen über einen binären Kommunikationsmodus verfügten und sich auf einen Standard für die Bedeutung der binären Sequenzen einigten, konnten sie zuverlässig im Morsecode kommunizieren. Dies war eine der frühesten und einfachsten Methoden, um die natürliche menschliche Sprache in ein binäres Format einzubetten, mit dem Maschinen in irgendeiner Weise arbeiten konnten. ...

Get Angewandte natürliche Sprachverarbeitung im Unternehmen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.