Kapitel 7. Transformatoren

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Im vorigen Kapitel haben wir uns mit RNNs beschäftigt, der Modellierungsarchitektur, die im NLP in Mode war, bis die Transformer-Architektur an Bedeutung gewann.

Transformers sind das Arbeitspferd des modernen NLP. Die ursprüngliche Architektur, die 2017 erstmals vorgestellt wurde, hat die (Deep Learning-)Welt im Sturm erobert. Seitdem wird die NLP-Literatur mit allen möglichen neuen Architekturen überschwemmt, die sich entweder in Sesamstraßen-Charaktere oder Wörter, die auf "-former" enden, einordnen lassen.1

In diesem Kapitel werden wir uns genau diese Architektur - den Transformator - im Detail ansehen. Wir analysieren die wichtigsten Innovationen und erforschen eine neue Kategorie von neuronalen Netzwerkschichten: den Aufmerksamkeitsmechanismus.

Einen Transformator von Grund auf neu bauen

In den Kapiteln 2 und 3 haben wir untersucht, wie man Transformatoren in der Praxis einsetzt und wie man vortrainierte Transformatoren nutzt, um komplexe NLP-Probleme zu lösen. Jetzt tauchen wir tief in die Architektur selbst ein und lernen, wie Transformatoren von Grund auf funktionieren.

Was bedeutet "erste Prinzipien"? Nun, zunächst einmal bedeutet es, dass wir die Hugging Face Transformers-Bibliothek nicht benutzen dürfen. Wir haben in diesem Buch schon oft davon geschwärmt, also ist es an der Zeit, eine Pause einzulegen und ...

Get Angewandte natürliche Sprachverarbeitung im Unternehmen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.