Kapitel 6. Rekurrente neuronale Netzeund andere Sequenzmodelle

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Eines der großen Themen dieses Buches waren bisher die Transformatoren. Tatsächlich ist fast jedes Modell, das wir bisher trainiert haben, ein Mitglied oder ein Verwandter der Transformator-Familie. Sogar die Tokenizer, die wir gebaut und verwendet haben, wurden mit Blick auf bestimmte Transformator-Architekturen entwickelt.

Aber Transformatoren sind nicht das einzige Modell in der Stadt.

Transformers selbst sind relativ neu - die Originalarbeit von Vaswani et al.1 wurde zum ersten Mal im Juni 2017 auf arXiv veröffentlicht (vor Äonen in der Deep-Learning-Community, aber nicht allzu lange in der Geschichte der Menschheit). Davor haben die Menschen Transformatoren nicht wirklich genutzt. Was war also die Alternative?

Rekurrente neuronale Netze (RNNs) waren damals das Maß aller Dinge. Bei all unserem Gerede darüber, wie Transformatoren und Transfer Learning das Feld revolutioniert haben, haben wir vielleicht den (falschen) Eindruck erweckt, dass NLP erst mit der Einführung von BERT wirklich etwas war. Das ist ganz sicher nicht der Fall.

RNNs und ihre Varianten waren die convolutional neural networks (CNNs) des NLP. Wenn du 2015 Deep Learning lernen wolltest, wurden in den meisten Kursen CNNs als die "Lösung" für das Sehen und RNNs als die "Lösung" für NLP vorgestellt. Das vielleicht auffälligste ...

Get Angewandte natürliche Sprachverarbeitung im Unternehmen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.