Kapitel 1. GPT-4 und ChatGPT Grundlagen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die Fähigkeit, die Leistung von künstlicher Intelligenz freizusetzen, war für Entwickler noch nie so zugänglich wie heute. Große Sprachmodelle (LLMs) wie GPT-4 und GPT-3.5 Turbo haben ihre Fähigkeiten durch ChatGPT unter Beweis gestellt. Jetzt befinden wir uns in einem Wirbelwind des Fortschritts, mit einem Tempo, das es in der Softwarewelt noch nie gegeben hat. OpenAI hat diese technologischen Innovationen leicht zugänglich gemacht; welche transformativen Anwendungen wirst du mit den Werkzeugen, die dir jetzt zur Verfügung stehen, entwickeln?

Die Auswirkungen dieser KI-Modelle gehen weit über Chatbots hinaus. Dank der LLMs können Entwickler/innen jetzt die Leistung dernatürlichen Sprachverarbeitung (NLP) nutzen, um Anwendungen zu entwickeln, die die Bedürfnisse der Nutzer/innen verstehen und damit das, was früher Science-Fiction war, in greifbare Realität verwandeln. Dank der neuen Bildverarbeitungsfunktionen des GPT-4 ist es jetzt auch möglich, Software zu entwickeln, die Text auf der Grundlage von Bildern interpretieren und generieren kann. Von innovativen Kundensupportsystemen, die lernen und sich anpassen, bis hin zu personalisierten Bildungsprogrammen, die den einzigartigen Lernstil jedes Schülers/jeder Schülerin verstehen, eröffnen die GPT-Sprachmodelle eine ganz neue Welt der Möglichkeiten.

Aber was sind diese GPT-Modelle? Das Ziel dieses Kapitels ist es, ihre Grundlagen, Ursprünge und wichtigsten Merkmale zu erforschen. Wenn du die Grundlagen dieser KI-Modelle verstehst, bist du auf dem besten Weg, die nächste Generation von LLM-gestützten Anwendungen zu entwickeln.

Große Sprachmodelle einführen

In diesem Abschnitt werden die grundlegenden Bausteine dargelegt, die die Entwicklung von GPT-Modellen geprägt haben. Unser Ziel ist es, ein umfassendes Verständnis von Sprachmodellen und NLP, der Rolle von Transformer-Architekturen und den Tokenisierungs- und Vorhersageprozessen innerhalb dieser Modelle zu vermitteln. Wie wir sehen werden, hört diese Reise jedoch nicht bei der Textverarbeitung auf. Mit der Einführung von GPT-4 Vision werden die Fähigkeiten der LLMs über die Textverarbeitung hinaus auf die Verarbeitung von multimodalen Eingaben ausgeweitet. Das bedeutet, dass GPT-4 nicht nur Text verarbeiten, sondern auch Bilder interpretieren kann.

Erforschung der Grundlagen von Sprachmodellen und NLP

Als LLMs gehören die GPT-Modelle zu den neuesten Modellen im Bereich des NLP, das selbst ein Teilbereich des maschinellen Lernens (ML) und der KI ist. Bevor wir uns mit GPT-Modellen beschäftigen, ist es wichtig, einen Blick auf das NLP und seine verwandten Bereiche zu werfen.

Es gibt verschiedene Definitionen von KI, aber der Konsens ist mehr oder weniger, dass KI die Entwicklung von Computersystemen ist, die Aufgaben ausführen können, die normalerweise menschliche Intelligenz erfordern. Nach dieser Definition fallen viele Algorithmen unter den Begriff KI. Denk zum Beispiel an die Verkehrsvorhersage in GPS-Anwendungen oder an die regelbasierten Systeme in strategischen Videospielen. In diesen Beispielen scheint die Maschine von außen betrachtet Intelligenz zu benötigen, um diese Aufgaben zu bewältigen.

ML ist, wie bereits erwähnt, eine Teilmenge der KI. Bei ML versuchen wir nicht, die vom KI-System verwendeten Entscheidungsregeln direkt zu implementieren. Stattdessen versuchen wir, Algorithmen zu entwickeln, die es dem System ermöglichen, von selbst zu lernen. Seit den 1950er Jahren, als die ML-Forschung begann, sind in der wissenschaftlichen Literatur viele ML-Algorithmen vorgeschlagen worden.

Unter ihnen sind Deep-Learning-Algorithmen in den Vordergrund gerückt. Deep Learning ist ein Zweig des ML, der sich auf Algorithmen konzentriert, die von der Struktur des Gehirns inspiriert sind. Diese Algorithmen werden künstliche neuronale Netze genannt. Sie können sehr große Datenmengen verarbeiten und sind sehr leistungsfähig bei Aufgaben wie Bild- und Spracherkennung und NLP.

Die GPT-Modelle basieren auf der Transformer-Architektur, die in dem 2017 erschienenen Artikel "Attention Is All You Need" von Vaswani et al. von Google vorgestellt wurde. Transformatoren sind wie Lesemaschinen. Sie nutzen einen Aufmerksamkeitsmechanismus, um verschiedene Teile des Textes zu priorisieren, was ein tieferes Verständnis des Kontextes und kohärente Ergebnisse ermöglicht. Auf diese Weise können sie die Bedeutung von Wörtern innerhalb von Sätzen erfassen und ihre Leistung bei der Übersetzung, Beantwortung von Fragen und der Erstellung von Texten verbessern. Abbildung 1-1 stellt diese Kernkonzepte und ihre Rolle bei der Verbesserung der Fähigkeiten von Transformer-Modellen für verschiedene Sprachaufgaben visuell dar.

Abbildung 1-1. Eine verschachtelte Reihe von Technologien von KI bis zu Transformatoren

NLP ist ein Teilgebiet der KI, das sich damit beschäftigt, wie Computer natürliche menschliche Sprache verarbeiten, interpretieren und erzeugen können. Moderne NLP-Lösungen basieren auf ML-Algorithmen. Das Ziel von NLP ist es, Computer in die Lage zu versetzen, natürlichsprachliche Texte zu verarbeiten. Dieses Ziel umfasst eine breite Palette von Aufgaben:

Textklassifizierung
Kategorisierung Eingabetext in vordefinierte Gruppen einteilen. Dazu gehören z. B. die Stimmungsanalyse und die Themenkategorisierung. Unternehmen können die Stimmungsanalyse nutzen, um die Meinung der Kunden über ihre Dienstleistungen zu verstehen. Die E-Mail-Filterung ist ein Beispiel für die thematische Kategorisierung, bei der E-Mails in Kategorien wie "Persönlich", "Sozial", "Werbung" und "Spam" eingeordnet werden können.
Automatische Übersetzung
Automatische Übersetzung von Text aus einer Sprache in eine andere. Dies kann auch Bereiche wie die Übersetzung von Code von einer Programmiersprache in eine andere umfassen, z. B. von Python in C++.
Frage beantworten
Beantwortung von Fragen auf der Grundlage eines gegebenen Textes. Ein Online-Kundendienstportal könnte zum Beispiel ein NLP-Modell verwenden, um FAQs zu einem Produkt zu beantworten, oder eine Lernsoftware könnte NLP nutzen, um die Fragen der Schüler/innen zu einem bestimmten Thema zu beantworten.
Textgenerierung
Generierung eines kohärenten und relevanten Ausgabetextes auf der Grundlage eines vorgegebenen Eingabetextes, genannt Eingabeaufforderung.

Wie bereits erwähnt, sind LLMs ML-Modelle, die versuchen, Textgenerierung und andere Aufgaben zu lösen. LLMs versetzen Computer in die Lage, menschliche Sprache zu verarbeiten, zu interpretieren und zu generieren, um eine effektivere Kommunikation zwischen Mensch und Maschine zu ermöglichen. Um dies zu erreichen, analysieren oder trainieren LLMs große Mengen an Textdaten und lernen so Muster und Beziehungen zwischen Wörtern in Sätzen. Für diesen Lernprozess kann eine Vielzahl von Datenquellen genutzt werden. Diese Daten können Texte aus Wikipedia, Reddit, dem Archiv von Tausenden von Büchern oder sogar dem Archiv des Internets selbst enthalten. Bei einem Eingabetext ermöglicht dieser Lernprozess den LLMs, Vorhersagen über die wahrscheinlichsten nachfolgenden Wörter zu treffen und auf diese Weise sinnvolle Antworten auf den Eingabetext zu generieren. Das LLM verfügt über eine sehr große Anzahl interner Parameter, und während es lernt, sucht der Algorithmus, der das LLM erstellt, nach den optimalen Parametern, die es dem Modell ermöglichen, die bestmöglichen Vorhersagen für die nächsten Wörter zu treffen. Moderne Sprachmodelle, wie die neuesten GPT-Modelle, sind so umfangreich und wurden an so vielen Texten trainiert, dass sie inzwischen die meisten NLP-Aufgaben wie Textklassifizierung, maschinelle Übersetzung, Beantwortung von Fragen und viele andere direkt übernehmen können.

Hinweis

Von OpenAI wurden verschiedene Sprachmodelle vorgeschlagen. Zum Zeitpunkt der Erstellung dieses Artikels sind die neuesten und leistungsfähigsten Modelle der GPT-4-Serie. Zusätzlich zu seinen Textverarbeitungsfähigkeiten stellt GPT-4 Vision auch einen bedeutenden Fortschritt als multimodales Modell dar, da es nicht nur Text, sondern auch Bilder als Eingabe verarbeiten kann. LLMs sind in der Lage, Bilder mithilfe einer speziellen Transformer-Architektur namens vision transformer (ViT) zu interpretieren. Das GPT-4o-Modell geht in Sachen Multimodalität noch einen Schritt weiter: Es kann Text, Bild und Ton verarbeiten und erzeugen.

Die Entwicklung von LLMs reicht bis in die 1990er Jahre zurück. Sie begann mit einfachen Sprachmodellen wie n-grams, die versuchten, das nächste Wort in einem Satz auf der Grundlage der vorangegangenen Wörter vorherzusagen. N-Gramm-Modelle verwenden dazu die Häufigkeit. Das vorhergesagte nächste Wort ist das Wort, das am häufigsten auf die vorangegangenen Wörter in dem Text folgt, für den das n-gram Modell trainiert wurde. Dieser Ansatz war zwar ein guter Anfang, aber da die N-Gramm-Modelle den Kontext und die Grammatik noch nicht richtig verstehen, führte dies zu einer inkonsistenten Texterstellung.

Um die Leistung von n-Gramm-Modellen zu verbessern, wurden fortschrittlichere Lernalgorithmen eingeführt, darunter rekurrente neuronale Netze (RNNs) und Netzwerke mit Langzeitgedächtnis (LSTMs). Diese Modelle waren in der Lage, längere Sequenzen zu lernen und den Kontext besser zu analysieren als N-Gramme, aber sie mussten immer noch große Datenmengen effizient verarbeiten. Diese Arten von rekurrenten Modellen waren lange Zeit die effizientesten und wurden daher am häufigsten in Tools wie der automatischen maschinellen Übersetzung verwendet.

Die Transformatorarchitektur und ihre Rolle in LLMs verstehen

Die Transformer-Architektur hat das NLP revolutioniert, vor allem weil die Transformer eine der kritischen Grenzen früherer NLP-Modelle wie RNNs effektiv angegangen sind: die Schwierigkeiten der früheren Modelle mit langen Eingabesequenzen und der Beibehaltung des Kontexts über diese Länge hinweg. Mit anderen Worten: Während RNNs dazu neigten, den Kontext in längeren Sequenzen zu vergessen, waren Transformers in der Lage, diesen Kontext effektiv zu verarbeiten und zu kodieren.

Der zentrale Pfeiler dieser Revolution ist der Aufmerksamkeitsmechanismus, eine einfache, aber wirkungsvolle Idee. Anstatt alle Wörter in einer Textfolge als gleich wichtig zu behandeln, "schenkt" das Modell den relevantesten Begriffen für jeden Schritt seiner Aufgabe Aufmerksamkeit. Dieser Mechanismus ermöglicht direkte Verbindungen zwischen weit voneinander entfernten Elementen im Text, so dass das letzte Wort dem ersten Wort ohne Einschränkungen "Aufmerksamkeit" schenken kann, wodurch eine wesentliche Einschränkung früherer Modelle wie RNNs überwunden wird. Cross-Attention und Self-Attention sind zwei architektonische Bausteine, die auf diesem Aufmerksamkeitsmechanismus basieren und häufig in LLMs zu finden sind. Die Transformer-Architektur macht ausgiebig Gebrauch von diesen Blöcken.

Cross-Attention hilft dem Modell, die Relevanz der verschiedenen Teile des Eingangstextes für die genaue Vorhersage des nächsten Wortes im Ausgangstext zu bestimmen. Es ist wie ein Scheinwerfer, der auf Wörter oder Sätze im Eingangstext leuchtet und die relevanten Informationen hervorhebt, die für die Vorhersage des nächsten Wortes benötigt werden, während weniger wichtige Details ignoriert werden.

Um das zu verdeutlichen, nehmen wir ein Beispiel für eine einfache Satzübersetzungsaufgabe. Stellen wir uns vor, wir haben einen englischen Eingabesatz: "Alice genoss das sonnige Wetter in Brüssel", der ins Französische mit "Alice a profité du temps ensoleillé à Bruxelles" übersetzt werden soll. In diesem Beispiel konzentrieren wir uns darauf, das französische Wort ensoleillé zu generieren, das sonnig bedeutet. Bei dieser Vorhersage würde Cross-Attention den englischen Wörtern sunny und weather mehr Gewicht geben, da sie beide für die Bedeutung von ensoleillé relevant sind. Durch die Konzentration auf diese beiden Wörter hilft die Cross-Attention dem Modell, eine genaue Übersetzung für diesen Teil des Satzes zu erstellen. Abbildung 1-2 veranschaulicht dieses Beispiel.

Abbildung 1-2. Cross-Attention nutzt den Aufmerksamkeitsmechanismus, um sich auf wesentliche Teile des Eingangstextes (englischer Satz) zu konzentrieren, um das nächste Wort im Ausgangstext (französischer Satz) vorherzusagen

Selbstaufmerksamkeit bezieht sich auf die Fähigkeit eines Modells, sich auf verschiedene Teile des Eingabetextes zu konzentrieren. Im Kontext von NLP kann das Modell die Bedeutung jedes Wortes in einem Satz im Vergleich zu den anderen Wörtern bewerten. Dadurch kann es die Beziehungen zwischen den Wörtern besser verstehen und neue Konzepte aus mehreren Wörtern im Eingabetext erstellen.

Ein konkreteres Beispiel ist der folgende Satz: "Alice wurde von ihren Kollegen gelobt." Nehmen wir an, dass das Modell versucht, die Bedeutung des Wortes "sie" in diesem Satz zu verstehen. Der Mechanismus der Selbstaufmerksamkeit gewichtet die Wörter im Satz unterschiedlich und hebt die Wörter hervor, die für sie in diesem Zusammenhang relevant sind. In diesem Beispiel würde die Selbstaufmerksamkeit den Wörtern Alice und Kollegen mehr Gewicht verleihen. Die Selbstaufmerksamkeit hilft dem Modell, aus diesen Wörtern neue Konzepte zu bilden. In diesem Beispiel könnte eines der Konzepte "Alices Kollegen" lauten, wie in Abbildung 1-3 dargestellt.

Abbildung 1-3. Die Selbstaufmerksamkeit ermöglicht die Entstehung des Konzepts "Alices Kollegen".

Im Gegensatz zu, der rekurrenten Architektur, haben Transformer auch den Vorteil, dass sie leicht parallelisiert werden können. Das bedeutet, dass die Transformer-Architektur mehrere Teile des Eingabetextes gleichzeitig verarbeiten kann, anstatt sie nacheinander zu verarbeiten. Dies ermöglicht eine schnellere Berechnung und Ausbildung, da verschiedene Teile des Modells parallel arbeiten können, ohne auf den Abschluss vorheriger Schritte zu warten, anders als bei rekurrenten Architekturen, die eine sequentielle Verarbeitung erfordern. Die Fähigkeit zur parallelen Verarbeitung von Transformatormodellen passt perfekt zur Architektur von Grafikprozessoren (GPUs), die für die gleichzeitige Verarbeitung mehrerer Berechnungen ausgelegt sind. Daher sind GPUs aufgrund ihrer hohen Parallelität und Rechenleistung ideal für das Training und die Ausführung dieser Transformer-Modelle. Dieser Fortschritt ermöglichte es Datenwissenschaftlern, Modelle auf viel größeren Datensätzen zu trainieren und ebnete den Weg für die Entwicklung von LLMs.

Die Transformer-Architektur ist ein Sequenz-zu-Sequenz-Modell, das ursprünglich für Sequenz-zu-Sequenz-Aufgaben wie die maschinelle Übersetzung entwickelt wurde. Ein Standard-Transformer besteht aus zwei Hauptkomponenten, einem Encoder und einem Decoder, die sich beide stark auf Aufmerksamkeitsmechanismen stützen. Die Aufgabe des Encoders ist es, den Eingangstext zu verarbeiten, wertvolle Merkmale zu erkennen und eine sinnvolle Darstellung des Textes zu erzeugen, die sogenannte Einbettung. Der Decoder verwendet diese Einbettung dann, um eine Ausgabe zu erstellen, z. B. eine Übersetzung oder eine Zusammenfassung. Diese Ausgabe interpretiert die kodierten Informationen.

Generative Pre-Trained Transformers, allgemein als GPTs bekannt, sind eine Familie von Modellen, die auf der Transformer-Architektur basieren und die speziell den Decoder-Teil der ursprünglichen Architektur nutzen. In der GPT-Architektur ist der Encoder nicht vorhanden, so dass es nicht notwendig ist, die von einem Encoder erzeugten Einbettungen über Kreuz zu integrieren. Daher verlassen sich GPTs ausschließlich auf den Selbstaufmerksamkeitsmechanismus im Decoder, um kontextbezogene Repräsentationen und Vorhersagen zu erstellen. Andere bekannte Modelle, wie BERT (Bidirectional Encoder Representations from Transformers), basieren auf dem Encoderteil. Wir behandeln diese Art von Modell in diesem Buch nicht. Abbildung 1-4 veranschaulicht die Entwicklung dieser verschiedenen Modelle.

Abbildung 1-4. Die Entwicklung der NLP-Techniken von n-Grammen bis zum Aufkommen von LLMs

Entmystifizierung der Tokenisierung und Vorhersageschritte in GPT-Modellen

LLMs erhalten eine Eingabeaufforderung, und als Antwort darauf erzeugen sie einen Text. Dieser Prozess wird als Textvervollständigung bezeichnet. Die Eingabeaufforderung könnte zum Beispiel lauten: Das Wetter ist heute schön, also habe ich beschlossen, spazieren zu gehen. Du fragst dich vielleicht, wie das LLM-Modell diesen Ausgabetext aus der Eingabeaufforderung zusammensetzt. Wie du sehen wirst, ist es vor allem eine Frage der Wahrscheinlichkeiten.

Wenn eine Eingabeaufforderung an ein LLM gesendet wird, zerlegt es die Eingabe zunächst in kleinere Teile, die sogenannten Token. Diese Token stehen für einzelne Wörter, Teile von Wörtern oder Leerzeichen und Satzzeichen. Die vorangegangene Eingabeaufforderung könnte zum Beispiel wie folgt zerlegt werden: ["The", "wea", "ther","is", "nice", "today", ",", "so", "I", "de", "ci", "ded", "to"]. Jedes Sprachmodell verfügt über einen eigenen Tokenizer. Der Tokenizer der Serien GPT-3.5 und GPT-4 ist auf der OpenAI-Plattform zu Testzwecken online verfügbar.

Tipp

Als Faustregel für das Verständnis von Token in Bezug auf die Wortlänge gilt unter, dass 100 Token in einem englischen Text etwa 75 Wörtern entsprechen. Für andere Sprachen gilt das nicht unbedingt, und die Anzahl der Token kann bei gleicher Wortanzahl höher sein.

Dank des Aufmerksamkeitsprinzips und der Transformer-Architektur verarbeitet der LLM diese Token und kann die Beziehungen zwischen ihnen und die Gesamtbedeutung der Eingabeaufforderung interpretieren. Die Transformer-Architektur ermöglicht es einem Modell, die kritischen Informationen und den Kontext innerhalb des Textes effizient zu identifizieren.

Um einen neuen Satz zu bilden, sagt der LLM anhand des Eingabekontexts der Eingabeaufforderung des Nutzers die Token voraus, die am wahrscheinlichsten folgen werden. OpenAI hat viele Versionen von GPT-4 produziert; zunächst hattest du die Wahl zwischen einem Eingabekontextfenster mit 8.192 Token und einem mit 32.768 Token. Die neuesten Modelle, die OpenAI Anfang 2024 herausgebracht hat, sind GPT-4 Turbo und GPT-4o, mit einem größeren Eingabekontextfenster von 128.000 Token, was fast dreihundert Seiten englischem Text entspricht. Im Gegensatz zu den früheren rekurrenten Modellen, die nur schwer mit langen Eingabesequenzen umgehen konnten, ermöglicht die Transformer-Architektur mit dem Aufmerksamkeitsmechanismus dem modernen LLM, den Kontext als Ganzes zu betrachten. Auf der Grundlage dieses Kontexts vergibt das Modell eine Wahrscheinlichkeitsbewertung für jedes potenzielle nachfolgende Token. Das Token mit der höchsten Wahrscheinlichkeit wird dann als nächstes Token in der Sequenz ausgewählt. In unserem Beispiel könnte nach Das Wetter ist heute schön, also habe ich beschlossen, zu gehen, das nächstbeste Token sein.

Hinweis

Wie wir im nächsten Kapitel sehen werden, kann das Modell mit Hilfe eines Parameters Temperatur statt des nächsten Tokens mit der höchsten Wahrscheinlichkeit auch den nächsten Token aus einer Reihe von Token mit der höchsten Wahrscheinlichkeit wählen. Das ermöglicht Variabilität und Kreativität bei der Reaktion des Modells.

Dieser Vorgang wird dann wiederholt, aber jetzt wird der Kontext zu Das Wetter ist heute schön, also habe ich beschlossen, zu gehen, wobei das zuvor vorhergesagte Token gehen der ursprünglichen Eingabeaufforderung hinzugefügt wird. Das zweite Token, das das Modell vorhersagt, könnte for sein. Dieser Vorgang wird so lange wiederholt, bis ein vollständiger Satz gebildet ist: Das Wetter ist heute schön, also habe ich beschlossen, einen Spaziergang zu machen. Dieser Prozess beruht auf der Fähigkeit des LLM, aus umfangreichen Textdaten das nächstwahrscheinlichste Wort zu lernen. Abbildung 1-5 veranschaulicht diesen Prozess.

Abbildung 1-5. Der Vervollständigungsprozess ist iterativ, Token für Token

Visionen in ein LLM-Studium integrieren

GPT-4 Vision führt Multimodalitätsfähigkeiten in die GPT-4-Serie ein und erweitert damit ihren Nutzen über Text hinaus. Die genauen Mechanismen, die diese Funktion ermöglichen, sind proprietär und werden nicht bekannt gegeben. Allerdings lassen sich Erkenntnisse aus Open-Source-LLMs ziehen, die visuelle Daten integrieren. Diese bilden eine Grundlage für das Verständnis der potenziellen Methoden, die der GPT-4 einsetzt, um eine solche multimodale Funktionalität zu erreichen. Dieser Abschnitt befasst sich mit den Prozessen, die in diesen Open-Source-Pendants zu beobachten sind, um herauszufinden, wie die Bild-Text-Integration im GPT-4 realisiert werden kann.

Convolutional Neural Networks (CNNs) sind seit langem eine der modernsten Techniken für Bildverarbeitungsaufgaben. CNNs sind sehr gut bei Aufgaben wie der Bildklassifizierung und Objekterkennung, die sie durch den Einsatz von Filterschichten erreichen, die über ein Eingangsbild gleiten. Diese Filter können die räumlichen Beziehungen zwischen den Pixeln des Bildes erhalten. Dank dieser Filterschichten können CNNs Muster erkennen, die von einfachen Kanten in den ersten Schichten bis zu komplexen Formen und Objekten in den tieferen Schichten reichen.

Doch ähnlich wie die Einführung der Transformer-Architekturen im Jahr 2017 NLP revolutionierte, indem sie die RNNs ablöste, wurden 2020 neue Modelle für die Bildverarbeitung vorgeschlagen, die auf Transformer-Architekturen basieren. Seitdem wurde die langjährige Dominanz der CNNs in der Bildverarbeitung in Frage gestellt. Im Jahr 2021 erschien bei Google ein Papier mit dem Titel "An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale" von Dosovitskiy et al. gezeigt, dass ein reines Transformatormodell namens vision transformer (ViT) bei vielen Bildklassifizierungsaufgaben besser abschneiden kann als CNNs.

Du fragst dich vielleicht, wie der Transformator die Bilddaten verarbeitet. Im Großen und Ganzen ist das ganz ähnlich wie bei Text. Wenn ein Text mit einer Eingabeaufforderung an einen LLM gesendet wird, zerlegt der LLM den Text zunächst in kleinere Zeichen, die Token genannt werden, und verarbeitet dann diese Token, um das nächste Token vorherzusagen. Im Falle eines Bildes teilt der ViT das Bild zunächst in Patches fester Größe auf. Abbildung 1-6 zeigt ein Beispiel für diesen Prozess.

Abbildung 1-6. Ein Bild wird in Patches fester Größe aufgeteilt, bevor es in den Transformator eingespeist wird

Diese Bildfelder werden dann mit den Text-Token in eine einheitliche Eingabesequenz integriert. Ohne zu sehr ins technische Detail zu gehen, werden bei der Verarbeitung von Textdaten durch ein LLM zunächst alle Token in einen hochdimensionalen Raum projiziert. Mit anderen Worten: Jedes Token wird in einen hochdimensionalen Vektor( ) umgewandelt, und diese Abbildungsfunktion zwischen den Token und den hochdimensionalen Vektoren wird während des Lernprozesses des LLMs berechnet. Für die Patches mit fester Größe des Bildes ist es fast derselbe Prozess. Während des Lernprozesses wird eine Abbildungsfunktion zwischen den Patches und demselben hochdimensionalen Raum berechnet. Auf diese Weise werden Token und Patches mit Hilfe von Mapping-Funktionen alle in denselben hochdimensionalen Raum gestellt. Die kombinierte Sequenz aus Text und Bild kann dann durch die Transformer-Architektur verarbeitet werden, um das nächste Token vorherzusagen. Die Tatsache, dass es möglich ist, diese visuellen Patches mit den textuellen Token in denselben hochdimensionalen Repräsentationsraum zu integrieren, ermöglicht es dem Modell, Mechanismen der Selbstaufmerksamkeit über diese beiden Modalitäten hinweg anzuwenden und Antworten zu generieren, die sowohl Text- als auch Bildinformationen berücksichtigen. Für einen Python-Entwickler kann diese Fähigkeit, Bilder zu verarbeiten, potenziell einen großen Einfluss darauf haben, wie Nutzer/innen mit deiner KI-Anwendung interagieren, z. B. durch intuitivere Chatbots oder Lernwerkzeuge, die Inhalte anhand von Bildern verstehen und erklären können.

Eine kurze Geschichte: Von GPT-1 bis GPT-4

Dieser Abschnitt gibt einen Überblick über die Entwicklung der OpenAI GPT-Modelle von GPT-1 bis GPT-4.

GPT-1

Mitte 2018, nur ein Jahr nach der Erfindung der Transformer-Architektur, veröffentlichte OpenAI ein Paper mit dem Titel "Improving Language Understanding by Generative Pre-training" von Radford et al., in dem das Unternehmen den Generative Pre-trained Transformer, auch GPT-1 genannt, vorstellte.

Vor dem GPT-1 basierte der übliche Ansatz zur Erstellung leistungsstarker neuronaler NLP-Modelle auf überwachten Lernverfahren, die große Mengen an manuell beschrifteten Daten verwenden. Bei einer Stimmungsanalyse zum Beispiel, bei der es darum geht, zu klassifizieren, ob ein bestimmter Text eine positive oder negative Stimmung hat, würde eine übliche Strategie das Sammeln von Tausenden von manuell beschrifteten Textbeispielen erfordern, um ein effektives Klassifizierungsmodell zu erstellen. Der Bedarf an großen Mengen gut kommentierter, überwachter Daten hat die Leistung dieser Verfahren jedoch eingeschränkt, da die Erstellung solcher Datensätze sowohl schwierig als auch teuer ist.

In ihrem Papier schlagen die Entwickler von GPT-1 einen neuen Lernprozess vor, bei dem ein unbeaufsichtigter Vortrainingsschritt eingeführt wird. In diesem Vorübungsschritt werden keine markierten Daten benötigt. Stattdessen wird das Modell darauf trainiert, das nächste Token vorherzusagen. Dank der Transformer-Architektur, die eine Parallelisierung ermöglicht, wurde dieses Vortraining mit einer großen Datenmenge durchgeführt. Für das Vortraining verwendete das GPT-1-Modell den BookCorpus-Datensatz, der den Text von etwa 11.000 unveröffentlichten Büchern enthält. Dieser Datensatz wurde erstmals 2015 in der wissenschaftlichen Arbeit "Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books" von Zhu et al. vorgestellt und zunächst auf einer Webseite der University of Toronto zugänglich gemacht. Die offizielle Version des Originaldatensatzes ist jedoch nicht mehr öffentlich zugänglich.

Das GPT-1-Modell erwies sich bei einer Reihe von einfachen Vervollständigungsaufgaben als effektiv. In der unüberwachten Lernphase lernte das Modell, das nächste Element in den Texten des BookCorpus-Datensatzes vorherzusagen. Da GPT-1 jedoch ein kleines Modell ist, konnte es ohne Feinabstimmung keine komplexen Aufgaben lösen. Daher wurde die Feinabstimmung als zweiter überwachter Lernschritt an einem kleinen Satz von manuell beschrifteten Daten durchgeführt, um das Modell an eine bestimmte Zielaufgabe anzupassen. Bei einer Klassifizierungsaufgabe wie der Stimmungsanalyse kann es zum Beispiel notwendig sein, das Modell an einer kleinen Menge von manuell beschrifteten Textbeispielen neu zu trainieren, um eine angemessene Genauigkeit zu erreichen. Auf diese Weise können die in der ersten Pre-Trainingsphase gelernten Parameter geändert werden, um sie besser an die jeweilige Aufgabe anzupassen.

Trotz seiner relativ geringen Größe zeigte GPT-1 eine bemerkenswerte Leistung bei mehreren NLP-Aufgaben, bei denen nur eine kleine Menge an manuell beschrifteten Daten für die Feinabstimmung benötigt wurde. Die Architektur von GPT-1 bestand aus einem Decoder, der dem ursprünglichen Transformator ähnelte, der 2017 eingeführt wurde und 117 Millionen Parameter hatte. Dieses erste GPT-Modell ebnete den Weg für leistungsfähigere Modelle mit größeren Datensätzen und mehr Parametern, um das Potenzial der Transformer-Architektur besser auszuschöpfen.

GPT-2

Anfang 2019 stellte OpenAI unter GPT-2 vor, eine erweiterte Version des GPT-1-Modells, die die Anzahl der Parameter und die Größe des Trainingsdatensatzes verzehnfachte. Die Anzahl der Parameter in dieser neuen Version betrug 1,5 Milliarden, trainiert auf 40 GB Text. Im November 2019 veröffentlichte OpenAI die Vollversion des GPT-2-Sprachmodells.

Hinweis

GPT-2 ist öffentlich verfügbar und kann bei Hugging Face oder GitHub heruntergeladen werden.

GPT-2 hat gezeigt, dass das Training eines größeren Sprachmodells auf einem größeren Datensatz seine Fähigkeit zur Bearbeitung von Aufgaben verbessert und den Stand der Technik bei vielen Aufträgen übertrifft. Es zeigte auch, dass größere Sprachmodelle natürliche Sprache besser verarbeiten können.

GPT-3

OpenAI hat die Version 3 des GPT im Juni 2020 veröffentlicht. Die Hauptunterschiede zwischen GPT-2 und GPT-3 sind die Größe des Modells und die Menge der für das Training verwendeten Daten. GPT-3 ist ein viel größeres Modell als GPT-2, mit 175 Milliarden Parametern, wodurch es komplexere Muster erfassen kann. Außerdem wurde GPT-3 mit einem umfangreicheren Datensatz trainiert. Dazu gehört Common Crawl, ein großes Webarchiv, das Text aus Milliarden von Webseiten und anderen Quellen wie Wikipedia enthält. Dieser Trainingsdatensatz, der Inhalte von Webseiten, Büchern und Artikeln enthält, ermöglichte es GPT-3, ein tieferes Verständnis für die Sprache und den Kontext zu entwickeln. Infolgedessen zeigte GPT-3 eine verbesserte Leistung bei einer Vielzahl von linguistischen Aufgaben. Es zeigte auch eine bessere Kohärenz und Kreativität in den von ihm erstellten Texten. Es war sogar in der Lage, Codeschnipsel, wie z. B. SQL-Abfragen, zu schreiben und andere intelligente Aufgaben auszuführen. Außerdem entfiel bei GPT-3 der Schritt der Feinabstimmung, der bei seinen Vorgängern zwingend erforderlich war.

Von GPT-3 zu InstructGPT

Bei GPT-3 gab es jedoch das Problem, dass die von den Endnutzern gestellten Aufgaben nicht mit dem übereinstimmten, was das Modell beim Training gesehen hatte. Wie wir bereits gesagt haben, werden Sprachmodelle darauf trainiert, das nächste Token auf der Grundlage des Eingabekontexts vorherzusagen. Dieser Trainingsprozess stimmt nicht unbedingt direkt mit den Aufgaben überein, die das Modell für die Endnutzer/innen erfüllen soll. Außerdem führt eine Vergrößerung von Sprachmodellen nicht automatisch dazu, dass sie die Absichten oder Anweisungen der Nutzer/innen besser befolgen. Außerdem wurden Modelle wie GPT-3 mit Daten aus verschiedenen Quellen im Internet trainiert. Obwohl bei der Auswahl der Quellen eine Bereinigung vorgenommen wurde, können die Lerndaten falsche oder problematische Texte enthalten, darunter rassistische Texte, sexistische Texte, Fehlinformationen oder Desinformationen. Infolgedessen kann das Modell manchmal falsche oder sogar giftige Dinge sagen.

Unter wurde 2021 eine neue Version des GPT-3-Modells, die sogenannte Instruct-Serie, veröffentlicht. Anders als das ursprüngliche GPT-3-Basismodell werden die Instruct-Modelle durch reinforcement learning from human feedback (RLHF) optimiert, d.h. sie nutzen das Feedback von Menschen, um zu lernen und sich im Laufe der Zeit zu verbessern. Dadurch können die Modelle von menschlichen Anweisungen lernen und werden gleichzeitig wahrheitsgetreuer und weniger giftig.

Um den Unterschied zu verdeutlichen, geben wir die Eingabeaufforderung Erkläre, was mit Zeitkomplexität gemeint ist ein und wir erhalten folgende Antwort:

  • Mit der Standard-GPT-3-Basis erhalten wir diese Ausgabe: Erkläre, was unter Raumkomplexität zu verstehen ist. Erkläre, was mit der Big-O-Notation gemeint ist.

  • Mit dem InstructGPT-3-Modell erhalten wir: Die Zeitkomplexität ist ein Maß für die Zeit, die ein Algorithmus benötigt, um seine Aufgabe auszuführen und abzuschließen. Sie wird in der Regel mit der Big-O-Notation ausgedrückt, die die Komplexität eines Algorithmus anhand der Anzahl der von ihm durchgeführten Operationen misst. Die Zeitkomplexität eines Algorithmus ist wichtig, weil sie bestimmt, wie effizient der Algorithmus ist und wie gut er mit größeren Eingaben skaliert.

Du kannst sehen, dass das erste Modell bei der gleichen Eingabe die Frage nicht beantworten kann (die Antwort ist sogar seltsam), während das zweite Modell die Frage beantwortet. Die Nutzer/innen erwarten, dass sie mit einem Assistenten interagieren können, was der Standard-GPT-3 nicht gut kann, also wird eine zusätzliche Aktualisierung mit RLHF verwendet, um das gewünschte Verhalten zu erreichen. Es ist natürlich möglich, die gewünschte Reaktion mit einem Standard-GPT-3-Basismodell zu erreichen. Im Gegensatz zu Instruct-Modellen ist es jedoch notwendig, spezielle Eingabeaufforderungen und Optimierungstechniken anzuwenden, um das gewünschte Ergebnis mit dem GPT-3-Modell zu erzielen. Diese Technik nennt sich Prompt-Engineering und wird in den nächsten Kapiteln näher erläutert.

OpenAI erklärt, wie die Instruct-Serie in der wissenschaftlichen Arbeit "Training Language Models to Follow Instructions with Human Feedback" von Ouyang et al.

Das Trainingsrezept hat zwei Hauptstufen, um von einem GPT-3-Modell zu einem instruierten GPT-3-Modell zu gelangen: die überwachte Feinabstimmung(SFT) und die RLHF. In jeder Stufe werden die Ergebnisse der vorherigen Stufe feinabgestimmt. Das heißt, die SFT-Stufe erhält das GPT-3-Modell und liefert ein neues Modell, das an die RLHF-Stufe geschickt wird, um die instruierte Version zu erhalten.

Abbildung 1-7, die dem wissenschaftlichen Papier von OpenAI entnommen ist, zeigt den gesamten Prozess.

Abbildung 1-7. Die Schritte zur Gewinnung der instruierten Modelle (nach einer Abbildung von Ouyang et al.)

Wir werden diese Phasen nacheinander durchlaufen.

In der SFT-Phase wird das ursprüngliche GPT-3-Modell durch einfaches überwachtes Lernen feinabgestimmt (Schritt 1 in Abbildung 1-7). OpenAI verfügt über eine Sammlung von Eingabeaufforderungen, die von Endnutzern erstellt wurden. Der Prozess beginnt mit der zufälligen Auswahl einer Eingabeaufforderung aus der Menge der verfügbaren Eingabeaufforderungen. Ein Mensch (genannt labeler) wird dann gebeten, ein Beispiel für eine ideale Antwort auf diese Eingabeaufforderung zu schreiben. Dieser Vorgang wird tausende Male wiederholt, um einen überwachten Trainingsdatensatz zu erhalten, der aus Eingabeaufforderungen und den entsprechenden idealen Antworten besteht. Dieser Datensatz wird dann zur Feinabstimmung des GPT-3-Modells verwendet, um konsistentere Antworten auf Nutzeranfragen zu geben. Das daraus resultierende Modell wird als SFT-Modell bezeichnet.

Die RLHF-Phase ist in zwei Teilschritte unterteilt. Zuerst wird ein Reward Model (RM) erstellt (Schritt 2 in Abbildung 1-7), und dann wird das RM für das Reinforcement Learning verwendet (Schritt 3 in Abbildung 1-7).

Ziel des RM ist es, einer Antwort auf eine Eingabeaufforderung automatisch eine Punktzahl zu geben. Wenn die Antwort mit der Eingabeaufforderung übereinstimmt, sollte die RM-Punktzahl hoch sein; wenn sie nicht übereinstimmt, sollte sie niedrig sein. Um das RM zu erstellen, wählt OpenAI zunächst eine zufällige Frage aus und verwendet das SFT-Modell, um mehrere mögliche Antworten zu erzeugen. (Wie wir später sehen werden, ist es möglich, viele Antworten mit der gleichen Eingabeaufforderung über einen Parameter namens Temperatur zu erzeugen.) Ein menschlicher Kennzeichner wird dann gebeten, die Antworten anhand von Kriterien wie Übereinstimmung mit der Eingabeaufforderung und Giftigkeit der Antwort zu bewerten. Nachdem dieses Verfahren viele Male durchgeführt wurde, wird ein Datensatz verwendet, um das SFT-Modell für die Bewertung fein abzustimmen. Dieses RM wird verwendet, um das endgültige InstructGPT-Modell zu erstellen.

Der letzte Schritt beim Training von InstructGPT-Modellen ist das Verstärkungslernen, ein iterativer Prozess. Er beginnt mit einem ersten generativen Modell, wie dem SFT-Modell. Dann wird eine zufällige Eingabeaufforderung ausgewählt, und das Modell sagt eine Ausgabe voraus, die das RM auswertet. Auf der Grundlage der erhaltenen Belohnung wird das generative Modell entsprechend aktualisiert. Dieser Prozess kann unzählige Male wiederholt werden, ohne dass ein Mensch eingreifen muss, und bietet so einen effizienten und automatisierten Ansatz zur Anpassung des Modells für eine bessere Leistung.

Die InstructGPT-Modelle sind besser in der Lage, genaue Vervollständigungen für die Eingabeaufforderung zu erstellen. OpenAI empfiehlt, die InstructGPT-Serie anstelle der Original-Serie zu verwenden.

GPT-3.5, ChatGPT, Codex

In März 2022 stellte OpenAI neue Versionen von GPT-3 zur Verfügung. Diese neuen Modelle konnten Text bearbeiten oder Inhalte in Text einfügen. Sie wurden bis Juni 2021 mit Daten trainiert und wurden als leistungsfähiger als frühere Versionen beschrieben. Ende November 2022 begann OpenAI, diese Modelle als GPT-3.5-Serie zu bezeichnen.

Im November 2022 stellte OpenAI außerdem ChatGPT als experimentelles Konversationstool vor. Das Modell, das diesem Tool zugrunde lag, war eine verfeinerte Version von GPT-3.5 namens GPT-3.5 Turbo. Dieses Modell zeichnete sich durch einen interaktiven Dialog aus, der eine ähnliche Technik wie in Abbildung 1-7 zeigt, allerdings für den Chat.

Hinweis

Als ChatGPT auf den Markt kam, gab es eine gewisse Übereinstimmung zwischen dem Namen des von ChatGPT verwendeten Modells und dem Namen der Chatbot-Weboberfläche, die dieses Sprachmodell nutzte, und ChatGPT konnte sowohl für das Modell als auch für die Weboberfläche verwendet werden.

Im weiteren Verlauf dieses Buches werden wir diese Unterscheidung treffen:

  • GPT-3.5 und GPT-4 beziehen sich auf zwei Familien der großen Sprachmodelle von OpenAI, wobei jede Familie mehrere Versionen eines Modells umfasst.

  • ChatGPT bezieht sich auf die Chat-Weboberfläche, die diese Modelle verwendet. ChatGPT läuft standardmäßig mit einem GPT-3.5-Modell.

OpenAI schlug auch das Codex-Modell vor, ein GPT-3-Modell, das auf Milliarden von Codezeilen abgestimmt ist und das erste GitHub Copilot Autovervollständigungsprogramm antreibt, um Entwicklern vieler Texteditoren zu helfen, darunter Visual Studio Code, JetBrains und sogar Neovim. Das Codex-Modell wurde jedoch im März 2023 von OpenAI veraltet. Stattdessen empfiehlt OpenAI den Umstieg von Codex auf GPT-3.5 Turbo oder GPT-4. Zur gleichen Zeit veröffentlichte GitHub Copilot X, das auf GPT-4 basiert und viel mehr Funktionen als die Vorgängerversion bietet.

Warnung

Die Abschaffung des Codex-Modells durch OpenAI ist eine deutliche Erinnerung an das Risiko, das mit der Arbeit mit APIs verbunden ist: Sie können im Laufe der Zeit geändert oder abgeschafft werden, wenn neuere, effizientere Modelle entwickelt und eingeführt werden.

GPT-4

Im März 2023 stellte OpenAI GPT-4 zur Verfügung. Wir wissen sehr wenig über die Architektur dieser neuen Art von Modell, da OpenAI nur wenige Informationen zur Verfügung gestellt hat. Es ist das bisher fortschrittlichste System von OpenAI und sollte sicherere und nützlichere Antworten liefern. Das Unternehmen behauptet, dass GPT-4 den GPT-3.5 Turbo in seinen fortschrittlichen Schlussfolgerungen übertrifft.

Hinweis

Als das Modell veröffentlicht wurde, hat OpenAI einen technischen Bericht veröffentlicht, der die Fähigkeiten des Modells bewertet und viele Vergleiche mit früheren OpenAI-Modellen wie InstructGPT und GPT-3 enthält.

Anders als die anderen Modelle der OpenAI GPT-Familie ist GPT-4 das erste multimodale Modell, das nicht nur Text, sondern auch Bilder empfangen kann. Das bedeutet, dass GPT-4 sowohl die Bilder als auch den Text in den Kontext einbezieht, den das Modell verwendet, um einen Ausgabesatz zu generieren. Dadurch ist es möglich, einer Eingabeaufforderung ein Bild hinzuzufügen und Fragen dazu zu stellen.

Ursprünglich hat OpenAI diese Funktion im GPT-4 nicht öffentlich zugänglich gemacht. Im November 2023 kündigte OpenAI das Modell GPT-4 Turbo mit Vision-Funktionen an. Dieses neue Modell verfügte auch über ein neues Kontextfenster mit 128 Token. Das bedeutet, dass eine einzige Eingabeaufforderung 300 Seiten englischen Textes entsprechen kann! Außerdem ist das GPT-4 Turbo-Modell billiger als das ursprüngliche GPT-4.

In dem in Abbildung 1-8 gezeigten Beispiel haben wir eine Gleichung auf ein Blatt Papier geschrieben, ein Foto davon gemacht und GPT-4 Turbo gebeten, die Gleichung auf dem Bild zu beschreiben. Wie du siehst, hat das Modell schnell erkannt, dass es sich um den Goldenen Schnitt handelt.

Abbildung 1-8. Die visuellen Fähigkeiten des GPT-4 in Aktion (Februar 2024)

Es gibt inzwischen viele Modelle auf dem Markt, und es wird notwendig, sie objektiv zu vergleichen, um festzustellen, welches Modell bei welchen Aufgaben besser abschneidet. Eine Möglichkeit, das zu tun, ist einfach, ihre Ergebnisse bei Hochschulprüfungen zu bewerten. In diesem Zusammenhang wurden die Modelle auch bei verschiedenen Tests bewertet, und der GPT-4 hat den GPT-3.5 Turbo überholt, indem er bei den Testteilnehmern in höheren Perzentilen abgeschnitten hat. Beim Uniform Bar Exam lag GPT-3.5 Turbo beispielsweise im 10. Perzentil, während GPT-4 im 90. Perzentil lag. Ähnliche Ergebnisse wurden bei der Internationalen Biologieolympiade erzielt, bei der GPT-3.5 Turbo im 31. Perzentil und GPT-4 im 99. Diese Fortschritte sind sehr beeindruckend, vor allem wenn man bedenkt, dass sie in weniger als einem Jahr erzielt wurden. Kürzlich hat OpenAI mit GPT-4o ("o" für "omni") sein neuestes Flaggschiff herausgebracht; dieses Modell scheint das Vorgängermodell GPT-4 bei verschiedenen Benchmarks zu übertreffen.

Eine weitere beliebte Methode zum Vergleich von Sprachmodellen ist es, Menschen zu bitten, verschiedene Interaktionen mit unterschiedlichen Modellen blind zu bewerten, sodass sie nicht wissen, mit welchem Modell sie sprechen. Das LMSYS Chatbot Arena Leaderboard, das auf Hugging Face gehostet wird, bietet solche Vergleiche. Die LMSYS-Chatbot-Arena ist eine Crowdsourced Battle-Plattform für LLMs, die nach dem Zufallsprinzip funktioniert. Auf dieser Plattform können die Nutzer/innen mit zwei zufällig ausgewählten Modellen gleichzeitig sprechen, ohne zu wissen, mit welchem Modell sie sprechen, und dann darüber abstimmen, welche der beiden Antworten sie am wichtigsten finden. Es ist wie ein Wettbewerbsspiel mit Turnieren, und die Modelle werden mit dem sogenannten ELO-Score bewertet (mehr dazu unter "Warum wird der ELO-Score zum Vergleich der Modelle verwendet?)

Tabelle 1-1 fasst die Entwicklung der GPT-Modelle zusammen.

Tabelle 1-1. Entwicklung der GPT-Modelle
2017 Der Artikel "Attention Is All You Need" von Vaswani et al. wird veröffentlicht.
2018 Das erste GPT-Modell wird mit 117 Millionen Parametern vorgestellt.
2019 Das GPT-2-Modell wird mit 1,5 Milliarden Parametern eingeführt.
2020 Das GPT-3-Modell wird mit 175 Milliarden Parametern eingeführt.
2022 Das Modell GPT-3.5 (ChatGPT) wird mit 175 Milliarden Parametern eingeführt.
2023 Das GPT-4-Modell wird vorgestellt, aber die Anzahl der Parameter wird nicht bekannt gegeben.
2024 Das GPT-4o-Modell wird von OpenAI Mitte 2024 eingeführt.
Hinweis

Vielleicht hast du den Begriff Basismodell schon einmal gehört. Im Gegensatz zu herkömmlichen Modellen, die für bestimmte Aufgaben trainiert werden, werden Basismodelle mit einer Vielzahl von Daten trainiert. Durch dieses umfangreiche Training erhalten diese Modelle ein tiefes Verständnis für verschiedene Bereiche - und dieses Wissen kann dann fein abgestimmt werden, damit die Modelle bestimmte Aufgaben erfüllen können. Die GPT-Modelle sind Basismodelle. Wie wir gesehen haben, zeigen sie eine bemerkenswerte Fähigkeit, menschenähnliche Texte zu verschiedenen Themen zu erstellen. Durch Feinabstimmung kann das breite Wissen der GPT-Modelle so spezialisiert werden, dass sie bei verschiedenen Aufgaben - vom Schreiben von Artikeln bis zur Programmierung - brillieren. So können sich Basismodelle an Aufgaben im Gesundheitswesen, im Finanzwesen und in anderen Bereichen anpassen, indem sie ihre umfangreiche, domänenunabhängige Wissensbasis nutzen.

Die Entwicklung der KI hin zur Multimodalität

Unter haben wir bereits erwähnt, dass Transformatoren und Sprachmodelle in der Vergangenheit ausschließlich für die Textverarbeitung eingesetzt wurden. Die erste Transformer-Architektur, die von Vaswani et al. in der 2017 erschienenen Veröffentlichung "Attention Is All You Need" vorgeschlagen wurde , befasste sich mit dem Problem der Textübersetzung. Es wird nicht lange dauern, bis diese auf Transformern basierenden Technologien auch auf andere Arten von Daten angewendet werden. GPT-4 verfügt bereits über Vision-Fähigkeiten, die es dem Modell ermöglichen, ein Bild in seinem Eingabekontext zu berücksichtigen, wenn es eine Antwort auf eine Eingabeaufforderung generiert. Aber das sind nicht die einzigen Modalitäten, die du in deinen Anwendungen nutzen kannst. OpenAI bietet weitere Tools, die du mit Python nutzen kannst. Diese Werkzeuge, die über die OpenAI API zugänglich sind, sind nicht in die LLMs selbst eingebettet, sondern dienen als ergänzende Technologien, die du als Entwickler nutzen kannst, um deine Anwendungen mit einem breiteren Spektrum an KI-Funktionen auszustatten.

Bilderzeugung mit DALL-E

Über die OpenAI API können deine Anwendungen die DALL-E 2 oder DALL-E 3 Modelle direkt aufrufen. Diese Modelle sind Text-zu-Bild-Modelle. DALL-E 3, die fortschrittlichere Version, ist in der Lage, Text in Bilder einzubauen und unterstützt sowohl das Hoch- als auch das Querformat. Die von DALL-E 3 erzeugten Bilder sind im Allgemeinen wesentlich attraktiver und detaillierter als die von DALL-E 2. DALL-E 3 kann auch wesentlich komplexere Eingabeaufforderungen verstehen. Diese Modelle bieten Entwicklern die Möglichkeit, visuell ansprechende Inhalte direkt aus Textbeschreibungen zu erstellen, was neue Wege für kreative und praktische Anwendungen eröffnet.

Spracherkennung und -synthese

OpenAI hat auch einen neuronalen Netzwerkwandler namens Whisper trainiert. Whisper zeichnet sich durch seine Spracherkennung in über 50 Sprachen aus, wobei seine besondere Stärke im Englischen liegt, wo es fast menschliche Fähigkeiten erreicht. OpenAI hat den Code von Whisper als Open Source zur Verfügung gestellt, aber auch du als Entwickler hast über die OpenAI API Zugang zu diesem Tool. Whisper ermöglicht es Entwicklern, Anwendungen zu erstellen, die gesprochene Sprache mit bemerkenswerter Genauigkeit verstehen.

Parallel dazu bietet die OpenAI-Audio-API Zugang zu zwei Text-to-Speech-Modellen. Das eine ist für Echtzeit-Text-to-Speech-Anwendungen optimiert, das andere für die Qualität. Du hast die Wahl zwischen sechs Stimmen, und obwohl die Modelle am besten auf Englisch funktionieren, unterstützen sie mehr als 50 Sprachen.

Videoerstellung mit Sora

zum Zeitpunkt der Erstellung dieses Artikels hat OpenAI sein neues Text-to-Video-Tool angekündigt. Sora steht Entwicklern noch nicht zur Verfügung, aber es ist ein Hinweis darauf, was in naher Zukunft verfügbar sein wird. Mit einer einfachen Eingabeaufforderung soll das Tool in der Lage sein, Videos mit einer Länge von bis zu 60 Sekunden zu erstellen.

All diese Erweiterungen der KI-Fähigkeiten mit den Multimodalitäts-Tools von eröffnen neue Horizonte für dich als Entwickler und für deine Anwendungen. Mit diesen Technologien kannst du interaktivere Anwendungen erstellen, die Nutzer/innen über mehrere Modalitäten ansprechen: Bild, Sprache, Text und bald auch Video.

LLM Anwendungsfälle und Beispielprodukte

OpenAI bietet auf seiner Website viele inspirierende Kundengeschichten. Dieser Abschnitt befasst sich mit einigen dieser Anwendungen, Anwendungsfällen und Produktbeispielen. Wir werden entdecken, wie diese Modelle unsere Gesellschaft verändern und neue Möglichkeiten für Wirtschaft und Kreativität eröffnen können. Wie du sehen wirst, nutzen bereits viele Unternehmen diese neuen Technologien, aber es gibt noch Raum für weitere Ideen. Jetzt liegt es an dir.

Be My Eyes

Seit 2012 hat Be My Eyes Technologien für eine Gemeinschaft von mehreren Millionen Menschen entwickelt, die blind oder sehbehindert sind. So gibt es zum Beispiel eine App, die Freiwillige mit blinden oder sehbehinderten Menschen zusammenbringt, die Hilfe bei alltäglichen Aufgaben benötigen, z. B. bei der Identifizierung eines Produkts oder der Navigation in einem Flughafen. Mit nur einem Klick in der App wird die Person, die Hilfe braucht, von einem Freiwilligen kontaktiert, der ihr per Video und Mikrofon helfen kann.

Die neue multimodale Fähigkeit von GPT-4 ermöglicht es, sowohl Text als auch Bilder zu verarbeiten. Deshalb begann Be My Eyes mit der Entwicklung eines neuen virtuellen Freiwilligen, der auf GPT-4 basiert. Dieser neue virtuelle Freiwillige soll das gleiche Maß an Unterstützung und Verständnis erreichen wie ein menschlicher Freiwilliger.

"Die Auswirkungen auf die globale Barrierefreiheit sind tiefgreifend", sagt Michael Buckley, CEO von Be My Eyes. "In nicht allzu ferner Zukunft werden blinde und sehbehinderte Menschen diese Hilfsmittel nicht nur für eine Vielzahl von visuellen Interpretationen nutzen, sondern auch, um ein größeres Maß an Unabhängigkeit in ihrem Leben zu erlangen.

Zum Zeitpunkt der Erstellung dieses Artikels befindet sich der KI-Assistent Be My Eyes noch in der offenen Beta-Phase. Er ist für iOS-Nutzer/innen verfügbar und wird gerade für Android-Nutzer/innen eingeführt.

Morgan Stanley

Morgan Stanley ist eine multinationale Investmentbank und ein Finanzdienstleistungsunternehmen in den Vereinigten Staaten. Als führendes Unternehmen in der Vermögensverwaltung verfügt Morgan Stanley über eine Bibliothek mit Hunderttausenden von Seiten, die Wissen und Einblicke in Anlagestrategien, Marktforschung und Kommentare sowie Analystenmeinungen bieten. Diese riesige Menge an Informationen ist über mehrere interne Websites verteilt und liegt meist im PDF-Format vor. Das bedeutet, dass Berater/innen eine große Anzahl von Dokumenten durchsuchen müssen, um Antworten auf ihre Fragen zu finden. Wie du dir vorstellen kannst, kann diese Suche langwierig und mühsam sein.

Das Unternehmen untersuchte, wie es sein intellektuelles Kapital mit den integrierten Forschungskapazitäten von GPT nutzen kann. Das daraus resultierende, intern entwickelte Modell treibt einen Chatbot an, der eine umfassende Suche nach Wealth-Management-Inhalten durchführt und so das gesammelte Wissen von Morgan Stanley effizient freisetzt. Auf diese Weise hat GPT-4 eine Möglichkeit geschaffen, all diese Informationen in einem Format zu analysieren, das viel einfacher zu nutzen ist.

Khan Akademie

Khan Academy ist eine gemeinnützige Bildungsorganisation mit Sitz in den USA, die 2008 von Sal Khan gegründet wurde. Sie hat es sich zur Aufgabe gemacht, eine Reihe kostenloser Online-Tools zu erstellen, um Schüler/innen weltweit zu unterrichten. Die Organisation bietet Tausende von Lektionen für Mathematik, Naturwissenschaften und Sozialkunde für Schüler aller Altersgruppen an. Darüber hinaus produziert die Organisation kurze Lektionen in Form von Videos und Blogs und bietet seit Kurzem Khanmigo an, einen neuen KI-Assistenten, der auf GPT-4 basiert.

Khanmigo kann viele Dinge für Schüler/innen tun, z.B. sie anleiten und ermutigen, ihnen Fragen stellen und sie auf Prüfungen vorbereiten. Khanmigo ist als freundlicher Chatbot konzipiert, der den Schülern bei ihren Klassenarbeiten hilft. Er gibt den Schülerinnen und Schülern nicht direkt Antworten, sondern leitet sie im Lernprozess an. Khanmigo kann auch Lehrkräfte unterstützen, indem er ihnen u. a. bei der Erstellung von Unterrichtsplänen, bei der Erledigung von Verwaltungsaufgaben und bei der Erstellung von Lehrbüchern hilft.

"Wir glauben, dass das GPT-4 neue Grenzen in der Bildung eröffnet. Viele Menschen haben lange von dieser Art von Technologie geträumt. Sie ist transformativ, und wir wollen verantwortungsbewusst mit Tests vorgehen, um herauszufinden, ob sie effektiv zum Lernen und Lehren eingesetzt werden kann", sagt Kristen DiCerbo, Chief Learning Officer bei Khan Academy.

Duolingo

Duolingo ist ein 2011 gegründetes US-amerikanisches Unternehmen für Bildungstechnologie, das Anwendungen herstellt, die von Millionen von Menschen genutzt werden, die eine zweite Sprache lernen wollen. Duolingo-Nutzer/innen müssen die Regeln der Grammatik verstehen, um die Grundlagen einer Sprache zu lernen. Und sie müssen Gespräche führen, am besten mit einem Muttersprachler, um diese Grammatikregeln zu verstehen und die Sprache zu beherrschen. Das ist nicht für jeden möglich.

Duolingo hat dem Produkt zwei neue Funktionen hinzugefügt, die OpenAIs GPT-4 nutzen: Roleplay und Explain My Answer. Diese Funktionen sind in einer neuen Abonnementstufe namens Duolingo Max verfügbar. Mit diesen Funktionen schließt Duolingo die Lücke zwischen theoretischem Wissen und der praktischen Anwendung von Sprache. Dank der LLMs ermöglicht Duolingo den Lernenden, in reale Szenarien einzutauchen.

Die Funktion Rollenspiel simuliert Gespräche mit Muttersprachlern und ermöglicht es den Nutzern, ihre Sprachkenntnisse in einer Vielzahl von Situationen zu üben. Die Funktion "Meine Antwort erklären" gibt personalisiertes Feedback zu Grammatikfehlern und fördert so ein tieferes Verständnis der Struktur der Sprache.

"Wir wollten KI-gestützte Funktionen, die tief in die App integriert sind und den spielerischen Aspekt von Duolingo nutzen, den unsere Lernenden lieben", sagt Edwin Bodge, Principal Product Manager bei Duolingo.

Die Integration von GPT-4 in Duolingo Max verbessert nicht nur die allgemeine Lernerfahrung, sondern ebnet auch den Weg für einen effektiveren Spracherwerb, insbesondere für diejenigen, die keinen Zugang zu Muttersprachlern oder immersiven Umgebungen haben. Dieser innovative Ansatz sollte die Art und Weise, wie Lernende eine zweite Sprache erlernen, verändern und zu besseren langfristigen Lernergebnissen beitragen.

Yabble

Yabble ist ein Marktforschungsunternehmen, das KI nutzt, um Verbraucherdaten zu analysieren und Unternehmen verwertbare Erkenntnisse zu liefern. Seine Plattform wandelt unstrukturierte Rohdaten in Visualisierungen um, die es Unternehmen ermöglichen, fundierte Entscheidungen auf der Grundlage der Kundenbedürfnisse zu treffen.

Die Integration von fortschrittlichen KI-Technologien wie GPT in die Plattform von Yabble hat die Fähigkeiten zur Verarbeitung von Verbraucherdaten verbessert. Diese Verbesserung ermöglicht ein effektiveres Verständnis komplexer Fragen und Antworten, so dass Unternehmen auf der Grundlage der Daten tiefere Einblicke gewinnen können. So können Unternehmen fundiertere Entscheidungen treffen, indem sie auf der Grundlage des Kundenfeedbacks die wichtigsten Bereiche für Verbesserungen identifizieren.

"Wir wussten, dass wir, wenn wir unser bestehendes Angebot erweitern wollten, eine künstliche Intelligenz brauchten, die uns einen Großteil der schweren Arbeit abnimmt, damit wir unsere Zeit und kreative Energie anderweitig einsetzen können. OpenAI war die perfekte Lösung", sagt Ben Roe, Head of Product bei Yabble.

Wegweiser

Waymark bietet eine Plattform zur Erstellung von Videoanzeigen. Diese Plattform nutzt KI, um Unternehmen dabei zu helfen, auf einfache Weise hochwertige Videos zu erstellen, ohne dass sie technische Kenntnisse oder teure Geräte benötigen.

Waymark hat GPT in seine Plattform integriert, was den Prozess der Skripterstellung für die Nutzer der Plattform erheblich verbessert hat. Diese GPT-gestützte Erweiterung ermöglicht es der Plattform, in Sekundenschnelle individuelle Skripte für Unternehmen zu erstellen. Dadurch können sich die Nutzer/innen mehr auf ihre eigentlichen Ziele konzentrieren, da sie weniger Zeit mit der Bearbeitung von Skripten und mehr Zeit mit der Erstellung von Videoanzeigen verbringen. Die Integration von GPT in die Waymark-Plattform sorgt also für eine effizientere und individuellere Videoerstellung.

"Ich habe in den letzten fünf Jahren jedes KI-gestützte Produkt ausprobiert, aber bis GPT-3 habe ich nichts gefunden, das den Online-Fußabdruck eines Unternehmens effektiv zusammenfassen, geschweige denn effektive Marketingtexte schreiben konnte", sagt Waymark-Gründer Nathan Labenz.

Inworld AI

Inworld AI bietet eine Entwicklerplattform für die Erstellung von KI-Charakteren mit ausgeprägter Persönlichkeit, multimodalem Ausdruck und kontextbezogenem Bewusstsein.

Einer der Hauptanwendungsfälle der Inworld AI-Plattform sind Videospiele. Die Integration von GPT als Grundlage für die Charakter-Engine von Inworld AI ermöglicht eine effiziente und schnelle Entwicklung von Videospielcharakteren. Durch die Kombination von GPT mit anderen ML-Modellen kann die Plattform einzigartige Persönlichkeiten, Emotionen, Erinnerungen und Verhaltensweisen für KI-Charaktere erzeugen. So können sich Spieleentwickler/innen auf das Storytelling und andere Themen konzentrieren, ohne viel Zeit in die Erstellung von Sprachmodellen investieren zu müssen.

"Mit GPT-3 hatten wir mehr Zeit und kreative Energie, um in unsere eigene Technologie zu investieren, die die nächste Generation von Nicht-Spieler-Charakteren (NPCs) ermöglicht", sagt Kylan Gibbs, Chief Product Officer und Mitbegründer von Inworld.

Hüte dich vor KI-Halluzinationen: Beschränkungen und Überlegungen

Wie du unter gesehen hast, generiert ein LLM eine Antwort, indem es die nächsten Wörter (oder Token) eines nach dem anderen auf der Grundlage einer gegebenen Eingabeaufforderung vorhersagt. In den meisten Fällen ist die Ausgabe des Modells relevant und für deine Aufgabe völlig brauchbar, aber es ist wichtig, vorsichtig zu sein, wenn du Sprachmodelle in deinen Anwendungen einsetzt, denn sie können inkohärente Antworten geben. Diese Antworten werden oft als Halluzinationen bezeichnet. Eine KI-Halluzination liegt vor, wenn die KI dir eine sichere Antwort gibt, die falsch ist oder sich auf imaginäre Fakten bezieht. Das kann für Nutzer/innen, die sich auf GPT verlassen, gefährlich sein. Du musst die Antwort des Modells doppelt überprüfen und kritisch hinterfragen.

Betrachte das folgende Beispiel. Wir beginnen damit, dass wir das Modell bitten, eine einfache Berechnung durchzuführen: 2 + 2. Wie erwartet, antwortet es 4. Es ist also richtig. Ausgezeichnet! Dann bitten wir es, eine komplexere Berechnung durchzuführen: 3,695 × 123,548. Obwohl die richtige Antwort 456.509.860 lautet, gibt das Modell mit großer Sicherheit eine falsche Antwort, wie du in Abbildung 1-9 sehen kannst. Und wenn wir es bitten, die Berechnung zu überprüfen und neu zu berechnen, gibt es immer noch eine falsche Antwort.

Abbildung 1-9. ChatGPT halluziniert schlechte Mathematik (April 22, 2023)

Obwohl du, wie wir noch sehen werden, mit einem Plug-in-System neue Funktionen zu ChatGPT hinzufügen kannst, enthält ChatGPT standardmäßig keinen Rechner. Um die Frage zu beantworten, was 2 + 2 ist, erzeugt ChatGPT jedes Token einzeln. Es antwortet richtig, weil es wahrscheinlich schon oft "2 + 2 ist gleich 4" in den Texten gesehen hat, die es für sein Training verwendet. Es führt nicht wirklich eine Berechnung durch, sondern vervollständigt nur den Text.

Warnung

Es ist wahrscheinlich, dass das GPT-3.5-Modell, das hinter ChatGPT läuft, die Zahlen, die wir für das Multiplikationsproblem gewählt haben (3.695 und 123.548), nur selten, wenn überhaupt, in seinem Training gesehen hat. Deshalb macht es einen Fehler. Das Modell halluziniert. Und wie du sehen kannst, kann es selbst dann, wenn es einen Fehler macht, ziemlich sicher sein, dass es falsch liegt. Sei also vorsichtig, wenn du das Modell in einer deiner Anwendungen einsetzt. Wenn GPT Fehler macht, kann deine Anwendung widersprüchliche Ergebnisse erhalten. Beachte, dass mathematische Fehler nur eine Art von Halluzination sind.

Beachte, dass das Ergebnis von ChatGPT nahe an der richtigen Antwort liegt und nicht völlig zufällig ist. Es ist ein interessanter Nebeneffekt seines Algorithmus, dass er, obwohl er keine mathematischen Fähigkeiten hat, nur mit einem sprachlichen Ansatz eine genaue Schätzung abgeben kann.

Hinweis

OpenAI hat mit GPT-4 die Möglichkeit eingeführt, Plug-ins zu verwenden. Wie wir in Kapitel 5 sehen werden, kannst du mit diesen Tools zusätzliche Funktionen zum LLM hinzufügen. Ein solches Tool ist ein Rechner, der GPT hilft, diese Art von Fragen richtig zu beantworten.

Im vorangegangenen Beispiel hat ChatGPT einen unbeabsichtigten Fehler gemacht. In manchen Fällen kann es aber auch absichtlich betrügerisch sein, wie in Abbildung 1-10 gezeigt wird.

Abbildung 1-10. Aufforderung an ChatGPT, die Zebras in einem Wikipedia-Bild zu zählen (ChatGPT, Mai 2023)

ChatGPT behauptet zunächst, dass es nicht auf das Internet zugreifen kann. Wenn wir jedoch darauf bestehen, passiert etwas Interessantes - siehe Abbildung 1-11.

Abbildung 1-11. ChatGPT behauptet, er habe auf den Wikipedia-Link zugegriffen (Mai 2023)

ChatGPT behauptet nun, dass es auf den Link zugegriffen hat. Das ist aber im Moment definitiv nicht möglich. ChatGPT gaukelt dem Nutzer vor, dass es über Fähigkeiten verfügt, die es gar nicht hat. Wie Abbildung 1-12 zeigt, gibt es übrigens mehr als drei Zebras auf dem Bild.

Abbildung 1-12. Die Zebras ChatGPT haben nicht wirklich gezählt
Warnung

ChatGPT und andere GPT-4-Modelle sind von vornherein nicht zuverlässig; sie können Fehler machen, falsche Informationen geben oder den Nutzer sogar in die Irre führen. Wir empfehlen dringend, reine GPT-basierte Lösungen nur für kreative Anwendungen zu verwenden und nicht für die Beantwortung von Fragen, bei denen es auf die Wahrheit ankommt, wie z. B. bei medizinischen Hilfsmitteln. Für solche Anwendungsfälle sind, wie du sehen wirst, Plug-ins wahrscheinlich die ideale Lösung.

Das GPT-Potenzial mit erweiterten Funktionen freisetzen

Unter können neben der Vervollständigungsfunktion der Sprachmodelle von OpenAI weitere fortgeschrittene Techniken eingesetzt werden, um ihre Fähigkeiten noch besser zu nutzen. Dieses Buch befasst sich mit einigen dieser Methoden:

  • Plug-ins

  • Prompt-Engineering

  • Retrieval-augmented generation (RAG)

  • Feinabstimmung

  • GPTs und die Assistenten-API

Ein GPT-Modell hat einige Einschränkungen, zum Beispiel bei Berechnungen. Wie du gesehen hast, kann ein GPT-Modell einfache Rechenaufgaben wie 2 + 2 richtig beantworten, aber bei komplexeren Berechnungen wie 3.695 × 123.548 kann es Probleme geben.

In der Weboberfläche von ChatGPT ermöglicht der von OpenAI bereitgestellte Plug-in-Service die Verbindung des Modells mit Anwendungen, die von Drittanbietern entwickelt werden können. Diese Plug-ins ermöglichen es den Sprachmodellen, die in der Schnittstelle von ChatGPT laufen, mit von Entwicklern definierten APIs zu interagieren. Dieser Prozess kann die Fähigkeiten der GPT-Modelle potenziell stark erweitern, da sie durch eine Vielzahl von Aktionen auf die Außenwelt zugreifen können.

Hinweis

OpenAI bietet ChatGPT-Nutzern ein kostenpflichtiges Abonnement namens ChatGPT Plus. Mit diesem Abonnement erhält ChatGPT drei zusätzliche Tools: Web-Browsing, DALL-E Bilderzeugung und Code-Interpreter sowie die Möglichkeit, von GPT-3.5 auf GPT-4 zu wechseln.

Plug-ins für ChatGPT können den GPT-Modellen viele Dinge ermöglichen, wie z.B. Folgendes:

  • Abruf von Echtzeitinformationen wie Sportergebnissen, Börsenkursen, aktuellen Nachrichten und mehr

  • Handlungen im Namen des Nutzers durchführen, z. B. einen Flug buchen, Essen bestellen und so weiter

  • Genaue mathematische Berechnungen durchführen

  • Abrufen von wissensbasierten Informationen wie Unternehmensdokumenten, persönlichen Notizen und mehr

Dies sind nur ein paar Beispiele für Anwendungsfälle; es liegt an dir, neue zu finden.

Das letzte Beispiel in der vorangegangenen Liste beinhaltet das Hinzufügen einer Wissensbasis zum Modell, die dann im Eingabekontext verwendet werden kann, um das Sprachmodell in die Lage zu versetzen, Fragen zu beantworten, die auf die Bedürfnisse des Endnutzers zugeschnitten sind. Dieser Anwendungsfall, retrieval-augmented generation (RAG) genannt, wird heute immer beliebter. Wir werden die RAG-Konzepte in Kapitel 4 näher erläutern und in den Kapiteln 3 und 5 Umsetzungsbeispiele geben.

In diesem Buch werden auch Feinabstimmungsmethoden untersucht. Wie du sehen wirst, kann die Feinabstimmung die Genauigkeit eines bestehenden Modells für eine bestimmte Aufgabe verbessern. Bei der Feinabstimmung wird ein Modell auf einem bestimmten Datensatz neu trainiert, um seine Leistung bei einer nachgelagerten Aufgabe zu optimieren. Dabei werden die internen Gewichte des Modells verfeinert, sodass es aufgabenspezifische Feinheiten besser erfassen kann und im gewünschten Kontext effektiver wird. Ein Modell, das an einem Finanzdatenkorpus optimiert wurde, würde zum Beispiel bessere Fähigkeiten zur Interpretation von Finanzdiskursen und zur Generierung relevanter Inhalte aufweisen, da seine neu kalibrierten Parameter besser auf die semantischen und syntaktischen Muster der Finanzsprache abgestimmt sind.

OpenAI hat im ChatGPT-Webinterface-Tool das Konzept der so genannten GPTs (vielleicht verwirrend) eingeführt. Diese Art von GPT kann man sich als eine Art Wrapper vorstellen, der ein Sprachmodell (das ggf. angepasst wird), verschiedene Tools und eine Dokumentation, die das Modell nutzen kann, sowie spezifische Anweisungen, die die Rolle und Aufgabe des Sprachmodells erklären, kombiniert. Diese Elemente werden zusammengeführt, um einen KI-Agenten zu erstellen, der dann auf eine bestimmte Aufgabe spezialisiert wird.

Du könntest dir zum Beispiel vorstellen, ein GPT für die Sporternährungsberatung zu entwickeln. Dazu könntest du dem GPT verschiedene Werkzeuge an die Hand geben, wie z. B. einen Algorithmus, der auf der Grundlage von Benutzereingaben personalisierte Mahlzeitenpläne berechnen kann. Die Dokumentation, die du dem GPT zur Verfügung stellst, könnte z. B. Themen wie die Bedeutung von Makro- und Mikronährstoffen für Sportler/innen behandeln. Schließlich könnte in den spezifischen Anweisungen für das Modell erklärt werden, dass das Modell dem Endnutzer genaue und personalisierte Sporternährungsempfehlungen geben soll. Dies ist nur ein Beispiel dafür, was du mit einem GPT machen kannst. Und noch eine wichtige Sache ist hinzuzufügen: GPTs laufen in der ChatGPT-Weboberfläche, und du brauchst keine Programmierkenntnisse, um sie zu erstellen. GPTs eröffnen eine neue Ära der anpassbaren KI-Agenten, ohne dass du viel IT-Kenntnisse brauchst.

Hinweis

Das Wort GPT hat jetzt zwei verschiedene Bedeutungen. Entweder bezieht es sich auf die transformatorbasierten Modelle, die in dem Papier "Improving Language Understanding by Generative Pre-training" beschrieben werden, das 2018 von OpenAI veröffentlicht wurde, oder es bezieht sich auf die gerade erwähnten Anpassungen. Anhand des Kontexts solltest du die Bedeutung bestimmen können.

Der Begriff Plug-ins hat sich auch im Zusammenhang mit dem OpenAI-Ökosystem weiterentwickelt. Ursprünglich erforschte OpenAI das Konzept der Plug-ins, um die Fähigkeiten der Modelle in ChatGPT durch die Integration von Diensten Dritter zu erweitern. In neueren Dokumentationen über GPTs bezieht sich der Begriff jedoch auf Aktionen. Mit Aktionen werden viele neue Funktionen eingeführt, während viele der Kernideen von Plug-ins beibehalten werden.

Die Assistants API ermöglicht es dir, KI-Assistenten in deine eigenen Anwendungen einzubauen. Es gibt viele Ähnlichkeiten mit den gerade beschriebenen GPTs. Wie die GPTs verwendet ein Assistent ein Sprachmodell (das fein abgestimmt werden kann), hat Anweisungen und kann Tools und Wissen nutzen, um auf Nutzeranfragen zu antworten. Diese Integration schafft ein nahtloses Ökosystem, in dem du als Entwickler die KI-Funktionen an die individuellen Bedürfnisse deiner Endnutzer anpassen kannst. Die Assistenten-API unterscheidet sich von den GPTs dadurch, dass die GPTs für den Aufruf über die ChatGPT-Weboberfläche konzipiert sind - du kannst deine GPTs in deiner Python-Anwendung nicht über APIs aufrufen. Mit der Assistenten-API hingegen können Entwickler diese KI-Assistenten direkt in ihre Anwendungen integrieren und so eine individuellere und interaktivere Nutzererfahrung bieten. Kurz gesagt: GPTs ermöglichen ein hohes Maß an Anpassung ohne Programmierkenntnisse, während die Assistenten-API mehr technische Kenntnisse für die Integration in deine Anwendung erfordert.

Für Entwickler/innen eröffnen Plug-ins und GPTs potenziell viele neue Möglichkeiten. In Zukunft möchte vielleicht jedes Unternehmen seine eigenen Plug-ins oder GPTs für LLMs haben. OpenAI hat einen Store eröffnet, in dem Tausende von GPTs zur Verfügung stehen, die von den Partnern von OpenAI und der Community entwickelt wurden. OpenAI sagt auch, dass in der ersten Hälfte des Jahres 2024 ein GPT-Builder-Einnahmeprogramm gestartet wird, das zuerst in den USA verfügbar sein soll. Zum Zeitpunkt der Erstellung dieses Artikels sind keine weiteren Informationen zu diesem Programm verfügbar. Die Zahl der Anwendungen, die über Plug-ins oder GPTs hinzugefügt werden können, könnte enorm sein.

Zusammenfassung

LLMs haben einen langen Weg hinter sich, angefangen mit einfachen n-Gramm-Modellen bis hin zu RNNs, LSTMs und fortgeschrittenen transformatorbasierten Architekturen. LLMs sind Computerprogramme, die mit Hilfe von ML-Techniken riesige Mengen an Textdaten analysieren können und dabei menschenähnliche Sprache verarbeiten und erzeugen. Durch den Einsatz von Self-Attention- und Cross-Attention-Mechanismen haben Transformers das Sprachverständnis erheblich verbessert.

In diesem Buch wird untersucht, wie GPT-Modelle eingesetzt werden können, da sie erweiterte Möglichkeiten zum Verstehen und Erzeugen von Kontext bieten. Die Entwicklung von Anwendungen mit GPT-Modellen geht über die Möglichkeiten der traditionellen BERT- oder LSTM-Modelle hinaus und ermöglicht menschenähnliche Interaktionen.

Seit Anfang 2023 haben die GPT-Modelle bemerkenswerte Fähigkeiten im Bereich NLP bewiesen. Dadurch haben sie zur schnellen Entwicklung von KI-gestützten Anwendungen in verschiedenen Branchen beigetragen. Es gibt bereits verschiedene Anwendungsfälle, von Anwendungen wie Be My Eyes bis hin zu Plattformen wie Waymark, die das Potenzial dieser Modelle, die Art und Weise, wie wir mit Technologie interagieren, zu revolutionieren, unter Beweis stellen.

Es ist wichtig, die potenziellen Risiken bei der Verwendung dieser LLMs im Auge zu behalten. Als Entwickler von Anwendungen, die die OpenAI-API nutzen, solltest du sicher sein, dass die Nutzer das Fehlerrisiko kennen und die von der KI generierten Informationen überprüfen können.

Im nächsten Kapitel bekommst du die Werkzeuge und Informationen, um die OpenAI-Modelle als Service zu nutzen, damit du Teil dieses unglaublichen Wandels sein kannst, den wir heute erleben.

Get Entwicklung von Apps mit GPT-4 und ChatGPT, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.