Kapitel 1. Trainingsdaten Einführung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Daten sind überall um uns herum - Videos, Bilder, Texte, Dokumente, aber auch geografische und multidimensionale Daten und vieles mehr. Doch in ihrer Rohform sind diese Daten für das überwachte maschinelle Lernen (ML) und künstliche Intelligenz (KI) nur von geringem Nutzen. Wie können wir diese Daten nutzen? Wie können wir unsere Intelligenz aufzeichnen, damit sie durch ML und KI reproduziert werden kann? Die Antwort liegt in der Kunst des Datentrainings - der Disziplin, Rohdaten nutzbar zu machen.

In diesem Buch wirst du lernen:

  • Ganz neue Trainingsdaten (KI-Daten) Konzepte

  • Die alltägliche Praxis der Datenschulung

  • Wie man die Effizienz der Trainingsdaten verbessert

  • Wie du dein Team so umgestaltest, dass es stärker auf KI/ML ausgerichtet ist

  • Fallstudien aus der Praxis

Bevor wir einige dieser Konzepte behandeln können, müssen wir zunächst die Grundlagen verstehen, die wir in diesem Kapitel auspacken werden.

Bei der Datenschulung geht es darum, Rohdaten zu formen, umzugestalten und in neue Formen zu verwandeln: aus Rohdaten eine neue Bedeutung zu schaffen, um Probleme zu lösen. Dieser Prozess des Erstellens und Zerstörens findet an der Schnittstelle von Fachwissen, Geschäftsanforderungen, und technischen Anforderungen statt. Es handelt sich um eine Reihe von Aktivitäten, die mehrere Bereiche betreffen .

Das Herzstück dieser Aktivitäten ist die Annotation. Die Annotation erzeugt strukturierte Daten, die von einem maschinellen Lernmodell verarbeitet werden können. Ohne Beschriftung gelten Rohdaten als unstrukturiert, sind in der Regel weniger wertvoll und können oft nicht für überwachtes Lernen verwendet werden. Aus diesem Grund sind Trainingsdaten für moderne Anwendungsfälle des maschinellen Lernens erforderlich, z. B. für Computer Vision, natürliche Sprachverarbeitung und Spracherkennung.

Um diese Idee anhand eines Beispiels zu verdeutlichen, betrachten wir die Annotation im Detail. Wenn wir Daten annotieren, erfassen wir menschliches Wissen. Normalerweise sieht dieser Prozess folgendermaßen aus: Ein Medium wie ein Bild, ein Text, ein Video, ein 3D-Design oder ein Audio wird zusammen mit einer Reihe von vordefinierten Optionen (Labels) präsentiert. Ein Mensch prüft die Medien und bestimmt die am besten geeigneten Antworten, z. B. indem er einen Bereich eines Bildes als "gut" oder "schlecht" einstuft. Dieses Label liefert den Kontext, der für die Anwendung von Konzepten des maschinellen Lernens benötigt wird(Abbildung 1-1).

Aber wie haben wir das geschafft? Wie haben wir es geschafft, dass das richtige Medienelement mit den richtigen vordefinierten Optionen der richtigen Person zur richtigen Zeit gezeigt wurde? Es gibt viele Konzepte, die dem Moment vorausgehen und folgen, in dem die Kommentierung oder die Wissenserfassung tatsächlich stattfindet. Alle diese Konzepte zusammengenommen sind die Kunst der Datenerfassung.

The training data process
Abbildung 1-1. Der Prozess der Trainingsdaten

In diesem Kapitel erfahren wir, was Trainingsdaten sind, warum sie wichtig sind und lernen viele wichtige Konzepte kennen, die die Grundlage für den Rest des Buches bilden.

Trainingsdaten Intentionen

Der Zweck von Trainingsdaten variiert je nach Anwendungsfall, Problem und Szenario. Untersuchen wir einige der häufigsten Fragen: Was kann man mit Trainingsdaten machen? Wofür sind sie am wichtigsten? Was will man mit Trainingsdaten erreichen?

Was kannst du mit Trainingsdaten machen?

Trainingsdaten sind die Grundlage von KI/ML-Systemen - das Fundament, auf dem diese Systeme funktionieren.

Mit Trainingsdaten kannst du moderne ML-Systeme aufbauen und pflegen, z. B. solche, die Automatisierungen der nächsten Generation erstellen, bestehende Produkte verbessern und sogar ganz neue Produkte entwickeln.

Um möglichst nützlich zu sein, müssen die Rohdaten so aufbereitet und strukturiert werden, dass sie von ML-Programmen genutzt werden können. Mit den Trainingsdaten erstellst und pflegst du die erforderlichen neuen Daten und Strukturen, wie Annotationen und Schemata, um die Rohdaten nutzbar zu machen. Durch diesen Erstellungs- und Pflegeprozess erhältst du gute Trainingsdaten und bist auf dem Weg zu einer guten Gesamtlösung.

In der Praxis konzentrieren sich die häufigsten Anwendungsfälle auf ein paar wichtige Bedürfnisse:

  • Verbesserung eines bestehenden Produkts (z. B. Leistung), auch wenn ML derzeit nicht Teil davon ist

  • Produktion eines neuen Produkts, einschließlich Systemen, die nur in begrenztem Umfang oder "einmalig" laufen

  • Forschung und Entwicklung

Trainingsdaten ziehen sich durch alle Teile von ML-Programmen:

  • Ein Modell trainieren? Es erfordert Trainingsdaten.

  • Willst du deine Leistung verbessern? Dafür brauchst du qualitativ hochwertigere, andere oder mehr Trainingsdaten.

  • Eine Vorhersage gemacht? Das sind zukünftige Trainingsdaten, die gerade erstellt wurden.

Trainingsdaten fallen an, bevor du ein ML-Programm starten kannst; sie fallen während der Ausführung in Form von Ausgaben und Ergebnissen an und sogar später bei der Analyse und Wartung. Außerdem sind Trainingsdaten in der Regel von langer Dauer. Nachdem ein Modell zum Laufen gebracht wurde, ist die Pflege der Trainingsdaten ein wichtiger Bestandteil der Modellpflege. Während in der Forschung ein einzelner Trainingsdatensatz unverändert bleiben kann (z. B. ImageNet), sind die Trainingsdaten in der Industrie extrem dynamisch und ändern sich häufig. Aufgrund dieser Dynamik wird es immer wichtiger, die Trainingsdaten gut zu kennen.

Die Erstellung und Pflege von neuen Daten ist ein Hauptanliegen dieses Buches. Ein Datensatz ist zu einem bestimmten Zeitpunkt das Ergebnis des komplexen Prozesses des Datentrainings. Ein Train/Test/Val-Split zum Beispiel ist ein Derivat eines ursprünglichen, neuen Datensatzes. Und dieser neue Datensatz selbst ist nur eine Momentaufnahme, ein einzelner Blick auf einen größeren Trainingsdatenprozess. Ähnlich wie ein Programmierer entscheidet, eine Variable zu drucken oder zu protokollieren, ist die gedruckte Variable nur die Ausgabe; sie erklärt nicht die komplexe Reihe von Funktionen, die erforderlich waren, um den gewünschten Wert zu erhalten. Ein Ziel dieses Buches ist es, die komplexen Prozesse zu erklären, die hinter der Erstellung brauchbarer Datensätze stehen.

Die Annotation, also die direkte Annotation von Stichproben durch Menschen, ist der "höchste" Teil der Trainingsdaten. Damit meine ich, dass die menschliche Annotation auf der Sammlung vorhandener Daten (z. B. aus BLOB-Speichern, bestehenden Datenbanken, Metadaten, Websites) aufbaut.1 Die menschliche Annotation ist auch die oberste Wahrheit über Automatisierungskonzepte wie Pre-Labeling und andere Prozesse, die neue Daten wie Vorhersagen und Tags generieren. Diese Kombinationen aus menschlicher Arbeit, vorhandenen Daten und maschineller Arbeit bilden den Kern des viel umfassenderen Konzepts der Trainingsdaten, das später in diesem Kapitel beschrieben wird.

Worum geht es bei den Ausbildungsdaten am meisten?

Dieses Buch befasst sich mit einer Vielzahl von menschlichen, organisatorischen und technischen Aspekten. Wir werden jedes dieser Konzepte gleich im Detail durchgehen, aber vorher wollen wir uns die Bereiche ansehen, auf die sich die Trainingsdaten konzentrieren.

Wie bildet das Schema, das eine Zuordnung zwischen deinen Anmerkungen und ihrer Bedeutung für deinen Anwendungsfall darstellt, das Problem genau ab? Wie stellst du sicher, dass die Rohdaten in einer für das Problem relevanten Weise gesammelt und verwendet werden? Wie erfolgt die Validierung, Überwachung, Kontrolle und Korrektur durch Menschen?

Wie erreichst du immer wieder ein akzeptables Maß an Qualität, wenn eine so große menschliche Komponente vorhanden ist? Wie lässt es sich mit anderen Technologien, einschließlich Datenquellen und deiner Anwendung, integrieren?

Um dies zu strukturieren, kannst du das Gesamtkonzept der Trainingsdaten grob in die folgenden Themen unterteilen: Schema, Rohdaten, Qualität, Integration und die Rolle des Menschen. Als Nächstes werde ich mir jedes dieser Themen genauer ansehen.

Schema

Ein Schema wird durch Beschriftungen, Attribute, räumliche Darstellungen und Beziehungen zu externen Daten gebildet. Annotatoren verwenden das Schema, wenn sie Annotationen machen. Schemata sind das Rückgrat deiner KI und ein zentraler Bestandteil der Trainingsdaten.

Ein Schema ist die Abbildung zwischen der menschlichen Eingabe und der Bedeutung für deinen Anwendungsfall. Es definiert, was das ML-Programm ausgeben kann. Es ist das entscheidende Bindeglied, das die harte Arbeit aller Beteiligten zusammenhält. Um das Offensichtliche zu sagen: Es ist wichtig.

Ein gutes Schema ist nützlich und relevant für deinen speziellen Bedarf. In der Regel ist es am besten, ein neues, benutzerdefiniertes Schema zu erstellen und es dann für deine speziellen Fälle weiterzuentwickeln. Es ist normal, sich von domänenspezifischen Datenbanken inspirieren zu lassen oder bestimmte Details zu ergänzen, aber das sollte im Rahmen der Anleitung für ein neues, neuartiges Schema geschehen. Erwarte nicht, dass ein bestehendes Schema aus einem anderen Kontext ohne weitere Anpassungen auch für ML-Programme funktioniert.

Warum ist es also wichtig, sie nach deinen speziellen Bedürfnissen zu gestalten und nicht nach irgendwelchen vordefinierten Vorgaben?

Erstens ist das Schema sowohl für die menschliche Annotation als auch für die maschinelle Nutzung gedacht. Ein bestehendes bereichsspezifisches Schema kann für die menschliche Nutzung in einem anderen Kontext oder für die maschinelle Nutzung in einem klassischen Nicht-ML-Kontext entwickelt worden sein. Dies ist einer der Fälle, in denen zwei Dinge scheinbar ein ähnliches Ergebnis liefern, aber das Ergebnis wird in Wirklichkeit auf völlig unterschiedliche Weise gebildet. Zwei verschiedene mathematische Funktionen können zum Beispiel beide den gleichen Wert ausgeben, aber mit einer völlig anderen Logik arbeiten. Die Ausgabe des Schemas mag zwar ähnlich aussehen, aber die Unterschiede sind wichtig, um es für Annotationen und die ML-Nutzung geeignet zu machen.

Zweitens: Wenn das Schema nicht brauchbar ist, dann sind auch die besten Modellvorhersagen nicht brauchbar. Wenn die Entwicklung des Schemas scheitert, wird wahrscheinlich auch das gesamte System scheitern. ML-Programme können in der Regel nur das vorhersagen, was im Schema enthalten ist.2 Es ist selten, dass ein ML-Programm relevante Ergebnisse liefert, die besser sind als das ursprüngliche Schema. Es ist auch selten, dass es etwas vorhersagt, was ein Mensch oder eine Gruppe von Menschen, die sich dieselben Rohdaten ansehen, nicht auch vorhersagen könnte.

Es kommt häufig vor, dass Schemata einen fragwürdigen Wert haben. Es lohnt sich also, innezuhalten und zu überlegen: "Wenn wir die Daten automatisch mit diesem Schema versehen würden, wäre es dann tatsächlich nützlich für uns?" und "Kann ein Mensch, der sich die Rohdaten ansieht, vernünftigerweise etwas aus dem Schema auswählen, das zu ihnen passt?"

In den ersten Kapiteln werden wir uns mit den technischen Aspekten von Schemas befassen und später im Buch anhand von praktischen Beispielen auf die Schema-Angelegenheiten zurückkommen.

Rohdaten

Rohdaten sind jede Form von Binary Large Object (BLOB)-Daten oder vorstrukturierten Daten, die für die Beschriftung als einzelne Probe behandelt werden. Beispiele hierfür sind Videos, Bilder, Texte, Dokumente, Geodaten und mehrdimensionale Daten. Wenn wir über Rohdaten als Teil der Trainingsdaten nachdenken, ist das Wichtigste, dass die Rohdaten in einer für das Schema relevanten Weise gesammelt und verwendet werden.

Um die Relevanz von Rohdaten für ein Schema zu verdeutlichen, betrachten wir den Unterschied zwischen dem Hören eines Sportspiels im Radio, dem Sehen im Fernsehen oder dem persönlichen Besuch des Spiels. Unabhängig vom Medium handelt es sich um dasselbe Ereignis, aber du erhältst in jedem Kontext eine ganz andere Menge an Daten. Der Kontext, in dem die Rohdaten gesammelt werden - im Fernsehen, im Radio oder vor Ort - bestimmt das Potenzial der Rohdaten. Wenn du zum Beispiel versuchst, den Ballbesitz automatisch zu bestimmen, sind die visuellen Rohdaten wahrscheinlich besser geeignet als die Funk-Rohdaten.

Im Vergleich zu Software sind wir Menschen gut darin, automatisch kontextbezogene Zusammenhänge herzustellen und mit verrauschten Daten zu arbeiten. Wir treffen viele Annahmen und greifen dabei oft auf Datenquellen zurück, die uns im Moment nicht bewusst sind. Diese Fähigkeit, den Kontext über die direkt wahrgenommenen Anblicke, Geräusche usw. hinaus zu verstehen, macht es schwer, sich daran zu erinnern, dass Software hier begrenzter ist.

Software hat nur den Kontext, der in sie einprogrammiert wurde, sei es durch Daten oder Codezeilen. Das bedeutet, dass die eigentliche Herausforderung bei Rohdaten darin besteht, unsere menschlichen Annahmen über den Kontext zu überwinden, um die richtigen Daten verfügbar zu machen.

Wie machst du das also? Eine der erfolgreichsten Methoden ist es, mit dem Schema zu beginnen und dann die Ideen der Rohdatenerfassung darauf abzustimmen. Man kann sich das als eine Kette von Problem -> Schema -> Rohdaten vorstellen. Die Anforderungen an das Schema werden immer durch das Problem oder das Produkt definiert. Auf diese Weise lässt sich immer leicht überprüfen: "Kann ein Mensch angesichts des Schemas und der Rohdaten ein vernünftiges Urteil fällen?"

Die Orientierung am Schema regt auch dazu an, über neue Methoden der Datenerhebung nachzudenken, anstatt sich auf bestehende oder leicht zu erreichende Methoden der Datenerhebung zu beschränken. Im Laufe der Zeit können das Schema und die Rohdaten gemeinsam überarbeitet werden; dies ist nur der Anfang. Eine andere Möglichkeit, das Schema mit dem Produkt in Verbindung zu bringen, besteht darin, das Schema als Repräsentant des Produkts zu betrachten. Um das Klischee des "Product Market Fit" aufzugreifen, heißt das also "Product Data Fit".

Um die obigen Abstraktionen zu konkretisieren, werden wir einige häufige Probleme erörtern, die in der Industrie auftreten. Unterschiede zwischen den in der Entwicklung und der Produktion verwendeten Daten sind eine der häufigsten Fehlerquellen. Sie sind häufig, weil sie irgendwie unvermeidbar sind. Deshalb ist es wichtig, schon früh im Iterationsprozess ein gewisses Maß an "echten" Daten zu haben. Du musst damit rechnen, dass die Daten aus der Produktion anders sind, und dies als Teil deiner allgemeinen Datenerfassungsstrategie einplanen.

Das Datenprogramm kann nur die Rohdaten und die Anmerkungen sehen - nur das, was ihm zur Verfügung gestellt wird. Wenn ein menschlicher Annotator sich auf Wissen verlässt, das nicht aus dem vorgelegten Beispiel hervorgeht, ist es unwahrscheinlich, dass das Datenprogramm über diesen Kontext verfügt, und es wird fehlschlagen. Wir müssen uns daran erinnern, dass der gesamte benötigte Kontext vorhanden sein muss, entweder in den Daten oder in den Codezeilen des Programms.

Um es kurz zu machen:

  • Die Rohdaten müssen für das Schema relevant sein.

  • Die Rohdaten sollten den Produktionsdaten so ähnlich wie möglich sein.

  • Die Rohdaten sollten den gesamten Kontext enthalten, der in der Probe selbst enthalten ist.

Anmerkungen

Jede Anmerkung ist ein einzelnes Beispiel für etwas, das im Schema angegeben ist. Stell dir zwei Klippen mit einem offenen Raum in der Mitte vor, wobei die linke das Schema und die rechte eine einzelne Rohdatendatei darstellt. Eine Anmerkung ist die konkrete Brücke zwischen dem Schema und den Rohdaten, wie in Abbildung 1-2 dargestellt.

Relationships among schema, single annotation, and raw data
Abbildung 1-2. Beziehungen zwischen Schema, Einzelanmerkung und Rohdaten

Das Schema ist zwar "abstrakt", d. h., es wird zwischen mehreren Anmerkungen referenziert und wiederverwendet, aber jede Anmerkung enthält die konkreten Werte, die die Antworten auf die Fragen im Schema ausfüllen.

Anmerkungen sind normalerweise die zahlreichste Form von Daten in einem Trainingsdatensystem, da jede Datei oft Dutzende oder sogar Hunderte von Anmerkungen enthält. Eine Anmerkung wird auch als "Instanz" bezeichnet, weil sie eine einzelne Instanz von etwas im Schema ist.

Technisch gesehen enthält jede Annotationsinstanz einen Schlüssel, der sie mit einem Label oder Attribut innerhalb eines Schemas verbindet, sowie eine Datei oder Unterdatei, die die Rohdaten enthält. In der Praxis enthält jede Datei in der Regel eine Liste von Instanzen.

Qualität

Die Qualität von Schulungsdaten liegt natürlich auf einem Spektrum. Was in einem Kontext akzeptabel ist, muss es in einem anderen nicht sein.

Was sind also die wichtigsten Faktoren für die Qualität von Trainingsdaten? Nun, wir haben bereits über zwei davon gesprochen: Schema und Rohdaten. Ein Beispiel:

  • Ein schlechtes Schema kann mehr Qualitätsprobleme verursachen als schlechte Annotatoren.

  • Wenn das Konzept in den Rohdaten nicht klar ist, ist es unwahrscheinlich, dass es für das ML-Programm klar ist.

Oft ist die Qualität der Anmerkungen der zweitwichtigste Punkt. Die Qualität der Anmerkungen ist wichtig, aber vielleicht nicht so, wie du es vielleicht erwartest. Die meisten Menschen denken bei der Qualität von Kommentaren an die Frage: "Wurde er richtig kommentiert?" Aber "richtig" liegt oft außerhalb des Rahmens. Um zu verstehen, warum die "richtige" Antwort oft außerhalb des Rahmens liegt, stellen wir uns vor, dass wir Ampeln annotieren und die Ampel in dem Beispiel, das dir vorgelegt wird, ausgeschaltet ist (z. B. wegen eines Stromausfalls) und deine einzigen Optionen aus dem Schema Varianten einer aktiven Ampel sind. Es ist klar, dass entweder das Schema aktualisiert werden muss, um eine "ausgeschaltete" Ampel einzubeziehen, oder unser Produktionssystem wird in einem Kontext, in dem eine Ampel einen Stromausfall haben kann, niemals verwendbar sein.

Um zu einem etwas schwieriger zu kontrollierenden Fall überzugehen: Wenn die Ampel sehr weit entfernt oder in einem ungünstigen Winkel steht, kann der Arbeiter sie auch nicht richtig kommentieren. Diese Fälle klingen oft so, als ob sie leicht zu kontrollieren wären, aber in der Praxis sind sie es oft nicht. Generell gilt, dass Probleme mit der Qualität von Kommentaren in der Regel auf Probleme mit dem Schema und den Rohdaten zurückzuführen sind. Annotatoren stoßen im Laufe ihrer Arbeit auf Probleme mit Schemata und Daten. Bei qualitativ hochwertigen Kommentaren geht es um die effektive Kommunikation dieser Probleme und nicht nur um die "richtige" Kommentierung.

Ich kann nicht genug betonen, dass Schema und Rohdaten viel Aufmerksamkeit verdienen. Dennoch ist es wichtig, die Daten richtig zu kommentieren, und einer der Ansätze besteht darin, dass mehrere Personen dieselbe Probe untersuchen. Das ist oft kostspielig, und jemand muss die Bedeutung der verschiedenen Meinungen über dieselbe Probe interpretieren, was weitere Kosten verursacht. Bei einem industrietauglichen Fall, bei dem das Schema einen angemessenen Grad an Komplexität aufweist, ist die Meta-Analyse der Meinungen ein weiterer Zeitfresser.

Stell dir eine Menschenmenge vor, die ein Sportspiel in der Wiederholung anschaut. Stell dir vor, du versuchst, ihre Meinungen statistisch zu erfassen, um einen "Beweis" dafür zu erhalten, was "richtiger" ist. Stattdessen haben wir einen Schiedsrichter, der die Situation einzeln überprüft und eine Entscheidung trifft. Der Schiedsrichter hat vielleicht nicht "Recht", aber die gesellschaftliche Norm ist, dass der Schiedsrichter (oder ein ähnliches Verfahren) die Entscheidung trifft.

Oft wird auch ein kostengünstigerer Ansatz verwendet. Ein Prozentsatz der Daten wird nach dem Zufallsprinzip für eine Überprüfungsschleife ausgewählt, und die Kommentatoren weisen auf Probleme mit dem Schema und der Rohdatenanpassung hin, wenn sie auftreten. Auf diese Überprüfungsschleife und die Qualitätssicherungsprozesse wird später noch näher eingegangen.

Wenn die Überprüfungsmethode fehlschlägt und es den Anschein hat, als müssten immer noch mehrere Personen dieselben Daten kommentieren, um eine hohe Qualität zu gewährleisten, hast du wahrscheinlich eine schlechte Produktdatenanpassung und musst das Schema oder die Rohdatenerfassung ändern, um dies zu beheben.

Neben dem Schema, den Rohdaten und der Beschriftung sind die Pflege der Daten und die Integrationspunkte mit ML-Programmen weitere wichtige Aspekte der Qualität. Zur Qualität gehören auch Kostenüberlegungen, die erwartete Nutzung und die erwarteten Fehlerquoten.

Zusammenfassend lässt sich sagen, dass die Qualität in erster Linie durch das Schema und die Rohdaten bestimmt wird, dann durch die Annotatoren und die damit verbundenen Prozesse, und schließlich durch die Wartung und Integration.

Integrationen

Viel Zeit und Energie wird oft auf das "Trainieren des Modells" verwendet. Da das Trainieren eines Modells jedoch ein primär technisches, datenwissenschaftlich orientiertes Konzept ist, kann es dazu führen, dass wir andere wichtige Aspekte der effektiven Nutzung der Technologie unterbewerten.

Was ist mit der Pflege der Trainingsdaten? Was ist mit ML-Programmen, die nützliche Ergebnisse aus den Trainingsdaten ausgeben, wie z. B. Stichproben, Fehlersuche, Verringerung der Arbeitsbelastung usw., die nicht mit dem Training eines Modells zu tun haben? Wie sieht es mit der Integration in die Anwendung aus, in der die Ergebnisse des Modells oder ML-Unterprogramms verwendet werden sollen? Was ist mit der Technik, die die Datensätze testet und überwacht? Die Hardware? Menschliche Benachrichtigungen? Wie wird die Technologie in andere Technologien integriert?

Das Training des Modells ist nur eine Komponente. Um ein erfolgreiches ML-Programm, ein datengesteuertes Programm, zu erstellen, müssen wir darüber nachdenken, wie alle technologischen Komponenten zusammenarbeiten. Und um erfolgreich zu sein, müssen wir uns über das wachsende Ökosystem der Trainingsdaten im Klaren sein. Die Integration in die Datenwissenschaft hat viele Facetten, es geht nicht nur um den endgültigen "Output" an Kommentaren. Es geht um die fortlaufende menschliche Kontrolle, Wartung, Schema, Validierung, Lebenszyklus, Sicherheit usw. Ein Stapel ausgegebener Annotationen ist wie das Ergebnis einer einzelnen SQL-Abfrage, es ist ein einzelner, begrenzter Einblick in eine komplexe Datenbank.

Du solltest dich an einige wichtige Aspekte bei der Arbeit mit Integrationen erinnern:

  • Die Trainingsdaten sind nur dann nützlich, wenn sie von irgendetwas genutzt werden können, meistens von einem größeren Programm.

  • Die Integration von Data Science hat viele Berührungspunkte und erfordert ein Denken in großen Dimensionen.

  • Ein Modell zu trainieren ist nur ein kleiner Teil des gesamten Ökosystems.

Die menschliche Rolle

Der Mensch beeinflusst Datenprogramme, indem er die Trainingsdaten kontrolliert. Dazu gehört die Festlegung der Aspekte, die wir bisher besprochen haben: das Schema, die Rohdaten, die Qualität und die Integration mit anderen Systemen. Und natürlich ist der Mensch auch an der Annotation selbst beteiligt, wenn er sich jede einzelne Probe ansieht.

Diese Kontrolle wird in vielen Phasen und von vielen Menschen ausgeübt, von der Erstellung der ersten Trainingsdaten bis hin zur menschlichen Bewertung der Ergebnisse der Datenwissenschaft und der Validierung der Ergebnisse der Datenwissenschaft. Diese große Anzahl an beteiligten Personen unterscheidet sich stark von der klassischen ML.

Wir haben neue Metriken, z. B. wie viele Proben angenommen wurden, wie viel Zeit für jede Aufgabe aufgewendet wird, die Lebenszyklen von Datensätzen, die Treue der Rohdaten, wie die Verteilung des Schemas aussieht usw. Diese Aspekte können sich mit Begriffen aus der Datenwissenschaft überschneiden, wie z. B. der Klassenverteilung, aber es lohnt sich, sie als separate Konzepte zu betrachten. Zum Beispiel basieren Modellmetriken auf der Grundwahrheit der Trainingsdaten, d. h. wenn die Daten falsch sind, sind auch die Metriken falsch. Und wie im Abschnitt "Automatisierung der Qualitätssicherung" erläutert, können Metriken, die sich auf die Übereinstimmung der Annotatoren beziehen, größere Probleme mit dem Schema und den Rohdaten übersehen.

Bei Human Oversight geht es um so viel mehr als nur um quantitative Messwerte. Es geht um ein qualitatives Verständnis. Die menschliche Beobachtung, das menschliche Verständnis des Schemas, der Rohdaten, der einzelnen Stichproben usw. sind von großer Bedeutung. Diese qualitative Sichtweise erstreckt sich auch auf Geschäfts- und Anwendungsfallkonzepte. Außerdem werden diese Validierungen und Kontrollen schnell von einer einfachen Definition zu einer Kunstform, einem Akt der Schöpfung. Ganz zu schweigen von den komplizierten politischen und gesellschaftlichen Erwartungen, die an die Leistung und den Output eines Systems geknüpft werden können.

Die Arbeit mit Trainingsdaten bietet die Möglichkeit, Neues zu schaffen: menschliche Intelligenz und Erkenntnisse auf neuartige Weise zu erfassen, Probleme in einen neuen Trainingsdatenkontext zu stellen, neue Schemata zu erstellen, neue Rohdaten zu sammeln und andere trainingsdatenspezifische Methoden anzuwenden.

Diese Kreation, diese Kontrolle, das ist alles neu. Während wir für verschiedene Arten der Mensch-Computer-Interaktion etablierte Muster haben, gibt es für die Mensch-ML-Programm-Interaktion viel weniger etablierte Muster - für die menschliche Kontrolle, ein datengesteuertes System, bei dem der Mensch die Daten direkt korrigieren und programmieren kann.

Wir erwarten zum Beispiel, dass ein durchschnittlicher Büroangestellter weiß, wie man Textverarbeitung benutzt, aber wir erwarten nicht, dass er Videobearbeitungsprogramme benutzen kann. Für die Schulung von Daten werden Fachleute benötigt. So wie ein Arzt oder eine Ärztin heute wissen muss, wie man einen Computer für alltägliche Aufgaben benutzt, muss er oder sie jetzt lernen, wie man Standardkommentare verwendet. Mit dem Aufkommen und der Verbreitung von datengesteuerten Programmen, die von Menschen gesteuert werden, werden diese Interaktionen weiter an Bedeutung und Varianz zunehmen.

Ausbildung Daten Möglichkeiten

Nachdem wir nun viele der Grundlagen verstanden haben, wollen wir einige Möglichkeiten aufzeigen. Wenn du erwägst, dein ML/AI-Programm um Trainingsdaten zu erweitern, solltest du dir folgende Fragen stellen:

  • Was sind die bewährten Methoden?

  • Machen wir das auf die "richtige" Weise?

  • Wie kann mein Team effizienter mit Schulungsdaten arbeiten?

  • Welche Geschäftschancen können datenzentrierte Ausbildungsprojekte eröffnen?

  • Kann ich einen bestehenden Arbeitsprozess, z. B. eine bestehende Qualitätssicherungspipeline, in Trainingsdaten umwandeln? Was wäre, wenn ich alle meine Schulungsdaten an einem Ort hätte, anstatt sie von A nach B nach C zu verschieben? Wie kann ich die Tools für Schulungsdaten besser nutzen?

Im Großen und Ganzen kann ein Unternehmen:

  • Steigere deinen Umsatz durch den Verkauf neuer KI/ML-Datenprodukte.

  • Halte bestehende Einnahmen aufrecht, indem du die Leistung eines bestehenden Produkts mithilfe von KI/ML-Daten verbesserst.

  • Reduziere Sicherheitsrisiken - reduziere die Risiken und Kosten, die durch KI/ML-Daten entstehen können.

  • Verbessere die Produktivität, indem du die Arbeit der Mitarbeiter/innen in der Nahrungskette der Automatisierung weiter nach oben verschiebst. Indem du zum Beispiel kontinuierlich aus Daten lernst, kannst du deine KI/ML-Datenmaschine erstellen.

All diese Elemente können zu Veränderungen in einer Organisation führen, die ich als Nächstes behandeln werde.

Business Transformation

Die Denkweise deines Teams und deines Unternehmens rund um Ausbildungsdaten ist wichtig. In Kapitel 7 gehe ich näher darauf ein, aber hier sind schon mal ein paar wichtige Denkanstöße für dich:

  • Beginne damit, alle Routinearbeiten im Unternehmen als Gelegenheit zu betrachten, Ausbildungsdaten zu erstellen.

  • Erkenne, dass Arbeit, die nicht in einem Ausbildungsdatensystem erfasst wird, verloren ist.

  • Beginne damit, die Kommentierung in den Arbeitsalltag eines jeden Außendienstmitarbeiters zu integrieren.

  • Lege deine organisatorischen Führungsstrukturen fest, um deine Bemühungen um Ausbildungsdaten besser zu unterstützen.

  • Verwalte deine Trainingsdatenprozesse in großem Umfang. Was für einen einzelnen Datenwissenschaftler funktioniert, kann sich stark von dem unterscheiden, was für ein Team funktioniert, und erst recht von dem, was für ein Unternehmen mit mehreren Teams gilt.

Um all das zu erreichen, ist es wichtig, dass du in deinem Team und in deinem Unternehmen eine solide Praxis für Schulungsdaten einführst. Dazu musst du in deinem Unternehmen eine Mentalität schaffen, die sich auf Ausbildungsdaten konzentriert. Das kann komplex sein und Zeit kosten, aber die Investition lohnt sich.

Beziehe dazu Fachexperten in deine Projektplanungsgespräche ein. Sie werden wertvolle Erkenntnisse einbringen, die deinem Team im weiteren Verlauf Zeit sparen werden. Außerdem ist es wichtig, dass du Abstraktionen und Integrationen für die Sammlung, den Ingress und den Egress von Rohdaten mit Hilfe von Tools pflegst. Du wirst neue Bibliotheken für bestimmte Ausbildungsdaten benötigen, damit du auf bestehenden Untersuchungen aufbauen kannst. Mit den richtigen Tools und Systemen kann dein Team datenorientiert arbeiten. Und schließlich musst du sicherstellen, dass du und deine Teams die Ausbildungsdaten melden und beschreiben. Wenn du verstehst, was gemacht wurde, warum es gemacht wurde und was die Ergebnisse waren, kannst du dich auf zukünftige Projekte stützen.

All das mag jetzt entmutigend klingen, also lass uns die Dinge einen Schritt weiter herunterbrechen. Wenn du zum ersten Mal mit Trainingsdaten arbeitest, lernst du neue trainingsdatenspezifische Konzepte, die zu einem Umdenken führen werden. Zum Beispiel wird das Hinzufügen neuer Daten und Anmerkungen Teil deiner Routineabläufe werden. Du wirst besser informiert sein, wenn du die ersten Datensätze, Schemata und andere Konfigurationen einrichtest. Dieses Buch hilft dir, dich mit neuen Tools, neuen APIs, neuen SDKs und vielem mehr vertraut zu machen. ermöglicht es dir, Tools für Trainingsdaten in deinen Arbeitsablauf zu integrieren.

Effizienz der Trainingsdaten

Die Effizienz von Trainingsdaten ist eine Funktion aus vielen Teilen. Wir werden das in den nächsten Kapiteln genauer untersuchen, aber jetzt solltest du dir erst einmal diese Fragen stellen:

  • Wie können wir bessere Schemata erstellen und pflegen?

  • Wie können wir Rohdaten besser erfassen und pflegen?

  • Wie können wir effizienter annotieren?

  • Wie können wir die Anzahl der relevanten Stichproben reduzieren, damit es überhaupt weniger zu kommentieren gibt?

  • Wie können wir die Leute mit den neuen Tools vertraut machen?

  • Wie können wir dies in unsere Anwendung integrieren? Was sind die Integrationspunkte?

Wie bei den meisten Prozessen gibt es viele Bereiche, in denen die Effizienz verbessert werden kann, und dieses Buch zeigt dir, wie eine solide Ausbildung Datenpraxis dabei helfen kann.

Werkzeugbau-Kenntnisse

Neue Tools wie Diffgram, HumanSignal und bieten jetzt viele Möglichkeiten, um deine Trainingsdatenziele zu erreichen. Da diese Tools immer komplexer werden, wird es immer wichtiger, sie zu beherrschen. Vielleicht hast du dieses Buch in die Hand genommen, um dir einen Überblick zu verschaffen oder um bestimmte Probleme zu lösen. In Kapitel 2 geht es um Tools und Kompromisse.

Möglichkeiten zur Prozessverbesserung

Überlege dir ein paar allgemeine Bereiche, die die Menschen verbessern wollen, wie zum Beispiel:

  • Die Qualität der Beschriftung ist schlecht, zu kostspielig, zu manuell, zu fehleranfällig

  • Doppelte Arbeit

  • Die Arbeitskosten für Fachexperten sind zu hoch

  • Zu viel Routine oder mühsame Arbeit

  • Es ist fast unmöglich, genug von den ursprünglichen Rohdaten zu bekommen

  • Die Rohdatenmenge übersteigt deutlich die Möglichkeiten, sie manuell zu sichten

Vielleicht willst du dein Unternehmen auf breiter Basis umstellen, neue Tools erlernen oder ein bestimmtes Projekt oder einen Prozess optimieren. Die Frage ist natürlich, was der nächste Schritt ist, den du machen solltest, und warum du ihn machen solltest. Um dir bei der Beantwortung dieser Frage zu helfen, wollen wir jetzt darüber sprechen, warum Ausbildungsdaten wichtig sind.

Warum Ausbildungsdaten wichtig sind

In diesem Abschnitt gehe ich darauf ein, warum Schulungsdaten für dein Unternehmen wichtig sind und warum eine starke Schulungsdatenpraxis unerlässlich ist. Diese Themen ziehen sich wie ein roter Faden durch das gesamte Buch und werden auch in Zukunft immer wieder auftauchen.

Erstens bestimmen die Trainingsdaten, was dein KI-Programm, dein System, tun kann. Ohne Trainingsdaten gibt es kein System. Mit Trainingsdaten sind den Möglichkeiten nur durch deine Vorstellungskraft Grenzen gesetzt! Mehr oder weniger. Nun gut, in der Praxis gibt es immer noch ein Budget, Ressourcen wie Hardware und die Erfahrung des Teams. Aber theoretisch kann das System alles wiederholen, was du in ein Schema packen und mit Rohdaten belegen kannst. Vom Konzept her kann das Modell alles lernen. Das heißt, die Intelligenz und die Fähigkeiten des Systems hängen von der Qualität des Schemas und der Menge und Vielfalt der Daten ab, die du ihm beibringen kannst. In der Praxis verschaffen dir effektive Trainingsdaten einen entscheidenden Vorsprung, wenn alle anderen Faktoren - Budget, Ressourcen usw. - gleich sind.

Zweitens: Die Arbeit mit Trainingsdaten ist der Arbeit der Datenwissenschaft vorgeschaltet. Das bedeutet, dass die Datenwissenschaft von den Trainingsdaten abhängig ist. Fehler in den Trainingsdaten fließen in die Datenwissenschaft ein. Oder um es mit dem Klischee zu sagen: "Müll rein, Müll raus". In Abbildung 1-3 wird gezeigt, wie dieser Datenfluss in der Praxis aussieht.

Conceptual position of training data and data science
Abbildung 1-3. Konzeptionelle Positionen von Trainingsdaten und Datenwissenschaft

Drittens bedeutet die Kunst der Trainingsdaten ein Umdenken bei der Entwicklung von KI-Systemen. Anstatt uns zu sehr auf die Verbesserung der mathematischen Algorithmen zu konzentrieren, optimieren wir parallel dazu die Trainingsdaten, um sie besser an unsere Bedürfnisse anzupassen. Dies ist das Herzstück der KI-Transformation und der Kern der modernen Automatisierung. Zum ersten Mal wird die Wissensarbeit jetzt automatisiert.

ML-Anwendungen werden zum Mainstream

2005 nutzte ein Universitätsteam einen auf Trainingsdaten basierenden3 ein Fahrzeug namens Stanley, das auf einem 175 Meilen langen Wüstenparcours autonom fahren konnte. Damit gewann es die Defense Advanced Research Projects Agency (DARPA) Grand Challenge. Etwa 15 Jahre später, im Oktober 2020, veröffentlichte ein Automobilunternehmen eine umstrittene Full Self-Driving (FSD)- Technologie und läutete damit eine neue Ära des Verbraucherbewusstseins ein. Im Jahr 2021 wurden die Bedenken bezüglich der Datenkennzeichnung erstmals in den Gewinnmitteilungen erwähnt. Mit anderen Worten: Der Mainstream beginnt, sich mit Trainingsdaten zu beschäftigen.

Diese Kommerzialisierung geht über die Schlagzeilen von KI-Forschungsergebnissen hinaus. In den letzten Jahren sind die Anforderungen an die Technologie drastisch gestiegen. Wir erwarten, dass wir mit Software sprechen können und verstanden werden, dass wir automatisch gute Empfehlungen und personalisierte Inhalte erhalten. Große Technologieunternehmen, Start-ups und Unternehmen wenden sich zunehmend der KI zu, um diese explosionsartige Zunahme von Anwendungsfällen zu bewältigen.

KI-Wissen, Werkzeuge und bewährte Methoden verbreiten sich rasant. Was früher nur einigen wenigen vorbehalten war, wird jetzt zum Allgemeingut und zu vorgefertigten API-Aufrufen. Wir befinden uns in der Übergangsphase, in der wir von F&E-Demos zu den ersten realen Anwendungsfällen in der Industrie übergehen.

Die Erwartungen an die Automatisierung werden neu definiert. Für einen Neuwagenkäufer bedeutet der Tempomat nicht mehr nur "konstante Geschwindigkeit halten", sondern auch "Spur halten, Abstand halten und mehr". Das sind keine Überlegungen für die Zukunft. Das sind die aktuellen Erwartungen der Verbraucher und Unternehmen. Sie machen deutlich, dass du eine KI-Strategie brauchst und dass du in deinem Unternehmen über ML- und Trainingsdatenkompetenz verfügen musst.

Die Grundlage für erfolgreiche KI

Beim maschinellen Lernen geht es darum, aus Daten zu lernen. Früher bedeutete das, Datensätze in Form von Protokollen oder ähnlichen tabellarischen Daten wie "Anthony hat ein Video angesehen" zu erstellen.

Diese Systeme sind nach wie vor von großem Wert. Allerdings haben sie einige Grenzen. Sie werden uns nicht dabei helfen, Dinge zu tun, die moderne, trainingsdatengestützte KI leisten kann, wie z. B. Systeme zu entwickeln, die einen CT-Scan oder andere medizinische Bilder verstehen, Fußballtaktiken verstehen oder in Zukunft ein Fahrzeug steuern können.

Die Idee hinter dieser neuen Art von KI ist, dass ein Mensch ausdrücklich sagt: "Hier ist ein Beispiel dafür, wie ein Spieler einen Ball abgibt", "So sieht ein Tumor aus" oder "Dieser Teil des Apfels ist faul".

Diese Form des Ausdrucks ist vergleichbar mit der Art und Weise, wie eine Lehrkraft im Klassenzimmer Konzepte erklärt: mit Worten und Beispielen. Die Lehrer helfen dabei, die Lücke zwischen den Lehrbüchern zu schließen, und die Schüler bauen mit der Zeit ein mehrdimensionales Verständnis auf. Bei den Trainingsdaten fungiert der Annotator als der Lehrer, der die Lücke zwischen dem Schema und den Rohdaten schließt.

Ausbildungsdaten sind hier, um zu bleiben

Wie bereits erwähnt, verlagern sich die Anwendungsfälle für moderne KI/ML-Daten von der Forschung und Entwicklung in die Industrie. Wir stehen ganz am Anfang einer langen Kurve in diesem Geschäftszyklus. Natürlich ändern sich die Gegebenheiten schnell. Aber die konzeptionellen Ideen, die darin bestehen, die tägliche Arbeit als Kommentar zu betrachten, die Menschen zu ermutigen, sich mehr und mehr um einzigartige Arbeit zu bemühen und die immer leistungsfähigeren ML-Programme zu beaufsichtigen, werden sich durchsetzen.

In der Forschung werden sowohl die Algorithmen als auch die Ideen für die Nutzung von Trainingsdaten immer besser. Der Trend geht zum Beispiel dahin, dass bestimmte Modelle immer weniger Daten benötigen, um effektiv zu sein. Je weniger Stichproben ein Modell zum Lernen braucht, desto mehr Wert wird auf die Erstellung von Trainingsdaten mit größerer Breite und Tiefe gelegt. Auf der anderen Seite erfordern viele Anwendungsfälle in der Industrie oft noch größere Datenmengen, um die Geschäftsziele zu erreichen. In diesem geschäftlichen Kontext erhöht die Notwendigkeit, dass immer mehr Menschen an der Datenerstellung beteiligt sind, den Druck auf die Werkzeuge.

Mit anderen Worten: Die Expansionsrichtungen von Forschung und Industrie legen im Laufe der Zeit immer mehr Wert auf Trainingsdaten.

Trainingsdaten steuern das ML-Programm

Die Frage in jedem System ist die Kontrolle. Wo ist die Kontrolle? In normalem Computercode ist das die von Menschen geschriebene Logik in Form von Schleifen, Wenn-Anweisungen usw. Diese Logik definiert das System.

Beim klassischen maschinellen Lernen gehören zu den ersten Schritten die Festlegung der interessierenden Merkmale und eines Datensatzes. Dann erstellt ein Algorithmus ein Modell. Auch wenn es den Anschein hat, dass der Algorithmus die Kontrolle hat, wird die tatsächliche Kontrolle durch die Auswahl der Merkmale und Daten ausgeübt, die die Freiheitsgrade des Algorithmus bestimmen.

In einem Deep Learning-System wählt der Algorithmus seine eigenen Merkmale aus. Der Algorithmus versucht zu bestimmen (zu lernen), welche Merkmale für ein bestimmtes Ziel relevant sind. Dieses Ziel wird durch die Trainingsdaten definiert. Tatsächlich sind die Trainingsdaten die wichtigste Definition des Ziels.

Und so funktioniert's. Ein interner Teil des Algorithmus, die sogenannte Verlustfunktion, beschreibt, wie der Algorithmus eine gute Darstellung des Ziels erlernen kann. Der Algorithmus verwendet die Verlustfunktion, um festzustellen, wie nahe er dem in den Trainingsdaten definierten Ziel ist.

Technisch gesehen ist der Verlust der Fehler, den wir beim Modelltraining minimieren wollen. Damit eine Verlustfunktion eine menschliche Bedeutung hat, muss es ein von außen definiertes Ziel geben, z. B. ein Geschäftsziel, das in Bezug auf die Verlustfunktion sinnvoll ist. Dieses Unternehmensziel kann zum Teil durch die Trainingsdaten definiert werden.

In gewisser Weise ist dies ein "Ziel innerhalb eines Ziels": Das Ziel der Trainingsdaten ist es, das Unternehmensziel bestmöglich zu erreichen, und das Ziel der Verlustfunktion ist es, das Modell auf die Trainingsdaten zu beziehen. Kurz gesagt: Das Ziel der Verlustfunktion ist es, den Verlust zu optimieren, aber das kann sie nur, wenn sie einen Referenzpunkt hat, der durch die Trainingsdaten definiert ist. Um den Vermittler der Verlustfunktion konzeptionell zu übergehen, sind die Trainingsdaten die "Grundwahrheit" für die Korrektheit der Beziehung des Modells zum vom Menschen definierten Ziel. Oder einfacher ausgedrückt: Das menschliche Ziel definiert die Trainingsdaten, die dann das Modell definieren.

Neue Arten von Nutzern

Bei der traditionellen Softwareentwicklung besteht eine gewisse Abhängigkeit zwischen dem Endnutzer und dem Ingenieur. Der Endnutzer kann nicht wirklich sagen, ob das Programm "richtig" ist, und der Ingenieur kann es auch nicht.

Es ist schwer für einen Endnutzer zu sagen, was er will, bevor er nicht einen Prototyp gebaut hat. Daher sind sowohl der Endnutzer als auch der Ingenieur voneinander abhängig. Das nennt man eine zirkuläre Abhängigkeit. Die Fähigkeit, Software zu verbessern, entsteht aus dem Zusammenspiel zwischen beiden, um gemeinsam zu iterieren.

Bei Trainingsdaten kontrolliert der Mensch die Bedeutung des Systems, wenn er die wörtliche Überwachung durchführt. Datenwissenschaftler/innen kontrollieren sie bei der Arbeit an Schemata, zum Beispiel bei der Wahl von Abstraktionen wie Label Templates.

Wenn ich als Kommentator zum Beispiel einen Tumor als krebsartig bezeichnen würde, obwohl er in Wirklichkeit gutartig ist, würde ich die Leistung des Systems auf schädliche Weise beeinflussen. In diesem Zusammenhang ist es wichtig zu verstehen, dass es keine Möglichkeit gibt, diese Kontrolle jemals zu 100 % zu eliminieren. Die Technik kann sowohl aufgrund der Datenmenge als auch aufgrund mangelnder Fachkenntnisse das Datensystem nicht kontrollieren.

Früher ging man davon aus, dass Datenwissenschaftler/innen wissen, was "richtig" ist. Die Theorie war, dass sie einige Beispiele für "richtig" definieren können und dann, solange sich die menschlichen Vorgesetzten im Allgemeinen an diesen Leitfaden halten, wissen, was richtig ist. Beispiele für alle Arten von Komplikationen tauchen sofort auf: Wie kann ein englischsprachiger Datenwissenschaftler wissen, ob eine Übersetzung ins Französische korrekt ist? Wie kann ein Datenwissenschaftler wissen, ob die medizinische Meinung eines Arztes zu einem Röntgenbild richtig ist? Die kurze Antwort ist: Sie können es nicht. Mit der zunehmenden Bedeutung von KI-Systemen müssen Fachexperten das System zunehmend in einer Weise kontrollieren, die die Datenwissenschaft überflüssig macht.4

Überlegen wir uns, warum sich dies von dem traditionellen Konzept "Garbage in, garbage out" unterscheidet. Bei einem herkömmlichen Programm kann ein Ingenieur garantieren, dass der Code "korrekt" ist, z. B. durch einen Unit-Test. Das bedeutet nicht, dass er die vom Endbenutzer gewünschte Ausgabe liefert, sondern nur, dass der Code das tut, was der Ingenieur glaubt, dass er tun soll. Um es anders auszudrücken: Das Versprechen lautet "Gold rein, Gold raus" - solange der Nutzer Gold reinsteckt, bekommt er auch Gold raus.

Das Schreiben eines KI-Einheitstests ist im Kontext von Trainingsdaten schwierig. Das liegt zum Teil daran, dass die Kontrollen, die der Datenwissenschaft zur Verfügung stehen, wie z. B. ein Validierungsset, immer noch auf der Kontrolle (der Durchführung von Annotationen) durch einzelne KI-Betreuer/innen beruhen.

Außerdem können KI-Betreuer an die Abstraktionen gebunden sein, die die Technik für sie definiert. Wenn sie jedoch in der Lage sind, das Schema selbst zu definieren, sind sie tiefer in die Struktur des Systems verwoben, wodurch die Grenzen zwischen "Inhalt" und "System" weiter verwischt werden.

Das ist ein deutlicher Unterschied zu klassischen Systemen. Auf einer Social-Media-Plattform kann zum Beispiel dein Inhalt der Wert sein, aber es ist immer noch klar, was das buchstäbliche System ist (das Feld, in das du eintippst, die Ergebnisse, die du siehst, usw.) und was der Inhalt ist, den du postest (Text, Bilder, usw.).

Wenn wir schon über Form und Inhalt nachdenken, wie passt dann die Kontrolle wieder dazu? Beispiele für Kontrolle sind:

  • Abstraktionen, wie das Schema, definieren eine Ebene der Kontrolle.

  • Die Annotation, also die buchstäbliche Betrachtung der Proben, definiert eine weitere Kontrollebene.

Während die Datenwissenschaft die Algorithmen kontrollieren kann, fungiert die Kontrolle der Trainingsdaten oft als "Aufsicht" über den Algorithmus.

Trainingsdaten in freier Wildbahn

Bis jetzt haben wir viele Konzepte und Theorien behandelt, aber das Training von Daten in der Praxis kann eine komplexe und schwierige Aufgabe sein.

Was macht es schwierig, Daten zu trainieren?

Hinter der scheinbaren Einfachheit der Daten verbergen sich eine enorme Komplexität, neue Überlegungen, neue Konzepte und neue Formen der Kunst. Es mag so aussehen, als ob ein Mensch ein passendes Etikett auswählt, die Daten einen maschinellen Prozess durchlaufen und voilà, wir haben eine Lösung, richtig? Nun, nicht ganz. Hier sind ein paar gemeinsame Elemente, die sich als schwierig erweisen können.

Fachexperten (KMU) arbeiten auf neue Weise mit Technikern zusammen und umgekehrt. Diese neuen sozialen Interaktionen bringen neue "menschliche" Herausforderungen mit sich. Experten haben individuelle Erfahrungen, Überzeugungen, Vorurteile und Vorerfahrungen. Außerdem müssen Experten aus verschiedenen Bereichen möglicherweise enger als sonst zusammenarbeiten. Die Nutzerinnen und Nutzer arbeiten mit neuartigen Kommentarschnittstellen und haben nur wenige gemeinsame Erwartungen, wie ein Standarddesign aussehen sollte.

Weitere Herausforderungen sind:

  • Das Problem selbst kann schwierig zu formulieren sein, mit unklaren Antworten oder unzureichend definierten Lösungen.

  • Selbst wenn das Wissen im Kopf einer Person gut ausgebildet ist und die Person mit der Anmerkungsschnittstelle vertraut ist, kann die genaue Eingabe dieses Wissens mühsam und zeitaufwändig sein.

  • Oft gibt es eine große Menge an Daten, die gekennzeichnet werden müssen, mit mehreren Datensätzen, die verwaltet werden müssen, und technischen Herausforderungen bei der Speicherung, dem Zugriff und der Abfrage der neuen Formen von Daten.

  • Da es sich hier um eine neue Disziplin handelt, fehlt es an organisatorischer Erfahrung und operativer Exzellenz, die nur mit der Zeit kommen kann.

  • Unternehmen mit einer ausgeprägten klassischen ML-Kultur haben möglicherweise Schwierigkeiten, sich auf diesen grundlegend anderen, aber betriebsnotwendigen Bereich einzustellen. Das liegt daran, dass sie denken, sie hätten ML bereits verstanden und implementiert, obwohl es in Wirklichkeit eine völlig andere Form ist.

  • Da es sich um eine neue Kunstform handelt, sind die allgemeinen Ideen und Konzepte noch nicht sehr bekannt. Es mangelt an Bewusstsein, Zugang oder Vertrautheit mit den richtigen Tools für Trainingsdaten.

  • Schemata können komplex sein, mit Tausenden von Elementen, einschließlich verschachtelter bedingter Strukturen. Und Medienformate bringen Herausforderungen wie Reihen, Beziehungen und 3D-Navigation mit sich.

  • Die meisten Automatisierungswerkzeuge bringen neue Herausforderungen und Schwierigkeiten mit sich.

Die Herausforderungen sind vielfältig und manchmal schwierig, aber wir gehen sie in diesem Buch an, um einen Fahrplan zu erstellen, den du und dein Unternehmen umsetzen können, um die Ausbildungsdaten zu verbessern.

Die Kunst der Überwachung von Maschinen

Bis zu diesem Punkt haben wir einige der Grundlagen von und einige der Herausforderungen rund um Trainingsdaten behandelt. Verlassen wir nun für einen Moment die Wissenschaft und konzentrieren uns auf die Kunst. Hinter der scheinbaren Einfachheit der Beschriftung verbirgt sich ein riesiger Arbeitsaufwand. Annotationen sind für Trainingsdaten das, was Tippen für das Schreiben ist. Das bloße Drücken von Tasten auf einer Tastatur bringt keinen Nutzen, wenn das menschliche Element fehlt, das die Aktion informiert und die Aufgabe genau ausführt.

Ausbildungsdaten sind ein neues Paradigma, auf dem eine wachsende Zahl von Denkweisen, Theorien, Forschungen und Standards aufbaut. Dabei geht es um technische Darstellungen, menschliche Entscheidungen, Prozesse, Werkzeuge, Systemdesign und eine Vielzahl neuer Konzepte, die sich darauf beziehen.

Das Besondere an den Trainingsdaten ist, dass sie das Wissen, die Absichten, Ideen und Konzepte des Nutzers erfassen, ohne zu sagen, "wie" er zu ihnen gekommen ist. Wenn ich zum Beispiel einen "Vogel" beschrifte, sage ich dem Computer nicht, was ein Vogel ist, wie die Geschichte der Vögel aussieht usw., sondern nur, dass es ein Vogel ist. Diese Idee, eine hohe Absichtsstufe zu vermitteln, unterscheidet sich von den meisten klassischen Programmierperspektiven. Im Laufe dieses Buches werde ich immer wieder darauf zurückkommen, dass Trainingsdaten eine neue Form des Programmierens sind.

Eine neue Sache für die Datenwissenschaft

Während ein ML-Modell einen spezifischen Trainingsdatensatz verwenden kann, wird dieses Buch die unzähligen Konzepte rund um die abstrakten Konzepte der Trainingsdaten auspacken. Allgemeiner ausgedrückt: Trainingsdaten sind keine Datenwissenschaft. Sie haben unterschiedliche Ziele. Trainingsdaten erzeugen strukturierte Daten, Data Science verbraucht sie. Bei Trainingsdaten wird menschliches Wissen aus der realen Welt im Computer abgebildet. Bei der Datenwissenschaft geht es darum, diese Daten wieder auf die reale Welt abzubilden. Das sind die zwei verschiedenen Seiten einer Medaille.

Ähnlich wie ein Modell von einer Anwendung genutzt wird, müssen auch die Trainingsdaten von Data Science genutzt werden, um nützlich zu sein. Die Tatsache, dass sie auf diese Weise verwendet werden, sollte nicht von ihren Unterschieden ablenken. Die Trainingsdaten müssen nach wie vor in eine Form gebracht werden, die von den Datenwissenschaften genutzt werden kann. Es geht darum, klar definierte Abstraktionen zwischen ihnen zu haben, anstatt ad hoc über Begriffe zu raten.

Es scheint vernünftiger zu sein, die Ausbildung von Daten als eine Kunst zu betrachten, die von allen anderen Berufen ausgeübt wird, die von Fachleuten aus allen Bereichen des Lebens ausgeübt wird, als die Datenwissenschaft als allumfassenden Ausgangspunkt zu betrachten. Wenn man bedenkt, wie viele Fachexperten und nicht-technische Personen beteiligt sind, wäre es absurd anzunehmen, dass die Datenwissenschaft über allem steht! Es ist ganz natürlich, dass Trainingsdaten für die Datenwissenschaft gleichbedeutend sind mit gekennzeichneten Daten und eine Teilmenge der allgemeinen Belange darstellen; aber für viele andere sind Trainingsdaten ein eigener Bereich.

Der Versuch, irgendetwas als neue Domäne oder Kunstform zu bezeichnen, ist zwar automatisch anmaßend, aber ich tröste mich damit, dass ich einfach etwas bezeichne, was die Menschen bereits tun. Es macht sogar viel mehr Sinn, wenn wir sie als eigene Kunst behandeln und sie nicht in andere bestehende Kategorien einordnen. In Kapitel 7 gehe ich ausführlicher darauf ein.

Da Trainingsdaten als benannter Bereich neu sind, bleiben die Sprache und die Definitionen fließend. Die folgenden Begriffe sind alle eng miteinander verbunden:

  • Trainingsdaten

  • Datenbeschriftung

  • Mensch-Computer-Überwachung

  • Anmerkung

  • Datenprogramm

Je nach Kontext können diese Begriffe auf verschiedene Definitionen zutreffen:

  • Die gesamte Kunst der Trainingsdaten

  • Der Akt des Annotierens, wie das Zeichnen von Geometrien und das Beantworten von Schemafragen

  • Die Definition dessen, was wir in einem maschinellen Lernsystem erreichen wollen, der gewünschte Idealzustand

  • Die Kontrolle des ML-Systems, einschließlich der Korrektur bestehender Systeme

  • Ein System, das sich auf von Menschen kontrollierte Daten verlässt

Ich kann mich zum Beispiel auf die Annotation als eine spezifische Unterkomponente des Gesamtkonzepts der Trainingsdaten beziehen. Ich kann auch sagen: "mit Trainingsdaten arbeiten", um den Akt des Annotierens zu meinen. Ein neuer Bereich, der sich noch in der Entwicklung befindet, ist die Datenbeschriftung, die nur die wörtlichen Grundlagen der Beschriftung meint, während andere das Gesamtkonzept der Trainingsdaten meinen.

Kurz gesagt: Es lohnt sich nicht, sich zu sehr an diesen Begriffen aufzuhängen, und der Kontext, in dem sie verwendet werden, ist normalerweise notwendig, um die Bedeutung zu verstehen.

ML Programm Ökosystem

Trainingsdaten interagieren mit einem wachsenden Ökosystem angrenzender Programme und Konzepte. Es ist üblich, Daten von einem Trainingsdatenprogramm an ein ML-Modellierungsprogramm zu senden oder ein ML-Programm auf einer Trainingsdatenplattform zu installieren. Produktionsdaten, wie z. B. Vorhersagen, werden oft zur Validierung, Überprüfung und weiteren Kontrolle an ein Trainingsdatenprogramm gesendet. Die Verknüpfung zwischen diesen verschiedenen Programmen wird immer umfangreicher. Später in diesem Buch werden wir einige der technischen Besonderheiten des Ingesting und Streaming von Daten behandeln.

Rohdaten Medientypen

Daten gibt es in vielen Medientypen. Beliebte Medientypen sind Bilder, Videos, Text, PDF/Dokumente, HTML, Audio, Zeitreihen, 3D/DICOM, Geodaten, Sensorfusion und multimodale Daten. In der Praxis werden häufig die beliebtesten Medientypen am besten unterstützt, theoretisch kann jedoch jeder Medientyp verwendet werden. Zu den Formen der Beschriftung gehören Attribute (detaillierte Optionen), Geometrien, Beziehungen und mehr. Im weiteren Verlauf des Buches werden wir all dies ausführlich behandeln, aber es ist wichtig zu wissen, dass, wenn es einen Medientyp gibt, wahrscheinlich jemand versucht, Daten aus ihm zu extrahieren.

Datenzentriertes maschinelles Lernen

Fachexperten und Datenerfasser verbringen unter Umständen vier bis acht Stunden pro Tag mit Aufgaben wie der Beschriftung von Schulungsdaten. Das ist eine zeitintensive Aufgabe, die zu ihrer Hauptarbeit werden kann. In manchen Fällen werden 99 % der Zeit des gesamten Teams für die Datenschulung und 1 % für den Modellierungsprozess aufgewendet, z. B. wenn eine AutoML-ähnliche Lösung verwendet wird oder ein großes Team von KMUs eingesetzt wird.5

Datenzentrierte KI bedeutet, dass man sich auf die Trainingsdaten als etwas Wichtiges konzentriert, indem man neue Daten, neue Schemata, neue Techniken zur Erfassung von Rohdaten und neue Anmerkungen von Fachleuten erstellt. Es bedeutet, dass du Programme entwickelst, bei denen die Trainingsdaten im Mittelpunkt stehen, und dass du die Trainingsdaten in alle Aspekte deines Programms integrierst. Es gab Mobile-First, und jetzt gibt es Data-First.

Mit der datenzentrierten Denkweise kannst du:

  • Nutze oder füge Datenerfassungspunkte hinzu, wie z.B. neue Sensoren, neue Kameras, neue Möglichkeiten zur Erfassung von Dokumenten usw.

  • Füge neues menschliches Wissen hinzu, z. B. in Form von neuen Kommentaren, z. B. von Fachexperten.

Die Gründe für einen datenzentrierten Ansatz sind:

  • Der größte Teil der Arbeit liegt in den Trainingsdaten, und der datenwissenschaftliche Aspekt liegt außerhalb unserer Kontrolle.

  • Bei den Trainingsdaten und der Modellierung gibt es mehr Freiheitsgrade als bei der Verbesserung des Algorithmus allein.

Wenn ich diese Idee der datenzentrierten KI mit der Idee verbinde, die Breite und Tiefe der Trainingsdaten als eine eigene Kunst zu betrachten, sehe ich die riesigen Möglichkeiten. Was wirst du mit Trainingsdaten bauen?

Versäumnisse

Es ist normal, dass jedes System eine Vielzahl von Fehlern hat und trotzdem im Allgemeinen "funktioniert". Bei Datenprogrammen ist es ähnlich. Manche Fehler sind zu erwarten, andere nicht. Lass uns eintauchen.

Datenprogramme funktionieren, wenn die damit verbundenen Annahmen zutreffen, z. B. die Annahmen über das Schema und die Rohdaten. Diese Annahmen sind oft bei der Erstellung am offensichtlichsten, können aber im Rahmen eines Datenpflegezyklus geändert oder angepasst werden.

Stell dir ein visuelles Beispiel vor: ein System zur Erkennung von Parkplätzen. Das System kann sehr unterschiedliche Ansichten haben, wie in Abbildung 1-4 dargestellt. Wenn wir einen Trainingsdatensatz erstellen, der auf einer Top-Down-Ansicht (links) basiert, und dann versuchen, eine Ansicht auf Autoebene (rechts) zu verwenden, werden wir wahrscheinlich eine "unerwartete" Fehlerklasse erhalten.

Comparison of major differences in raw data that would likely lead to an unexpected failure
Abbildung 1-4. Vergleich der wichtigsten Unterschiede in den Rohdaten, die wahrscheinlich zu einem unerwarteten Ausfall führen würden

Warum gab es einen Fehler? Ein maschinelles Lernsystem, das nur auf Bilder aus der Draufsicht trainiert wurde, wie im linken Bild, hat es schwer, in einer Umgebung zu funktionieren, in der die Bilder aus der Vorderansicht stammen, wie im rechten Bild zu sehen. Mit anderen Worten: Das System würde das Konzept eines Autos und eines Parkplatzes aus der Vorderansicht nicht verstehen, wenn es während des Trainings noch nie ein solches Bild gesehen hat.

Das mag zwar offensichtlich erscheinen, aber ein ähnliches Problem führte in der Praxis zu einem Ausfall in einem System der US Air Force, was dazu führte, dass sie dachten, ihr System sei wesentlich besser als es tatsächlich war.

Wie können wir Fehler wie diesen verhindern? Nun, dieser Fall ist ein klares Beispiel dafür, warum es wichtig ist, dass die Daten, die wir zum Trainieren eines Systems verwenden, genau mit den Produktionsdaten übereinstimmen. Was ist mit Fehlern, die nicht ausdrücklich in einem Buch aufgeführt sind?

Der erste Schritt besteht darin, sich über die bewährten Methoden für Trainingsdaten zu informieren. Als ich vorhin über die Rollen der Menschen sprach, habe ich erwähnt, wie wichtig die Kommunikation mit Annotatoren und Fachexperten ist. Kommentatoren müssen in der Lage sein, auf Probleme hinzuweisen, insbesondere wenn es um den Abgleich von Schemata und Rohdaten geht. Kommentatoren sind in der einzigartigen Lage, Probleme außerhalb der vorgegebenen Anweisungen und Schemata zu erkennen, z. B. wenn der "gesunde Menschenverstand" sagt, dass etwas nicht in Ordnung ist.

Admins müssen sich des Konzepts bewusst sein, ein neues, gut benanntes Schema zu erstellen. Die Rohdaten sollten immer zum Schema passen, und die Pflege der Daten ist eine Voraussetzung.

Fehlermöglichkeiten werden während der Entwicklung durch Diskussionen über das Schema, die erwartete Datennutzung und Gespräche mit den Kommentatoren aufgedeckt.

Entwicklungsgeschichte wirkt sich auch auf die Trainingsdaten aus

Wenn wir an die klassische Software denken, sind die Programme aufgrund ihrer historischen Entwicklung auf bestimmte Betriebszustände ausgerichtet. Eine Anwendung, die für ein Smartphone entwickelt wurde, hat einen bestimmten Kontext und kann in bestimmten Dingen besser oder schlechter sein als eine Desktop-Anwendung. Eine Tabellenkalkulationsanwendung ist vielleicht besser für den Desktop geeignet; ein Geldversandsystem erlaubt keine zufälligen Änderungen. Wenn ein solches Programm einmal geschrieben wurde, ist es schwer, zentrale Aspekte zu ändern oder es "unbias" zu machen. Bei der Geldüberweisungs-App wird davon ausgegangen, dass ein Endnutzer eine Transaktion nicht "rückgängig" machen kann.

Die Entwicklungsgeschichte eines bestimmten Modells, ob zufällig oder absichtlich, wirkt sich auch auf die Trainingsdaten aus. Stell dir eine Anwendung zur Erntekontrolle vor, die sich hauptsächlich auf Krankheiten im Kartoffelanbau bezieht. Es wurden Annahmen getroffen, die vom Format der Rohdaten (z. B. dass die Medien in bestimmten Höhen erfasst werden) über die Art der Krankheiten bis hin zur Menge der Proben reichen. Es ist unwahrscheinlich, dass es auch für andere Arten von Pflanzen funktioniert. Das ursprüngliche Schema kann Annahmen enthalten, die im Laufe der Zeit veraltet sind. Die Historie des Systems wirkt sich auf die Fähigkeit aus, das System in Zukunft zu ändern.

Was Trainingsdaten nicht sind

Trainingsdaten sind kein ML-Algorithmus. Sie sind nicht an einen bestimmten maschinellen Lernansatz gebunden.

Vielmehr geht es um die Definition dessen, was wir erreichen wollen. Die grundlegende Herausforderung besteht darin, die gewünschte menschliche Bedeutung effektiv zu identifizieren und in eine maschinenlesbare Form zu bringen.

Die Effektivität der Trainingsdaten hängt in erster Linie davon ab, wie gut sie mit der vom Menschen definierten Bedeutung übereinstimmen und wie gut sie die tatsächliche Nutzung des Modells wiedergeben. In der Praxis hat die Wahl der Trainingsdaten einen großen Einfluss auf die Fähigkeit, ein Modell effektiv zu trainieren.

Generative KI

Generative KI-Konzepte (GenAI), wie generative pre-trained transformers (GPTs) und large language models (LLMs), wurden Anfang 2023 sehr populär. Hier werde ich kurz darauf eingehen, wie diese Konzepte mit Trainingsdaten zusammenhängen.

Zum Zeitpunkt der Erstellung dieses Artikels entwickelt sich dieser Bereich sehr schnell. Die großen kommerziellen Anbieter sind extrem restriktiv, wenn es darum geht, was sie der Öffentlichkeit mitteilen, daher gibt es viele Spekulationen und einen Hype, aber wenig Konsens. Daher werden einige Teile dieses Abschnitts über generative KI wahrscheinlich schon wieder veraltet sein, wenn du ihn liest.

Wir können mit dem Konzept des unüberwachten Lernens beginnen. Das allgemein erklärte Ziel des unüberwachten Lernens im GenAI-Kontext ist es, ohne neu definierte menschliche Bezeichnungen zu arbeiten. Das "Vortraining" der LLMs basiert jedoch auf menschlichem Quellmaterial. Du brauchst also immer noch Daten, und zwar in der Regel von Menschen erstellte Daten, um etwas zu erhalten, das für Menschen aussagekräftig ist. Der Unterschied besteht darin, dass beim "Vortraining" einer generativen KI die Daten zunächst nicht beschriftet werden müssen, um eine Ausgabe zu erzeugen, was dazu führt, dass die generative KI liebevoll als unbeaufsichtigtes "Monster" bezeichnet wird. Dieses "Monster" muss, wie in Abbildung 1-5 dargestellt, immer noch durch menschliche Aufsicht gezähmt werden.

Relationship of unsupervised learning to supervised fine-tuning and human alignment
Abbildung 1-5. Beziehung zwischen unüberwachtem Lernen, überwachter Feinabstimmung und menschlichem Alignment

Im Großen und Ganzen sind dies die wichtigsten Wege, auf denen GenAI mit der menschlichen Aufsicht interagiert :

Menschliche Ausrichtung
Die menschliche Aufsicht ist entscheidend für den Aufbau und die Verbesserung von GenAI-Modellen.
Verbesserungen der Effizienz
GenAI-Modelle können verwendet werden, um langwierige Überwachungsaufgaben (wie die Segmentierung von Bildern) zu verbessern.
Gemeinsam mit überwachter KI arbeiten
GenAI-Modelle können verwendet werden, um überwachte Ergebnisse zu interpretieren, zu kombinieren, zu verknüpfen und zu nutzen.
Allgemeines Bewusstsein für KI
KI wird täglich in den großen Nachrichtenblättern und bei Gewinnmitteilungen von Unternehmen erwähnt. Die allgemeine Aufregung um KI hat dramatisch zugenommen.

Ich werde das Konzept der menschlichen Ausrichtung im nächsten Unterabschnitt näher erläutern.

Du kannst GenAI auch nutzen, um die Effizienz überwachter Trainingsdaten zu verbessern. Einige "niedrig hängende" Aufgaben wie die Segmentierung von Objekten, die Klassifizierung allgemeiner Kategorien usw. sind (mit einigen Einschränkungen) mit aktuellen GenAI-Systemen möglich. Darauf gehe ich in Kapitel 8 näher ein, wenn ich über Automatisierung spreche.

Die Arbeit mit überwachter KI wird in diesem Buch nicht behandelt, es wird nur kurz darauf hingewiesen, dass es erstaunlich wenig Überschneidungen gibt. GenAI und überwachte Systeme sind beide wichtige Bausteine.

Die Fortschritte bei GenAI haben KI wieder in die Schlagzeilen gebracht. Das hat dazu geführt, dass Unternehmen ihre KI-Ziele überdenken und mehr Energie in KI-Initiativen im Allgemeinen stecken, nicht nur in GenAI. Um ein GenAI-System auf den Markt zu bringen, sind menschliche Anpassungen (mit anderen Worten: Trainingsdaten) erforderlich. Um ein komplettes KI-System zu entwickeln, sind oft GenAI und überwachte KI erforderlich. Das Erlernen der in diesem Buch beschriebenen Fähigkeiten für die Arbeit mit Trainingsdaten wird dir bei beiden Zielen helfen.

Menschliche Ausrichtung ist menschliche Aufsicht

Die menschliche Überwachung, auf die sich dieses Buch konzentriert, wird unter im Kontext der generativen KI oft als menschliches Alignment bezeichnet. Die meisten Konzepte, die in diesem Buch besprochen werden, gelten auch für das menschliche Alignment, mit einigen fallspezifischen Änderungen.

Das Ziel ist weniger, dass das Modell direkt lernt, eine exakte Repräsentation zu wiederholen, sondern vielmehr, die unüberwachten Ergebnisse zu "lenken". Welche Methoden zur Ausrichtung des menschlichen Alignments am besten geeignet sind, wird zwar kontrovers diskutiert, aber es gibt bereits einige Beispiele für gängige Alignment-Ansätze:

  • Direkte Kontrolle, wie z. B. Frage-Antwort-Paare, Einstufung der Ergebnisse (z. B. persönliche Präferenz, am besten bis am schlechtesten) und Kennzeichnung spezifischer Bedenken wie "nicht sicher für die Arbeit". Dieser Ansatz war der Schlüssel zu GPT-4s Ruhm.

  • Indirekte Überwachung, z. B. Endnutzer/innen stimmen ab, geben freies Feedback, usw. Normalerweise müssen diese Eingaben einen zusätzlichen Prozess durchlaufen, bevor sie dem Modell vorgelegt werden.

  • Definition eines "konstitutionellen" Satzes von Anweisungen, die bestimmte Prinzipien der menschlichen Überwachung (Human Alignment) für das GenAI-System festlegen.

  • Prompt-Engineering, d.h. die Definition von "codeähnlichen" Eingabeaufforderungen oder die Codierung in natürlicher Sprache.

  • Integration mit anderen Systemen um die Gültigkeit der Ergebnisse zu überprüfen.

Es gibt kaum einen Konsens über die besten Ansätze oder darüber, wie die Ergebnisse gemessen werden können. Ich möchte darauf hinweisen, dass sich viele dieser Ansätze auf Text, eine begrenzte multimodale (aber immer noch textliche) Ausgabe und die Erstellung von Medien konzentriert haben. Das mag zwar umfangreich erscheinen, ist aber nur ein relativ kleiner Teilbereich des allgemeinen Konzepts, bei dem Menschen beliebigen Konzepten aus der realen Welt eine wiederholbare Bedeutung zuordnen.

Es gibt nicht nur keinen Konsens, sondern auch widersprüchliche Forschungsergebnisse in diesem Bereich. An den beiden Enden des Spektrums behaupten einige, dass sie emergentes Verhalten beobachten, während andere behaupten, dass die Benchmarks ausgewählt wurden und es sich um ein falsches Ergebnis handelt (z. B. dass die Testmenge mit den Trainingsdaten vermischt wurde). Es scheint zwar klar zu sein, dass die menschliche Aufsicht etwas damit zu tun hat, aber auf welchem Niveau, in welchem Umfang und mit welcher Technik genau, ist im Fall von GenAI eine offene Frage. Tatsächlich zeigen einige Ergebnisse, dass kleine, vom Menschen überwachte Modelle genauso gut oder besser funktionieren können als große Modelle.

Auch wenn du vielleicht einige Unterschiede in der Terminologie bemerkst, gelten viele der Grundsätze in diesem Buch sowohl für den GenAI-Abgleich als auch für die Trainingsdaten. Genauer gesagt, sind alle Formen der direkten Kontrolle eine Kontrolle der Trainingsdaten. Bevor wir das Thema GenAI abschließen, noch ein paar Anmerkungen: Das Prompt-Engineering wird in diesem Buch ebenso wenig behandelt wie andere GenAI-spezifische Konzepte. Wenn du ein GenAI-System bauen willst, wirst du jedoch immer noch Daten benötigen, und eine qualitativ hochwertige Überwachung wird auf absehbare Zeit ein wichtiger Bestandteil von GenAI-Systemen bleiben.

Zusammenfassung

In diesem Kapitel haben wir die wichtigsten Ideen rund um Trainingsdaten für maschinelles Lernen vorgestellt. Fassen wir noch einmal zusammen, warum Trainingsdaten wichtig sind:

  • Verbraucher und Unternehmen erwarten zunehmend, dass ML sowohl in bestehende als auch in neue Systeme integriert wird, was die Bedeutung von Trainingsdaten erhöht.

  • Sie dient als Grundlage für die Entwicklung und Pflege moderner ML-Programme.

  • Datentraining ist eine Kunst und ein neues Paradigma. Es ist eine Reihe von Ideen rund um neue, datengesteuerte Programme und wird von Menschen gesteuert. Es unterscheidet sich vom klassischen ML und umfasst neue Philosophien, Konzepte und Implementierungen.

  • Sie bildet die Grundlage für neue KI/ML-Produkte, hält die Einnahmen aus bestehenden Geschäftsbereichen aufrecht, indem sie die Kosten durch KI/ML-Upgrades ersetzt oder verbessert, und ist ein fruchtbarer Boden für Forschung und Entwicklung.

  • Als Technologe oder Fachexperte ist es heute eine wichtige Fähigkeit , die man haben muss.

Die Kunst, Daten zu trainieren, unterscheidet sich von der Datenwissenschaft. Ihr Schwerpunkt liegt auf der Steuerung des Systems, mit dem Ziel, dass das System selbst lernt. Daten trainieren ist kein Algorithmus oder ein einzelner Datensatz. Es ist ein Paradigma, das sich über alle Berufsgruppen erstreckt, von Fachexperten über Datenwissenschaftler bis hin zu Ingenieuren und mehr. Es ist eine Art, über Systeme zu denken, die neue Anwendungsfälle und Möglichkeiten eröffnet.

Bevor du weiterliest, empfehle ich dir, die wichtigsten Konzepte aus diesem Kapitel zu lesen :

  • Zu den wichtigsten Bereichen gehören Schemata, Rohdaten, Qualität, Integrationen und die Rolle des Menschen.

  • Bei klassischen Trainingsdaten geht es um Entdeckung, während moderne Trainingsdaten eine kreative Kunst sind; das Mittel, um Wissen zu "kopieren".

  • Deep Learning-Algorithmen erstellen Modelle auf der Grundlage von Trainingsdaten. Die Trainingsdaten definieren das Ziel, und der Algorithmus legt fest, wie er auf dieses Ziel hinarbeitet.

  • Trainingsdaten, die nur "im Labor" validiert wurden, werden in der Praxis wahrscheinlich fehlschlagen. Das lässt sich vermeiden, indem man in erster Linie Felddaten als Ausgangspunkt verwendet, das Systemdesign anpasst und von einer schnellen Aktualisierung der Modelle ausgeht.

  • Trainingsdaten sind wie Code.

Im nächsten Kapitel beschäftigen wir uns mit der Einrichtung deines Trainingsdatensystems und lernen die Tools kennen.

1 In den meisten Fällen werden diese vorhandenen Daten als "Stichprobe" betrachtet, auch wenn sie zu einem früheren Zeitpunkt von einem Menschen erstellt wurden.

2 Ohne weitere Abzüge, die nicht in unseren Zuständigkeitsbereich fallen.

3 Aus "Stanley_(Fahrzeug)", Wikipedia, abgerufen am 8. September 2023: "Stanley zeichnete sich durch einen auf maschinellem Lernen basierenden Ansatz zur Hinderniserkennung aus. Um einen häufigen Fehler zu korrigieren, den Stanley zu Beginn der Entwicklung machte, erstellte das Stanford Racing Team ein Protokoll der 'menschlichen Reaktionen und Entscheidungen' und speiste die Daten in einen Lernalgorithmus ein, der mit der Steuerung des Fahrzeugs verbunden war. Das Computerprotokoll der menschlichen Fahrweise machte Stanley auch genauer bei der Erkennung von Schatten, ein Problem, das viele der Fahrzeugausfälle bei der DARPA Grand Challenge 2004 verursacht hatte."

4 Es gibt statistische Methoden, um Expertenmeinungen zu koordinieren, aber diese sind immer "zusätzlich"; es muss immer noch eine Meinung vorhanden sein.

5 Ich vereinfache hier zu sehr. Der Hauptunterschied besteht darin, dass ein AutoML-Schulungsprodukt für Datenwissenschaftler/innen und das Hosting selbst zwar komplex sein mögen, aber es arbeiten einfach weniger Menschen daran.

6 Lies den Artikel von Will Douglas Heaven, "Google's Medical AI Was Super Accurate in a Lab. Real Life Was a Different Story", MIT Technology Review, April 27, 2020.

Get Trainingsdaten für maschinelles Lernen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.