Trainingsdaten für maschinelles Lernen

Book description

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Deine Trainingsdaten haben genauso viel mit dem Erfolg deines Datenprojekts zu tun wie die Algorithmen selbst, denn die meisten Fehlschläge bei KI-Systemen hängen mit den Trainingsdaten zusammen. Obwohl Trainingsdaten die Grundlage für erfolgreiches KI und maschinelles Lernen sind, gibt es nur wenige umfassende Ressourcen, die dir dabei helfen, den Prozess zu meistern.

In diesem praktischen Leitfaden zeigt der Autor Anthony Sarkis - leitender Ingenieur für die KI-Trainingsdatensoftware Diffgram - technischen Fachkräften, Managern und Fachexperten, wie sie mit Trainingsdaten arbeiten und diese skalieren können, und beleuchtet gleichzeitig die menschliche Seite der Überwachung von Maschinen. Technische Führungskräfte, Dateningenieure und Data-Science-Profis erhalten ein solides Verständnis der Konzepte, Tools und Prozesse, die sie für den erfolgreichen Umgang mit Trainingsdaten benötigen.

In diesem Buch lernst du, wie du:

  • Effektiv mit Trainingsdaten arbeiten, einschließlich Schemata, Rohdaten und Kommentaren
  • deine Arbeit, dein Team oder dein Unternehmen stärker auf KI/ML-Daten ausrichten kannst
  • Trainingsdatenkonzepte anderen Mitarbeitern, Teammitgliedern und Stakeholdern klar und deutlich zu erklären
  • Trainingsdaten für produktionsreife KI-Anwendungen entwerfen, bereitstellen und ausliefern
  • neue, auf Trainingsdaten basierende Fehlermöglichkeiten wie Datenverzerrungen zu erkennen und zu korrigieren
  • Automatisierungen sicher nutzen, um Trainingsdaten effektiver zu erstellen
  • Schulungsdatensysteme erfolgreich pflegen, betreiben und verbessern

Table of contents

  1. Vorwort
    1. Wer sollte dieses Buch lesen?
      1. Für technische Fachkräfte und Ingenieure
      2. Für den Manager und Direktor
      3. Für den Fachexperten und den Spezialisten für Datenkommentare
      4. Für den Datenwissenschaftler
    2. Warum ich dieses Buch geschrieben habe
    3. Wie dieses Buch organisiert ist
    4. Themen
      1. Die Grundlagen und erste Schritte
      2. Konzepte und Theorien
      3. Alles zusammenfügen
    5. In diesem Buch verwendete Konventionen
    6. O'Reilly Online Learning
    7. Wie du uns kontaktierst
    8. Danksagungen
  2. 1. Trainingsdaten Einführung
    1. Trainingsdaten Intentionen
      1. Was kannst du mit Trainingsdaten machen?
      2. Worum geht es bei den Ausbildungsdaten am meisten?
    2. Ausbildung Daten Möglichkeiten
      1. Business Transformation
      2. Effizienz der Trainingsdaten
      3. Werkzeugbau-Kenntnisse
      4. Möglichkeiten zur Prozessverbesserung
    3. Warum Ausbildungsdaten wichtig sind
      1. ML-Anwendungen werden zum Mainstream
      2. Die Grundlage für erfolgreiche KI
      3. Ausbildungsdaten sind hier, um zu bleiben
      4. Trainingsdaten steuern das ML-Programm
      5. Neue Arten von Nutzern
    4. Trainingsdaten in freier Wildbahn
      1. Was macht es schwierig, Daten zu trainieren?
      2. Die Kunst der Überwachung von Maschinen
      3. Eine neue Sache für die Datenwissenschaft
      4. ML Programm Ökosystem
      5. Datenzentriertes maschinelles Lernen
      6. Versäumnisse
      7. Entwicklungsgeschichte wirkt sich auch auf die Trainingsdaten aus
      8. Was Trainingsdaten nicht sind
    5. Generative KI
      1. Menschliche Ausrichtung ist menschliche Aufsicht
    6. Zusammenfassung
  3. 2. Aufstehen und loslegen
    1. Einführung
    2. Aufstehen und loslegen
      1. Installation
      2. Aufgaben einrichten
      3. Annotator-Einstellung
      4. Daten einrichten
      5. Workflow-Einrichtung
      6. Datenkatalog einrichten
      7. Erste Verwendung
      8. Optimierung
    3. Tools Übersicht
      1. Trainingsdaten für maschinelles Lernen
      2. Wachsende Auswahl an Werkzeugen
      3. Menschen, Prozesse und Daten
      4. Eingebettete Beaufsichtigung
      5. Mensch-Computer-Überwachung
      6. Trennung der Endkonzerne
      7. Normen
      8. Viele Personas
      9. Ein Paradigma zur Bereitstellung von Software für maschinelles Lernen
    4. Kompromisse
      1. Kosten
      2. Installierte Software versus Software as a Service
      3. Entwicklungssystem
      4. Skala
      5. Installationsoptionen
      6. Schnittstellen für Anmerkungen
      7. Integration modellieren
      8. Mehrbenutzer- versus Einzelbenutzersysteme
      9. Integrationen
      10. Umfang
      11. Versteckte Annahmen
      12. Sicherheit
      13. Open Source und Closed Source
    5. Geschichte
      1. Open-Source-Standards
      2. Den Bedarf an speziellen Werkzeugen erkennen
    6. Zusammenfassung
  4. 3. Schema
    1. Schema Deep Dive Einführung
    2. Labels und Attribute - was ist das?
      1. Was ist uns wichtig?
      2. Einführung in die Etiketten
      3. Attribute Einführung
      4. Komplexität der Attribute übersteigt die räumliche Komplexität
      5. Technischer Überblick
    3. Räumliche Repräsentation - wo ist sie?
      1. Raumtypen zur Verhinderung sozialer Voreingenommenheit nutzen
      2. Kompromisse mit Typen
      3. Computer Vision Spatial Type Beispiele
    4. Beziehungen, Sequenzen, Zeitreihen: Wann ist es soweit?
      1. Sequenzen und Beziehungen
      2. Wenn
    5. Leitfäden und Anleitungen
      1. Urteilsanrufe
    6. Beziehung zwischen den Aufgaben des maschinellen Lernens und den Trainingsdaten
      1. Semantische Segmentierung
      2. Bildklassifizierung (Tags)
      3. Objekt-Erkennung
      4. Posen-Schätzung
      5. Beziehung der Aufgaben zu den Trainingsdatentypen
    7. Allgemeine Konzepte
      1. Auffrischung des Instanzkonzepts
      2. Daten im Laufe der Zeit aktualisieren
      3. Die Grenze zwischen Modellierung und Trainingsdaten
      4. Rohdaten-Konzepte
    8. Zusammenfassung
  5. 4. Datentechnik
    1. Einführung
      1. Wer will die Daten?
      2. Ein Spiel mit dem Telefon
      3. Ein tolles System planen
      4. Naive und Trainingsdaten-zentrierte Ansätze
    2. Speicherung von Rohdaten
      1. Nach Referenz oder nach Wert
      2. Dedizierte Schulungsdaten-Tools von der Stange auf deiner eigenen Hardware
      3. Speicherung von Daten: Wo bleiben die Daten?
      4. Externe Referenzverbindung
      5. Rohmedien (BLOB)-Typ spezifisch
    3. Formatierung und Kartierung
      1. Benutzerdefinierte Typen (zusammengesetzte Dateien)
      2. Definieren von DataMaps
      3. Assistenten einnehmen
      4. Organisieren von Daten und nützliche Speicherung
      5. Fernspeicherung
      6. Versionierung
    4. Datenzugang
      1. Speicherung, Ingestion, Export und Zugriff auseinanderhalten
      2. Dateibasierte Exporte
      3. Streaming-Daten
      4. Abfragen Einleitung
      5. Integration in das Ökosystem
    5. Sicherheit
      1. Zugriffskontrolle
      2. Identität und Berechtigung
      3. Beispiel für die Einstellung von Berechtigungen
      4. Signierte URLs
      5. Persönlich identifizierbare Informationen
    6. Pre-Labeling
      1. Daten aktualisieren
    7. Zusammenfassung
  6. 5. Arbeitsablauf
    1. Einführung
    2. Kleber zwischen Technik und Menschen
      1. Warum werden menschliche Aufgaben benötigt?
      2. Partnerschaften mit Nicht-Software-Nutzern auf neue Art und Weise
    3. Erste Schritte mit menschlichen Aufgaben
      1. Grundlagen
      2. Das Durchhaltevermögen von Schemas
      3. Benutzer-Rollen
      4. Ausbildung
      5. Gold Standard Ausbildung
      6. Konzepte der Aufgabenzuweisung
      7. Musst du die Benutzeroberfläche anpassen?
      8. Wie lange wird der durchschnittliche Kommentator sie benutzen?
      9. Aufgaben und Projektstruktur
    4. Qualitätssicherung
      1. Annotator Trust
      2. Kommentatoren sind Partner
      3. Häufige Ursachen für Fehler in den Trainingsdaten
      4. Aufgabenüberprüfungsschleifen
    5. Analytik
      1. Beispiele für Annotationsmetriken
      2. Datenexploration
    6. Modelle
      1. Verwendung des Modells zur Fehlersuche bei den Menschen
      2. Unterscheidungen zwischen Datensatz, Modell und Modelllauf
      3. Daten zu Modellen bringen
    7. Datenfluss
      1. Überblick über Streaming
      2. Datenorganisation
      3. Pipelines und Prozesse
    8. Direkte Kommentierung
      1. Integration von Geschäftsprozessen
      2. Attribute
      3. Tiefe der Beschriftung
      4. Bestehende Daten überwachen
      5. Interaktive Automatisierungen
      6. Beispiel: Semantische Segmentierung Auto Bordering
      7. Video
    9. Zusammenfassung
  7. 6. Theorien, Konzepte und Wartung
    1. Einführung
    2. Theorien
      1. Ein System ist nur so nützlich wie sein Schema
      2. Wer die Daten überwacht, ist wichtig
      3. Bewusst gewählte Daten sind am besten
      4. Mit historischen Daten arbeiten
      5. Trainingsdaten sind wie Code
      6. Oberflächliche Annahmen zur Nutzung deiner Trainingsdaten
      7. Menschliche Aufsicht ist anders als klassische Datensätze
    3. Allgemeine Konzepte
      1. Relevanz der Daten
      2. Bedarf an qualitativen und quantitativen Evaluierungen
      3. Wiederholungen
      4. Prioritäten setzen: Was man kennzeichnen sollte
      5. Die Beziehung von Transfer Learning zu Datensätzen (Feinabstimmung)
      6. Pro-Probe-Entscheidungen
      7. Ethische Erwägungen und Datenschutz
      8. Bias
      9. Vorurteile sind schwer zu überwinden
      10. Metadaten
      11. Verhindern des Verlusts von Metadaten
      12. Zug/Val/Test ist die Kirsche auf dem Sahnehäubchen
    4. Mustererstellung
      1. Einfaches Schema für ein Erdbeerpflücksystem
      2. Geometrische Darstellungen
      3. Binäre Klassifizierung
      4. Lass uns unser erstes Set manuell erstellen
      5. Höhere Einstufung
      6. Wo ist die Ampel?
    5. Wartung
      1. Aktionen
      2. Netto-Lift
      3. Stufen der Systemreife des Trainingsdatenbetriebs
      4. Angewandte Sets vs. Forschungssets
    6. Ausbildung Datenmanagement
      1. Qualität
      2. Erledigte Aufgaben
      3. Frische
      4. Pflege der Set-Metadaten
      5. Aufgabenmanagement
    7. Zusammenfassung
  8. 7. KI-Transformation und Anwendungsfälle
    1. Einführung
    2. KI-Transformation
      1. Deine alltägliche Arbeit als Annotation sehen
      2. Die kreative Revolution der datenzentrierten KI
      3. Du kannst neue Daten erstellen
      4. Du kannst ändern, welche Daten du sammelst
      5. Du kannst die Bedeutung der Daten ändern
      6. Du kannst schaffen!
      7. Think Step Funktionsverbesserung für Großprojekte
      8. Baue deine KI-Daten auf, um deine KI-Gegenwart und Zukunft zu sichern
    3. Ernenne eine Führungskraft: Der Direktor für KI-Daten
      1. Neue Erwartungen der Menschen an die Zukunft der KI
      2. Manchmal Vorschläge und Korrekturen, manchmal Ersetzung
      3. Vorgelagerte Erzeuger und nachgelagerte Verbraucher
      4. Spektrum der Ausbildung Daten Team Engagement
      5. Engagierte ProduzentInnen und andere Teams
      6. ProduzentInnen aus anderen Teams organisieren
    4. Use Case Discovery
      1. Rubriken für gute Anwendungsfälle
      2. Bewertung eines Anwendungsfalls anhand der Rubriken
      3. Konzeptionelle Auswirkungen von Use Cases
    5. Das neue "Crowd Sourcing": Deine eigenen Experten
      1. Die wichtigsten Hebel für den ROI von Trainingsdaten
      2. Was die kommentierten Daten repräsentieren
      3. Kompromisse bei der Kontrolle deiner eigenen Ausbildungsdaten
      4. Der Bedarf an Hardware
      5. Häufige Fehler bei Projekten
    6. Moderne Tools für Ausbildungsdaten
      1. Denk an die Lernkurve, nicht an Perfektion
      2. Neue Schulungen und Kenntnisse sind erforderlich
      3. Wie Unternehmen Daten produzieren und verbrauchen
      4. Zu vermeidende Fallen: Vorzeitige Optimierung von Trainingsdaten
      5. Keine Silberkugeln
      6. Kultur der Ausbildungsdaten
      7. Neue Konstruktionsprinzipien
    7. Zusammenfassung
  9. 8. Automatisierung
    1. Einführung
    2. Erste Schritte
      1. Motivation: Wann sollte man diese Methoden anwenden?
      2. Prüfe, auf welchen Teil des Schemas eine Methode ausgelegt ist
      3. Was benutzen die Menschen tatsächlich?
      4. Was für Ergebnisse kann ich erwarten?
      5. Häufige Verwirrungen
      6. Optimierungen der Benutzeroberfläche
      7. Risiken
    3. Kompromisse
      1. Art der Automatisierungen
      2. Einrichtungskosten
      3. Wie man ein gutes Benchmarking durchführt
      4. Wie man die Automatisierung in Bezug auf das Problem auslegt
      5. Berichtigung Zeit
      6. Fachexperten
      7. Überlege, wie die Automatisierungen zusammenpassen
    4. Pre-Labeling
      1. Standard-Vorkennzeichnung
      2. Nur einen Teil der Daten voretikettieren
    5. Interaktive Automatisierung von Kommentaren
      1. Eigenes schaffen
      2. Hinweise zur technischen Einrichtung
      3. Was ist ein Beobachter? (Beobachter-Muster)
      4. Wie man einen Beobachter benutzt
      5. Interaktives Erfassen einer Region von Interesse
      6. Interaktives Zeichnen von Box zu Polygon mit GrabCut
      7. Beispiel für die Vorhersage eines Vollbildmodells
      8. Beispiel: Personendetektion für verschiedene Attribute
    6. Automatisierung der Qualitätssicherung
      1. Das Modell zum Debuggen der Menschen verwenden
      2. Beispiel für eine automatisierte Checkliste
      3. Bereichsspezifische Angemessenheitsprüfungen
    7. Datenentdeckung: Was man kennzeichnen sollte
      1. Menschliche Erkundung
      2. Rohdaten-Exploration
      3. Metadaten-Erkundung
      4. Hinzufügen von Metadaten auf Basis von Pre-Labeling
    8. Augmentation
      1. Bessere Modelle sind besser als bessere Augmentation
      2. Aufstocken oder nicht aufstocken
    9. Simulation und synthetische Daten
      1. Simulationen müssen noch von Menschen überprüft werden
    10. Medienspezifisch
      1. Welche Methoden funktionieren mit welchen Medien?
      2. Überlegungen
      3. Medienspezifische Forschung
    11. Bereichsspezifisch
      1. Geometriebasierte Beschriftung
      2. Heuristik-basierte Kennzeichnung
    12. Zusammenfassung
  10. 9. Fallstudien und Geschichten
    1. Einführung
    2. Industrie
      1. Ein Sicherheits-Startup nimmt Trainingsdaten-Tools an
      2. Qualitätssicherung bei einem groß angelegten selbstfahrenden Projekt
      3. Big-Tech-Herausforderungen
      4. Tech-Startup-Lektionen für Versicherungen
      5. Geschichten
    3. Eine akademische Herangehensweise an Ausbildungsdaten
      1. Kaggle TSA Wettbewerb
    4. Zusammenfassung
  11. Index
  12. Über den Autor

Product information

  • Title: Trainingsdaten für maschinelles Lernen
  • Author(s): Anthony Sarkis
  • Release date: October 2024
  • Publisher(s): O'Reilly Media, Inc.
  • ISBN: 9798341604452