book

Trainingsdaten für maschinelles Lernen

by Anthony Sarkis

October 2024

Intermediate to advanced

332 pages

10h 25m

German

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Wer sollte dieses Buch lesen?Für technische Fachkräfte und IngenieureFür den Manager und DirektorFür den Fachexperten und den Spezialisten für DatenkommentareFür den DatenwissenschaftlerWarum ich dieses Buch geschrieben habeWie dieses Buch organisiert istThemenDie Grundlagen und erste SchritteKonzepte und TheorienAlles zusammenfügenIn diesem Buch verwendete KonventionenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
Trainingsdaten IntentionenWas kannst du mit Trainingsdaten machen?Worum geht es bei den Ausbildungsdaten am meisten?Ausbildung Daten MöglichkeitenBusiness TransformationEffizienz der TrainingsdatenWerkzeugbau-KenntnisseMöglichkeiten zur ProzessverbesserungWarum Ausbildungsdaten wichtig sindML-Anwendungen werden zum MainstreamDie Grundlage für erfolgreiche KIAusbildungsdaten sind hier, um zu bleibenTrainingsdaten steuern das ML-ProgrammNeue Arten von NutzernTrainingsdaten in freier WildbahnWas macht es schwierig, Daten zu trainieren?Die Kunst der Überwachung von MaschinenEine neue Sache für die DatenwissenschaftML Programm ÖkosystemDatenzentriertes maschinelles LernenVersäumnisseEntwicklungsgeschichte wirkt sich auch auf die Trainingsdaten ausWas Trainingsdaten nicht sindGenerative KIMenschliche Ausrichtung ist menschliche AufsichtZusammenfassung
EinführungAufstehen und loslegenInstallationAufgaben einrichtenAnnotator-EinstellungDaten einrichtenWorkflow-EinrichtungDatenkatalog einrichtenErste VerwendungOptimierungTools ÜbersichtTrainingsdaten für maschinelles LernenWachsende Auswahl an WerkzeugenMenschen, Prozesse und DatenEingebettete BeaufsichtigungMensch-Computer-ÜberwachungTrennung der EndkonzerneNormenViele PersonasEin Paradigma zur Bereitstellung von Software für maschinelles LernenKompromisseKostenInstallierte Software versus Software as a ServiceEntwicklungssystemSkalaInstallationsoptionenSchnittstellen für AnmerkungenIntegration modellierenMehrbenutzer- versus EinzelbenutzersystemeIntegrationenUmfangVersteckte AnnahmenSicherheitOpen Source und Closed SourceGeschichteOpen-Source-StandardsDen Bedarf an speziellen Werkzeugen erkennenZusammenfassung
Schema Deep Dive EinführungLabels und Attribute - was ist das?Was ist uns wichtig?Einführung in die EtikettenAttribute EinführungKomplexität der Attribute übersteigt die räumliche KomplexitätTechnischer ÜberblickRäumliche Repräsentation - wo ist sie?Raumtypen zur Verhinderung sozialer Voreingenommenheit nutzenKompromisse mit TypenComputer Vision Spatial Type BeispieleBeziehungen, Sequenzen, Zeitreihen: Wann ist es soweit?Sequenzen und BeziehungenWennLeitfäden und AnleitungenUrteilsanrufeBeziehung zwischen den Aufgaben des maschinellen Lernens und den TrainingsdatenSemantische SegmentierungBildklassifizierung (Tags)Objekt-ErkennungPosen-SchätzungBeziehung der Aufgaben zu den TrainingsdatentypenAllgemeine KonzepteAuffrischung des InstanzkonzeptsDaten im Laufe der Zeit aktualisierenDie Grenze zwischen Modellierung und TrainingsdatenRohdaten-KonzepteZusammenfassung
EinführungWer will die Daten?Ein Spiel mit dem TelefonEin tolles System planenNaive und Trainingsdaten-zentrierte AnsätzeSpeicherung von RohdatenNach Referenz oder nach WertDedizierte Schulungsdaten-Tools von der Stange auf deiner eigenen HardwareSpeicherung von Daten: Wo bleiben die Daten?Externe ReferenzverbindungRohmedien (BLOB)-Typ spezifischFormatierung und KartierungBenutzerdefinierte Typen (zusammengesetzte Dateien)Definieren von DataMapsAssistenten einnehmenOrganisieren von Daten und nützliche SpeicherungFernspeicherungVersionierungDatenzugangSpeicherung, Ingestion, Export und Zugriff auseinanderhaltenDateibasierte ExporteStreaming-DatenAbfragen EinleitungIntegration in das ÖkosystemSicherheitZugriffskontrolleIdentität und BerechtigungBeispiel für die Einstellung von BerechtigungenSignierte URLsPersönlich identifizierbare InformationenPre-LabelingDaten aktualisierenZusammenfassung
EinführungKleber zwischen Technik und MenschenWarum werden menschliche Aufgaben benötigt?Partnerschaften mit Nicht-Software-Nutzern auf neue Art und WeiseErste Schritte mit menschlichen AufgabenGrundlagenDas Durchhaltevermögen von SchemasBenutzer-RollenAusbildungGold Standard AusbildungKonzepte der AufgabenzuweisungMusst du die Benutzeroberfläche anpassen?Wie lange wird der durchschnittliche Kommentator sie benutzen?Aufgaben und ProjektstrukturQualitätssicherungAnnotator TrustKommentatoren sind PartnerHäufige Ursachen für Fehler in den TrainingsdatenAufgabenüberprüfungsschleifenAnalytikBeispiele für AnnotationsmetrikenDatenexplorationModelleVerwendung des Modells zur Fehlersuche bei den MenschenUnterscheidungen zwischen Datensatz, Modell und ModelllaufDaten zu Modellen bringenDatenflussÜberblick über StreamingDatenorganisationPipelines und ProzesseDirekte KommentierungIntegration von GeschäftsprozessenAttributeTiefe der BeschriftungBestehende Daten überwachenInteraktive AutomatisierungenBeispiel: Semantische Segmentierung Auto BorderingVideoZusammenfassung
EinführungTheorienEin System ist nur so nützlich wie sein SchemaWer die Daten überwacht, ist wichtigBewusst gewählte Daten sind am bestenMit historischen Daten arbeitenTrainingsdaten sind wie CodeOberflächliche Annahmen zur Nutzung deiner TrainingsdatenMenschliche Aufsicht ist anders als klassische DatensätzeAllgemeine KonzepteRelevanz der DatenBedarf an qualitativen und quantitativen EvaluierungenWiederholungenPrioritäten setzen: Was man kennzeichnen sollteDie Beziehung von Transfer Learning zu Datensätzen (Feinabstimmung)Pro-Probe-EntscheidungenEthische Erwägungen und DatenschutzBiasVorurteile sind schwer zu überwindenMetadatenVerhindern des Verlusts von MetadatenZug/Val/Test ist die Kirsche auf dem SahnehäubchenMustererstellungEinfaches Schema für ein ErdbeerpflücksystemGeometrische DarstellungenBinäre KlassifizierungLass uns unser erstes Set manuell erstellenHöhere EinstufungWo ist die Ampel?WartungAktionenNetto-LiftStufen der Systemreife des TrainingsdatenbetriebsAngewandte Sets vs. ForschungssetsAusbildung DatenmanagementQualitätErledigte AufgabenFrischePflege der Set-MetadatenAufgabenmanagementZusammenfassung
EinführungKI-TransformationDeine alltägliche Arbeit als Annotation sehenDie kreative Revolution der datenzentrierten KIDu kannst neue Daten erstellenDu kannst ändern, welche Daten du sammelstDu kannst die Bedeutung der Daten ändernDu kannst schaffen!Think Step Funktionsverbesserung für GroßprojekteBaue deine KI-Daten auf, um deine KI-Gegenwart und Zukunft zu sichernErnenne eine Führungskraft: Der Direktor für KI-DatenNeue Erwartungen der Menschen an die Zukunft der KIManchmal Vorschläge und Korrekturen, manchmal ErsetzungVorgelagerte Erzeuger und nachgelagerte VerbraucherSpektrum der Ausbildung Daten Team EngagementEngagierte ProduzentInnen und andere TeamsProduzentInnen aus anderen Teams organisierenUse Case DiscoveryRubriken für gute AnwendungsfälleBewertung eines Anwendungsfalls anhand der RubrikenKonzeptionelle Auswirkungen von Use CasesDas neue "Crowd Sourcing": Deine eigenen ExpertenDie wichtigsten Hebel für den ROI von TrainingsdatenWas die kommentierten Daten repräsentierenKompromisse bei der Kontrolle deiner eigenen AusbildungsdatenDer Bedarf an HardwareHäufige Fehler bei ProjektenModerne Tools für AusbildungsdatenDenk an die Lernkurve, nicht an PerfektionNeue Schulungen und Kenntnisse sind erforderlichWie Unternehmen Daten produzieren und verbrauchenZu vermeidende Fallen: Vorzeitige Optimierung von TrainingsdatenKeine SilberkugelnKultur der AusbildungsdatenNeue KonstruktionsprinzipienZusammenfassung
EinführungErste SchritteMotivation: Wann sollte man diese Methoden anwenden?Prüfe, auf welchen Teil des Schemas eine Methode ausgelegt istWas benutzen die Menschen tatsächlich?Was für Ergebnisse kann ich erwarten?Häufige VerwirrungenOptimierungen der BenutzeroberflächeRisikenKompromisseArt der AutomatisierungenEinrichtungskostenWie man ein gutes Benchmarking durchführtWie man die Automatisierung in Bezug auf das Problem auslegtBerichtigung ZeitFachexpertenÜberlege, wie die Automatisierungen zusammenpassenPre-LabelingStandard-VorkennzeichnungNur einen Teil der Daten voretikettierenInteraktive Automatisierung von KommentarenEigenes schaffenHinweise zur technischen EinrichtungWas ist ein Beobachter? (Beobachter-Muster)Wie man einen Beobachter benutztInteraktives Erfassen einer Region von InteresseInteraktives Zeichnen von Box zu Polygon mit GrabCutBeispiel für die Vorhersage eines VollbildmodellsBeispiel: Personendetektion für verschiedene AttributeAutomatisierung der QualitätssicherungDas Modell zum Debuggen der Menschen verwendenBeispiel für eine automatisierte ChecklisteBereichsspezifische AngemessenheitsprüfungenDatenentdeckung: Was man kennzeichnen sollteMenschliche ErkundungRohdaten-ExplorationMetadaten-ErkundungHinzufügen von Metadaten auf Basis von Pre-LabelingAugmentationBessere Modelle sind besser als bessere AugmentationAufstocken oder nicht aufstockenSimulation und synthetische DatenSimulationen müssen noch von Menschen überprüft werdenMedienspezifischWelche Methoden funktionieren mit welchen Medien?ÜberlegungenMedienspezifische ForschungBereichsspezifischGeometriebasierte BeschriftungHeuristik-basierte KennzeichnungZusammenfassung
EinführungIndustrieEin Sicherheits-Startup nimmt Trainingsdaten-Tools anQualitätssicherung bei einem groß angelegten selbstfahrenden ProjektBig-Tech-HerausforderungenTech-Startup-Lektionen für VersicherungenGeschichtenEine akademische Herangehensweise an AusbildungsdatenKaggle TSA WettbewerbZusammenfassung

Content preview from Trainingsdaten für maschinelles Lernen

Kapitel 1. Trainingsdaten Einführung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Daten sind überall um uns herum - Videos, Bilder, Texte, Dokumente, aber auch geografische und multidimensionale Daten und vieles mehr. Doch in ihrer Rohform sind diese Daten für das überwachte maschinelle Lernen (ML) und künstliche Intelligenz (KI) nur von geringem Nutzen. Wie können wir diese Daten nutzen? Wie können wir unsere Intelligenz aufzeichnen, damit sie durch ML und KI reproduziert werden kann? Die Antwort liegt in der Kunst des Datentrainings - der Disziplin, Rohdaten nutzbar zu machen.

In diesem Buch wirst du lernen:

Ganz neue Trainingsdaten (KI-Daten) Konzepte
Die alltägliche Praxis der Datenschulung
Wie man die Effizienz der Trainingsdaten verbessert
Wie du dein Team so umgestaltest, dass es stärker auf KI/ML ausgerichtet ist
Fallstudien aus der Praxis

Bevor wir einige dieser Konzepte behandeln können, müssen wir zunächst die Grundlagen verstehen, die wir in diesem Kapitel auspacken werden.

Bei der Datenschulung geht es darum, Rohdaten zu formen, umzugestalten und in neue Formen zu verwandeln: aus Rohdaten eine neue Bedeutung zu schaffen, um Probleme zu lösen. Dieser Prozess des Erstellens und Zerstörens findet an der Schnittstelle von Fachwissen, Geschäftsanforderungen, und technischen Anforderungen statt. Es handelt sich um eine Reihe von Aktivitäten, die mehrere Bereiche betreffen ...