Anhang. Überlegungen zu sensiblen Daten in Machine Learning-Datensätzen

Der Inhalt dieses Anhangs, der vom Autor und Brad Svee verfasst wurde, wurde als Lösungspapier auf der Google Cloud Platform Dokumentations-Website veröffentlicht.

Wenn du ein ML-Programm entwickelst, ist es wichtig, den Datenzugriff innerhalb deines Unternehmens gegen die Auswirkungen dieses Zugriffs auf die Sicherheit abzuwägen. Du möchtest, dass die Erkenntnisse aus dem Rohdatensatz das ML-Training leiten, auch wenn der Zugang zu sensiblen Daten eingeschränkt ist. Um beide Ziele zu erreichen, ist es sinnvoll, ML-Systeme auf einer Teilmenge der Rohdaten zu trainieren oder auf dem gesamten Datensatz nach teilweiser Anwendung einer beliebigen Anzahl von Aggregations- oder Verschleierungstechniken.

Du möchtest zum Beispiel, dass deine Dateningenieure ein ML-Modell trainieren, um Kundenfeedback zu einem Produkt zu bewerten, aber du möchtest nicht, dass sie wissen, wer das Feedback abgegeben hat. Informationen wie die Lieferadresse und die Kaufhistorie sind jedoch für das Training des ML-Modells von entscheidender Bedeutung. Nachdem die Daten den Dateningenieuren zur Verfügung gestellt wurden, müssen sie sie für die Datenexploration abfragen, daher ist es wichtig, dass du deine sensiblen Datenfelder schützt, bevor du sie zur Verfügung stellst. Diese Art von Dilemma tritt auch bei ML-Modellen auf, die mit Empfehlungsmaschinen arbeiten. Um ein Modell zu erstellen, das benutzerspezifische Ergebnisse liefert, brauchst ...

Get Data Science auf der Google Cloud Platform, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.