Kapitel 4. Umgang mit Verzerrungen beim maschinellen Lernen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Beim Umgang mit den schädlichen Auswirkungen von Verzerrungen in maschinellen Lernsystemen geht es um viel mehr als um Daten, Code und Modelle. Die durchschnittliche Leistungsqualität unseres Modells - die wichtigste Methode, mit der Datenwissenschaftler/innen die Güte eines Modells bewerten sollen - hat wenig damit zu tun, ob es in der realen Welt zu Verzerrungsschäden führt. Auch ein perfektes Modell kann zu Verzerrungen führen. Schlimmer noch: Alle ML-Systeme weisen ein gewisses Maß an Verzerrung auf, Verzerrungsvorfälle scheinen zu den häufigsten KI-Vorfällen zu gehören (siehe Abbildung 4-1), Verzerrungen in Geschäftsprozessen ziehen häufig rechtliche Konsequenzen nach sich, und Verzerrungen in ML-Modellen schaden Menschen in der realen Welt.

mlha 0401
Abbildung 4-1. Die Häufigkeit der verschiedenen Arten von AI-Vorfällen auf der Grundlage einer qualitativen Analyse von 169 öffentlich gemeldeten Vorfällen zwischen 1988 und dem 1. Februar 2021(Abbildung mit freundlicher Genehmigung von BNH.AI)

In diesem Kapitel werden wir Ansätze zur Erkennung und Abschwächung von Verzerrungen auf soziotechnische Art und Weise vorstellen, zumindest so gut es uns als praktizierende Techniker möglich ist. Das bedeutet, dass wir versuchen werden zu verstehen, wie die Voreingenommenheit von ML-Systemen in ihrem breiteren gesellschaftlichen Kontext existiert. Und warum? Alle ML-Systeme sind soziotechnisch. Wir wissen, dass das zunächst schwer zu glauben sein mag, also lass uns ein Beispiel durchdenken. Nehmen wir ein Modell zur Vorhersage von Sensorausfällen für eine Internet of Things (IoT)-Anwendung, das nur Informationen von anderen automatischen Sensoren verwendet. Dieses Modell wäre wahrscheinlich von Menschen trainiert worden, oder ein Mensch hätte entschieden, dass ein Modell benötigt wird. Außerdem könnten die Ergebnisse dieses Modells als Grundlage für die Bestellung neuer Sensoren dienen, was sich auf die Beschäftigung von Mitarbeitern in der Produktionsstätte oder von Personen, die fehlschlagende Sensoren reparieren oder ersetzen, auswirken könnte. Wenn unser Modell zur vorbeugenden Instandhaltung fehlschlägt, könnten Menschen, die mit dem System arbeiten, zu Schaden kommen. Bei jedem Beispiel, das uns einfällt und das rein technisch anmutet, wird deutlich, dass Entscheidungstechnologien wie ML nicht ohne die Interaktion mit dem Menschen auskommen.

Das bedeutet, dass es keine rein technische Lösung für Verzerrungen in ML-Systemen gibt. Wenn du direkt in den Code für die Prüfung und Beseitigung von Verzerrungen einsteigen willst, lies Kapitel 10. Davon raten wir jedoch ab. Den Leserinnen und Lesern entgehen dadurch viele wichtige Informationen darüber, was Voreingenommenheit ist und wie man auf produktive Weise darüber nachdenken kann. In diesem Kapitel wird zunächst definiert, was Voreingenommenheit ist, und es wird erläutert, wie wir unsere eigenen kognitiven Voreingenommenheiten erkennen können, die sich auf die von uns entwickelten ML-Systeme oder die von unseren Nutzern interpretierten Ergebnisse auswirken können. Das Kapitel gibt dann einen Überblick darüber, wer bei KI-Voreingenommenheit geschädigt wird und welche Art von Schaden sie erleiden. Danach werden wir uns mit Methoden befassen, mit denen wir ML-Systeme auf Voreingenommenheit testen können, und diskutieren, wie wir Voreingenommenheit mit technischen und soziotechnischen Ansätzen abmildern können. Das Kapitel schließt mit einer Falldiskussion über den Algorithmus von Twitter, der Bilder einfängt.

Hinweis

Während einige Aspekte des Bias-Managements auf die spezifische Architektur eines Modells abgestimmt werden müssen, ist ein großer Teil des Bias-Managements nicht modellspezifisch. Viele der Ideen in diesem Kapitel, insbesondere die aus den NIST SP1270 Bias Guidance und dem Twitter Bias Bounty, können auf eine Vielzahl von anspruchsvollen KI-Systemen wie ChatGPT oder RoBERTa-Sprachmodelle angewendet werden. Wenn du dir ein Bild von der Praxis machen willst, schau dir die Prüfung von RoBERTa durch IQT Labs an.

ISO- und NIST-Definitionen für Bias

Die Internationale Organisation für Normung (ISO) definiert in "Statistics-Vocabulary and Symbols-Part 1" Verzerrung als "das Ausmaß, in dem ein Referenzwert von der Wahrheit abweicht" . Dies ist ein sehr allgemeiner Begriff für Verzerrung, aber Verzerrung ist ein komplexes und heterogenes Phänomen. Dennoch handelt es sich in allen Fällen um eine systematische Abweichung von der Wahrheit. Bei der Entscheidungsfindung nimmt die Voreingenommenheit viele Formen an. Es ist inhaltlich und ethisch falsch, Menschen aufgrund des Melaninanteils in ihrer Haut die Einstellung zu verweigern. Es ist sachlich falsch, eine Idee für richtig zu halten, nur weil sie das Erste ist, was einem in den Sinn kommt. Und es ist inhaltlich und ethisch falsch, ein ML-Modell auf unvollständigen und nicht repräsentativen Daten zu trainieren. In einer aktuellen Arbeit des NIST, "Towards a Standard for Identifying and Managing Bias in Artificial Intelligence" (SP1270), wird das Thema Voreingenommenheit in drei Hauptkategorien eingeteilt, die mit diesen Beispielen übereinstimmen: systemische, statistische und menschliche Voreingenommenheit.

Systemische Verzerrungen

Wenn wir von Voreingenommenheit in ML sprechen, meinen wir oft systemische Voreingenommenheit. Dabei handelt es sich um historische, soziale und institutionelle Vorurteile, die leider so tief in unser Leben eingedrungen sind, dass sie standardmäßig in ML-Trainingsdaten und Designentscheidungen auftauchen. Eine häufige Folge der systemischen Voreingenommenheit in ML-Modellen ist die Einbeziehung demografischer Informationen in die Systemmechanismen. Dies kann offenkundig und explizit geschehen, z. B. wenn Sprachmodelle (LMs) so umfunktioniert werden, dass sie schädliche und beleidigende Inhalte erzeugen, die auf bestimmte demografische Gruppen abzielen. In der Praxis werden demografische Informationen jedoch eher unbeabsichtigt und implizit in Entscheidungsprozesse einbezogen, was zu unterschiedlichen Ergebnisquoten oder Ergebnisprävalenzen bei verschiedenen demografischen Gruppen führt, z. B. wenn mehr männliche Lebensläufe mit besser bezahlten Stellenbeschreibungen abgeglichen werden oder wenn bestimmte Nutzergruppen (z. B. Menschen mit körperlichen Einschränkungen) von der Interaktion mit einem System ausgeschlossen werden.

Statistische Verzerrung

Statistische Verzerrungen können als Fehler betrachtet werden, die Menschen bei der Spezifikation von ML-Systemen machen, oder als auftauchende Phänomene wie die Konzeptabweichung, die ML-Modelle beeinträchtigen und von Menschen nur schwer abgemildert werden können. Andere häufige Arten von statistischen Verzerrungen sind Vorhersagen, die auf nicht repräsentativen Trainingsdaten basieren, oder Fehlerfortpflanzung und Rückkopplungsschleifen. Ein möglicher Indikator für statistische Verzerrungen in ML-Modellen ist die unterschiedliche Qualität der Leistung in verschiedenen Datenbereichen, z. B. bei demografischen Gruppen. Die unterschiedliche Gültigkeit eines ML-Modells ist eine besondere Art von Verzerrung, die sich von den unterschiedlichen Ergebnisraten oder der Ergebnisprävalenz unterscheidet, die für menschliche Verzerrungen beschrieben werden. Tatsächlich gibt es ein dokumentiertes Spannungsverhältnis zwischen derMaximierung derModellleistung innerhalb demografischer Gruppen und der Aufrechterhaltung der Gleichheit der positiven Ergebnisraten. Statistische Verzerrungen können auch zu schwerwiegenden KI-Vorfällen führen, z. B. wenn die Konzeptabweichung bei neuen Daten dazu führt, dass die Entscheidungen eines Systems eher falsch als richtig sind, oder wenn Rückkopplungsschleifen oder Fehlerfortpflanzung zu immer größeren Mengen an schlechten Vorhersagen innerhalb einer kurzen Zeitspanne führen.

Menschliche Vorurteile und die Kultur der Datenwissenschaft

Es gibt eine Reihe menschlicher oder kognitiver Voreingenommenheiten, die sowohl bei den Einzelpersonen als auch bei den Teams, die ML-Systeme entwickeln, implementieren und warten, zum Tragen kommen können. Eine vollständige Liste menschlicher Voreingenommenheit findest du im NIST SP1270 Leitfaden. Im Folgenden sind die menschlichen Voreingenommenheiten aufgeführt, die unserer Erfahrung nach sowohl bei Datenwissenschaftlern als auch bei Nutzern von ML-Systemen am häufigsten auftreten:

Verankerung

Wenn ein bestimmter Referenzpunkt oder Anker einen unangemessenen Einfluss auf die Entscheidungen der Menschen hat. Das ist so, als wenn ein Benchmark für ein hochmodernes Deep Learning-Modell lange Zeit bei 0,4 AUC liegt und dann jemand kommt und einen Wert von 0,403 AUC erzielt. Wir sollten nicht denken, dass das wichtig ist, aber wir sind auf 0,4 fixiert.

Verfügbarkeitsheuristik

Menschen neigen dazu, bei Entscheidungsprozessen das zu übergewichten, was ihnen leicht oder schnell in den Sinn kommt. Mit anderen Worten: Wir verwechseln oft leicht zu erinnern mit richtig.

Konfirmationsverzerrung

Eine kognitive Verzerrung, bei der Menschen dazu neigen, Informationen zu bevorzugen, die mit ihren bestehenden Überzeugungen übereinstimmen oder sie bestätigen. Confirmation Bias ist ein großes Problem in ML-Systemen, wenn wir uns selbst vorgaukeln, dass unsere ML-Modelle besser funktionieren als sie es tatsächlich tun.

Dunning-Kruger-Effekt

Die Tendenz von Menschen mit geringen Fähigkeiten in einem bestimmten Bereich oder einer Aufgabe, ihre selbst eingeschätzten Fähigkeiten zu überschätzen. Das passiert, wenn wir uns erlauben zu denken, dass wir Experten in etwas sind, nur weil wir import sklearn und model.fit() können.

Einseitigkeit der Finanzierung

Die Tendenz, Ergebnisse hervorzuheben oder zu fördern, die den Geldgeber oder den finanziellen Unterstützer eines Projekts unterstützen oder zufriedenstellen. Wir tun das, was unsere Chefs glücklich macht, was unsere Investoren glücklich macht und was unsere eigenen Gehälter erhöht. Echte Wissenschaft braucht Schutzmechanismen, die verhindern, dass ihr Fortschritt durch einseitige finanzielle Interessen beeinträchtigt wird.

Gruppendenken

Wenn Menschen in einer Gruppe dazu neigen, nicht optimale Entscheidungen zu treffen, weil sie sich der Gruppe anpassen wollen oder befürchten, nicht mit der Gruppe übereinzustimmen. Es ist schwer, unserem Team zu widersprechen, selbst wenn wir überzeugt sind, dass wir Recht haben.

McNamara-Täuschung

Der Glaube, dass Entscheidungen ausschließlich auf der Grundlage quantitativer Informationen getroffen werden sollten, auf Kosten von qualitativen Informationen oder Datenpunkten, die nicht so leicht zu messen sind.

Techno-Chauvinismus

Der Glaube, dass Technologie immer die Lösung ist.

All diese Vorurteile können zu unangemessenen und zu optimistischen Entscheidungen bei der Planung führen, die wiederum zu einer schlechten Leistung führen, wenn ein System eingesetzt wird, und schließlich zu Schäden für die Nutzer oder Betreiber des Systems. Wir werden uns in Kürze mit den Schäden befassen, die entstehen können, und mit der Frage, was man gegen diese Probleme tun kann. Jetzt wollen wir erst einmal auf ein vernünftiges Mittel hinweisen, das auch ein Thema dieses Kapitels ist. Wir können Voreingenommenheit nur dann richtig behandeln, wenn wir ein Problem aus vielen verschiedenen Perspektiven betrachten. Schritt 0 im Kampf gegen Voreingenommenheit in ML ist es, eine vielfältige Gruppe von Interessengruppen im Raum (oder per Videoanruf) zu haben, wenn wichtige Entscheidungen über das System getroffen werden. Um die blinden Flecken zu vermeiden, durch die voreingenommene ML-Modelle Schaden anrichten können, brauchen wir viele verschiedene Perspektiven, um Entscheidungen über die Gestaltung, Implementierung und Wartung des Systems zu treffen. Ja, wir sprechen davon, Beiträge aus verschiedenen demografischen Perspektiven zu sammeln, auch von Menschen mit Behinderungen. Wir sprechen auch über den Bildungshintergrund von Sozialwissenschaftlern, Juristen und Fachleuten.

Bedenke auch die digitale Kluft. Ein schockierender Prozentsatz der Bevölkerung hat immer noch keinen Zugang zu einer guten Internetverbindung, neuen Computern und Informationen wie diesem Buch. Wenn wir Schlussfolgerungen über unsere Nutzer/innen ziehen, müssen wir uns daran erinnern, dass es einen großen Teil der Bevölkerung gibt, der nicht in die Nutzerstatistiken aufgenommen wird. Die Nichtberücksichtigung potenzieller Nutzerinnen und Nutzer ist eine große Quelle für Verzerrungen und Schäden beim Systemdesign, beim Testen von Verzerrungen und an anderen entscheidenden Stellen im ML-Lebenszyklus. Um in der ML-Branche erfolgreich zu sein, braucht es auch heute noch Menschen, die das reale Problem, das wir zu lösen versuchen, genau kennen und wissen, welche potenziellen Nutzerinnen und Nutzer in unserem Design, unseren Daten und Tests nicht berücksichtigt werden .

Wer neigt dazu, von ML-Systemen beeinflusst zu werden?

Jede Bevölkerungsgruppe kann bei der Interaktion mit einem ML-System Voreingenommenheit und damit verbundene Nachteile erfahren, aber die Geschichte lehrt uns, dass bestimmte Gruppen mit größerer Wahrscheinlichkeit Voreingenommenheit und Nachteile erfahren. Es liegt in der Tat in der Natur des überwachten Lernens - das nur aus vergangenen Daten lernt und Muster wiederholt -, dass ältere Menschen, Menschen mit Behinderungen, Immigranten, People of Color, Frauen und geschlechtsuntypische Personen häufiger von ML-Systemen benachteiligt werden. Anders ausgedrückt: Wer in der realen oder digitalen Welt diskriminiert wird, wird dies wahrscheinlich auch im Umgang mit ML-Systemen erfahren, weil all diese Diskriminierung in Daten aufgezeichnet und zum Trainieren von ML-Modellen verwendet wurde. Die in diesem Abschnitt aufgeführten Gruppen sind oft durch verschiedene Gesetze geschützt, aber nicht immer. Sie sind oft, aber nicht immer, die Vergleichsgruppe bei Voreingenommenheitstests für die statistische Gleichheit von Ergebnissen zwischen zwei demografischen Gruppen.

Viele Menschen gehören mehreren geschützten oder marginalisierten Gruppen an. Das wichtige Konzept der Intersektionalität besagt, dass sich der gesellschaftliche Schaden auf diejenigen konzentriert, die mehreren geschützten Gruppen angehören, und dass Voreingenommenheit nicht nur entlang einzelner Gruppendimensionen analysiert werden sollte, um marginalisierte Gruppen zu betreffen. KI-Ethikforscher haben zum Beispiel kürzlich gezeigt, dass einige kommerziell erhältliche Gesichtserkennungssysteme erhebliche Unterschiede in der Genauigkeit der Geschlechterklassifizierung aufweisen, wobei dunkelhäutige Frauen am häufigsten falsch klassifiziert werden. Bevor wir diese Gruppen definieren, ist es wichtig, an den McNamara-Fehlschluss zu denken. Ist es überhaupt richtig, nuancierte Menschen in diese Art von stumpfer Taxonomie einzuordnen? Wahrscheinlich nicht, und es ist wahrscheinlich, dass die Zuordnung zu diesen vereinfachten Gruppen, die oft vorgenommen wird, weil sich solche Kategorien leicht als binäre Markierungsspalten in einer Datenbank darstellen lassen, auch eine Quelle von Verzerrungen und potenziellen Schäden ist. Beim Umgang mit Voreingenommenheit in ML-Systemen gibt es immer viele Vorbehalte. Deshalb gehen wir bei der Definition vereinfachter demografischer Gruppen, die tendenziell stärker diskriminiert werden und die bei traditionellen Voreingenommenheitstests oft als Vergleichsgruppen verwendet werden, vorsichtig vor:

Alter

Ältere Menschen, in der Regel die über 40-Jährigen, werden bei Online-Inhalten eher diskriminiert. Die Altersgrenze könnte bei traditionelleren Anwendungen wie Beschäftigung, Wohnen oder Konsumfinanzierung älter sein. Die Inanspruchnahme von Medicare oder die Anhäufung von finanziellem Wohlstand im Laufe eines Lebens können jedoch dazu führen, dass ältere Menschen in anderen Szenarien bevorzugt werden.

Behinderung

Menschen mit körperlichen, geistigen oder seelischen Behinderungen gehören vielleicht zu den Menschen, die am ehesten von Vorurteilen in ML-Systemen betroffen sind. Der Gedanke des Ausschlusses gilt auch außerhalb der Arbeitswelt, auch wenn das rechtliche Konstrukt das vielleicht nicht tut. Menschen mit Behinderungen werden bei der Entwicklung von ML-Systemen oft vergessen, und keine noch so gute Prüfung auf mathematische Verzerrungen kann das wieder wettmachen.

Einwanderungsstatus oder nationale Herkunft

Es ist bekannt, dass Menschen, die in einem Land leben, in dem sie nicht geboren wurden, unabhängig von ihrem Einwanderungsstatus, einschließlich eingebürgerter Staatsbürger, mit erheblichen Vorurteilen zu kämpfen haben.

Sprache

Vor allem bei Online-Inhalten, einem wichtigen Bereich für ML-Systeme, können Personen, die andere Sprachen als Englisch verwenden oder in nicht-lateinischen Schriftzeichen schreiben, eher von ML-Systemen benachteiligt werden.

Ethnie

Races and ethnicities other than white people, including those who identify as more than one race, are commonly subject to bias and harm when interacting with ML systems. Some also prefer skin tone scales over traditional race or ethnicity labels, especially for computer vision tasks. Die Fitzpatrick-Skala ist ein Beispiel für eine Hautfarbskala.

Geschlecht und Gender

Andere Geschlechter als Cisgender-Männer haben ein höheres Risiko, von einem ML-System benachteiligt und geschädigt zu werden. In Online-Inhalten werden Frauen oft bevorzugt - aber auf schädliche Weise. Das Phänomen des männlichen Blicks besagt, dass Medien über Frauen attraktiv sein können und positiv behandelt werden (z. B. indem sie in einem Social-Media-Feed beworben werden), weil diese Inhalte auf die Objektivierung, Unterwerfung oder Sexualisierung von Frauen ausgerichtet sind.

Intersektionelle Gruppen

Menschen, die zwei oder mehr der oben genannten Gruppen angehören, können Voreingenommenheit oder Schäden erfahren, die größer sind als die einfache Summe der beiden breiteren Gruppen, denen sie angehören. Alle in diesem Kapitel beschriebenen Schritte zur Prüfung von Vorurteilen und zur Schadensbegrenzung sollten intersektionale Gruppen berücksichtigen.

Natürlich sind das nicht die einzigen Personengruppen, die von einem ML-Modell benachteiligt werden können, und die Gruppierung von Personen kann unabhängig von der Motivation problematisch sein. Dennoch ist es wichtig zu wissen, wo man nach Verzerrungen suchen muss, und wir hoffen, dass unsere Liste dafür ausreicht. Jetzt, wo wir wissen, wo wir nach ML-Voreingenommenheit suchen müssen, wollen wir die häufigsten Schäden besprechen, auf die wir achten sollten.

Schädigungen, die Menschen erfahren

Viele gängige Arten von Schäden treten bei Online- oder digitalen Inhalten auf. Sie kommen auch häufig vor - vielleicht so häufig, dass wir blind dafür werden können. Die folgende Liste hebt häufige Schäden hervor und gibt Beispiele, damit wir sie besser erkennen können, wenn wir sie das nächste Mal sehen. Diese Schäden stimmen eng mit denjenigen überein, die in Abagayle Lee Blanks "Computer Vision Machine Learning and Future-Oriented Ethics" beschrieben werden , in dem Fälle beschrieben werden, in denen diese Schäden in der Computer Vision auftreten:

Verunglimpfung

Inhalte, die aktiv abwertend oder beleidigend sind - z. B. beleidigende Inhalte, die von Chatbots wie Tay oder Lee Luda erstellt werden.

Erasure

Löschung von Inhalten, die die vorherrschenden gesellschaftlichen Paradigmen in Frage stellen oder von Randgruppen erlittene Schäden aus der Vergangenheit - z.B. Unterdrückung von Inhalten, die Rassismus diskutieren oder die weiße Vorherrschaft anprangern.

Exnominierung

Die Behandlung von Begriffen wie Weißsein, Männlichkeit oder Heterosexualität als zentrale menschliche Normen - z. B. die Online-Suche, die eine Barbiepuppe als erstes weibliches Ergebnis für "CEO" anzeigt.

Fehleinschätzung

Die Identität einer Person zu verwechseln oder die Menschlichkeit einer Person nicht zu erkennen - z. B. Schwarze Menschen beim automatischen Taggen von Bildern falsch zu erkennen.

Stereotypisierung

Die Tendenz, allen Mitgliedern einer Gruppe bestimmte Eigenschaften zuzuordnen - z.B. assoziieren LMs Muslime automatisch mit Gewalt.

Unterrepräsentation

Das Fehlen einer fairen oder angemessenen Darstellung demografischer Gruppen in den Modellergebnissen - z. B. wenn generative Modelle davon ausgehen, dass alle Ärzte weiße Männer und alle Krankenschwestern weiße Frauen sind.

Manchmal beschränken sich diese Schäden auf den Online- oder digitalen Raum, aber da sich unser digitales Leben immer stärker mit anderen Lebensbereichen überschneidet, wirken sich die Schäden auch auf die reale Welt aus. ML-Systeme im Gesundheitswesen, in der Arbeitswelt, im Bildungswesen oder in anderen risikoreichen Bereichen können direkt Schaden anrichten, indem sie Menschen zu Unrecht den Zugang zu benötigten Ressourcen verwehren. Zu den offensichtlichsten Arten von Schäden, die ML-Systeme in der realen Welt verursachen, gehören die folgenden:

Wirtschaftliche Schäden

Wenn ein ML-System die wirtschaftlichen Möglichkeiten oder den Wert einer Tätigkeitverringert -z. B. wenn Männer mehr Anzeigen für bessere Aufträge sehen als Frauen.

Körperliche Schäden

Wenn ein ML-System jemanden verletzt oder tötet - z. B. wenn Menschen sich zu sehr auf selbstfahrende Autos verlassen.

Psychologische Schäden

Wenn ein ML-System geistiges oder emotionales Leid verursacht - z. B. wenn Kindern verstörende Inhalte empfohlen werden.

Reputationsschäden

Wenn ein ML-System den Ruf einer Person oder Organisation schädigt - z.B. wenn die Einführung eines Verbraucherkreditprodukts durch Diskriminierungsvorwürfe beeinträchtigt wird.

Leider können die Nutzer oder Probanden von ML-Systemen zusätzliche Schäden oder Kombinationen von Schäden erfahren, die sich auf seltsame Weise manifestieren. Bevor wir uns im nächsten Abschnitt zu sehr mit den verschiedenen Arten von Bias-Tests beschäftigen, solltest du dich daran erinnern, dass die Überprüfung unserer Nutzerinnen und Nutzer, um sicherzustellen, dass sie nicht die hier besprochenen Schäden oder andere Arten von Schäden erfahren, vielleicht eine der direktesten Möglichkeiten ist, Bias in ML-Systemen zu verfolgen. Im Grunde genommen ist es viel wichtiger, ob Menschen Schaden erleiden, als ob eine Reihe von Ergebnissen einen mathematischen Test bestehen, der zwangsläufig fehlerhaft ist. Wir müssen bei der Entwicklung unseres Systems an diese Schäden denken, mit unseren Nutzern sprechen, um sicherzustellen, dass sie keinen Schaden erleiden, und versuchen, die Schäden zu verringern.

Prüfung auf Verzerrung

Wenn die Möglichkeit besteht, dass ein ML-System Menschen schaden könnte, sollte es auf Verzerrungen getestet werden. Ziel dieses Abschnitts ist es, die gängigsten Methoden zur Überprüfung von ML-Modellen auf Verzerrungen vorzustellen, damit die Leser/innen mit dieser wichtigen Aufgabe des Risikomanagements beginnen können. Die Prüfung ist weder einfach noch abschließend. Genau wie bei Leistungstests kann ein System in den Testdaten gut aussehen, aber nach dem Einsatz fehlschlagen oder Schaden anrichten. Oder ein System kann beim Testen und bei der Einführung nur minimale Verzerrungen aufweisen, aber im Laufe der Zeit zu verzerrten oder schädlichen Vorhersagen abdriften. Außerdem gibt es viele Tests und Effektstärkemessungen, die bekanntermaßen fehlerhaft sind und sich gegenseitig widersprechen. Einen guten Überblick über diese Probleme bietet das YouTube-Video des Konferenzvortrags "21 Fairness Definitions and Their Politics" von Princeton-Professor Arvind Narayanan auf der ACM Conference on Fairness, Accountability, and Transparency in ML. Eine ausführliche mathematische Analyse, warum wir nicht einfach alle Verzerrungskennzahlen auf einmal minimieren können, findest du in "Inherent Kompromiss in the Fair Determination of Risk Scores". Mit diesen Vorsichtsmaßnahmen im Hinterkopf beginnen wir unseren Rundgang durch die aktuellen Ansätze zur Überprüfung von Verzerrungen.

Testdaten

In diesem Abschnitt erfährst du, welche Trainingsdaten du brauchst, um sie auf Verzerrungen zu testen, und wie du diese Daten auf Verzerrungen testen kannst, noch bevor ein Modell trainiert wird. ML-Modelle lernen aus Daten. Aber keine Daten sind perfekt oder frei von Verzerrungen. Wenn in den Trainingsdaten systembedingte Verzerrungen enthalten sind, werden sich diese wahrscheinlich in den Ergebnissen des Modells widerspiegeln. Es ist logisch, die Trainingsdaten auf Verzerrungen zu prüfen. Dazu müssen wir aber davon ausgehen, dass bestimmte Datenspalten verfügbar sind. Zumindest brauchen wir für jede Datenzeile demografische Marker, bekannte Ergebnisse (y, abhängige Variable, Zielmerkmal usw.) und später auch Modellergebnisse - Vorhersagen für Regressionsmodelle und Entscheidungen und Konfidenzwerte oder Posteriorwahrscheinlichkeiten für Klassifizierungsmodelle. Es gibt zwar eine Handvoll Testansätze, die keine demografischen Marker benötigen, aber die meisten akzeptierten Ansätze benötigen diese Daten. Hast du sie nicht? Dann wird das Testen viel schwieriger, aber wir geben dir auch eine Anleitung, wie du demografische Marker ableiten kannst.

Hinweis

Unsere Modelle und Daten sind bei weitem nicht perfekt, also lass das Perfekte nicht der Feind des Guten bei Bias-Tests sein. Unsere Daten werden nie perfekt sein und wir werden nie den perfekten Test finden. Das Testen ist sehr wichtig, aber um in der Praxis erfolgreich zu sein, ist es nur ein Teil eines umfassenderen ML-Management- und Governance-Prozesses.

Die Notwendigkeit, demografische Marker zu kennen oder abzuleiten, ist ein gutes Beispiel dafür, warum der Umgang mit Verzerrungen in ML ein ganzheitliches Designdenken erfordert und nicht einfach ein weiteres Python-Paket an das Ende unserer Pipeline gehängt werden kann. Demografische Merkmale und Daten auf individueller Ebene sind auch aus Sicht des Datenschutzes sensibler, und manchmal erheben Organisationen diese Informationen aus Datenschutzgründen nicht. Auch wenn das Zusammenspiel von Datenschutz- und Nichtdiskriminierungsrecht sehr komplex ist, ist es wahrscheinlich nicht so, dass Datenschutzverpflichtungen Vorrang vor Nichtdiskriminierungsverpflichtungen haben. Aber als Datenwissenschaftler können wir solche Fragen nicht allein beantworten. Jeder vermeintliche Konflikt zwischen Datenschutz und Nichtdiskriminierungsvorschriften muss von Anwälten und Compliance-Spezialisten geklärt werden. Solche komplexen rechtlichen Erwägungen sind ein Beispiel dafür, warum die Bekämpfung von Voreingenommenheit im ML das Engagement einer breiten Gruppe von Interessengruppen erfordert.

Warnung

In den Bereichen Beschäftigung, Verbraucherfinanzierung oder anderen Bereichen, in denen eine ungleiche Behandlung verboten ist, müssen wir mit unseren juristischen Kollegen Rücksprache halten, bevor wir unsere Daten direkt auf der Grundlage von Informationen über die Zugehörigkeit zu einer geschützten Klasse ändern, selbst wenn wir beabsichtigen, Vorurteile abzuschwächen.

Inzwischen ist den Lesern wahrscheinlich klar geworden, wie anspruchsvoll und komplex das Testen von Verzerrungen sein kann. Als Techniker ist es nicht allein unsere Aufgabe, mit dieser Komplexität umzugehen, aber wir müssen uns dessen bewusst sein und in einem breiteren Team arbeiten, um Verzerrungen in ML-Systemen zu beseitigen. Versetzen wir uns in die Rolle eines Technikers, der für die Datenaufbereitung und die Prüfung der Daten auf Verzerrungen verantwortlich ist. Wenn wir die Daten haben, die wir brauchen, suchen wir in der Regel nach drei Hauptproblemen: Repräsentativität, Verteilung der Ergebnisse und Proxies:

Repräsentativität

Die grundlegende Prüfung besteht darin, den Anteil der Zeilen für jede demografische Gruppe in den Trainingsdaten zu berechnen, da ein Modell nur schwer über Gruppen mit einer geringen Anzahl von Zeilen in den Trainingsdaten lernen kann. Im Allgemeinen sollte der Anteil der verschiedenen demografischen Gruppen in den Trainingsdaten die Bevölkerung widerspiegeln, auf die das Modell angewendet werden soll. Wenn das nicht der Fall ist, sollten wir wahrscheinlich repräsentativere Daten sammeln. Es ist auch möglich, eine neue Stichprobe zu ziehen oder einen Datensatz neu zu gewichten, um eine bessere Repräsentativität zu erreichen. Wenn wir jedoch in der Arbeitswelt, im Finanzwesen oder in anderen Bereichen arbeiten, in denen Ungleichbehandlung verboten ist, sollten wir uns unbedingt mit unseren Kolleginnen und Kollegen von der Rechtsabteilung beraten, bevor wir unsere Daten direkt auf der Grundlage von Informationen über die Zugehörigkeit zu einer geschützten Gruppe ändern. Wenn wir auf Probleme mit der differenziellen Validität stoßen (die weiter unten in diesem Kapitel beschrieben werden), sollten wir unsere Trainingsdaten so anpassen, dass die verschiedenen Gruppen stärker oder gleichmäßig vertreten sind. Ein Gleichgewicht zwischen den verschiedenen Klassen kann die Vorhersagequalität über alle Gruppen hinweg verbessern, aber es hilft nicht bei einer unausgewogenen Verteilung der positiven Ergebnisse oder kann diese sogar noch verschlimmern.

Verteilung der Ergebnisse

Wir müssen wissen, wie die Ergebnisse (y Variablenwerte) auf die demografischen Gruppen verteilt sind, denn wenn das Modell herausfindet, dass einige Gruppen mehr positive Ergebnisse erhalten als andere, kann dies zu ungleichen Auswirkungen führen. Wir müssen eine bivariate Verteilung von y auf jede demografische Gruppe berechnen. Wenn wir ein Ungleichgewicht der Ergebnisse zwischen den Gruppen feststellen, können wir versuchen, die Stichprobe neu zu bilden oder die Trainingsdaten neu zu gewichten, allerdings unter bestimmten rechtlichen Vorbehalten. Wahrscheinlicher ist jedoch, dass wir am Ende einfach wissen, dass dieses Modell ein ernsthaftes Verzerrungsrisiko birgt und wir beim Testen der Ergebnisse besonders aufpassen müssen und wahrscheinlich irgendeine Art von Nachbesserung planen.

Vertretungen

Bei den meisten Geschäftsanwendungen von ML sollten wir keine Modelle auf demografischen Markern trainieren. Aber auch wenn wir demografische Marker nicht direkt verwenden, können Informationen wie Namen, Adressen, Bildungsdaten oder Gesichtsbilder eine Menge demografischer Informationen enthalten. Auch andere Informationen können stellvertretend für demografische Marker stehen. Eine Möglichkeit, Stellvertreter zu finden, besteht darin, auf der Grundlage jeder Eingabespalte ein Gegenmodell zu erstellen und zu sehen, ob diese Modelle einen demografischen Marker vorhersagen können. Wenn sie einen demografischen Marker vorhersagen können, dann kodieren diese Spalten demografische Informationen und sind wahrscheinlich demografische Stellvertreter. Wenn möglich, sollten solche Proxies aus den Trainingsdaten entfernt werden. Proxies können auch in den Trainingsdaten versteckter sein. Es gibt keine Standardmethode, um diese latenten Proxies zu testen, aber wir können dieselbe Technik der adversen Modellierung anwenden, wie sie für direkte Proxies beschrieben wurde, mit der Ausnahme, dass wir statt der Merkmale selbst konstruierte Interaktionen von Merkmalen verwenden können, von denen wir vermuten, dass sie als Proxies dienen könnten. Wir empfehlen außerdem, jedes einzelne Input-Merkmal in unserem Modell von spezialisierten Rechts- oder Compliance-Beauftragten auf das Diskriminierungsrisiko von Stellvertretern hin überprüfen zu lassen. Wenn Proxies nicht entfernt werden können oder wir das Vorhandensein von latenten Proxies vermuten, sollten wir die Ergebnisse der Voreingenommenheitstests für die Systemergebnisse sorgfältig prüfen und darauf vorbereitet sein, später im Prozess der Voreingenommenheitsminderung Abhilfemaßnahmen zu ergreifen.

Die beschriebenen Tests und Überprüfungen der Repräsentativität, der Verteilung der Ergebnisse und der Proxies in den Trainingsdaten beruhen alle auf dem Vorhandensein von demografischen Gruppenmarkern, ebenso wie die meisten Tests für die Modellergebnisse. Wenn wir diese demografischen Marker nicht haben, besteht ein akzeptierter Ansatz darin, sie zu erschließen. Der Bayesian Improved Surname Geocoding (BISG) Ansatz leitet Ethnie und Ethnizität aus Namen und Postleitzahldaten ab. Es ist traurig, aber wahr, dass die Gesellschaft in den USA immer noch so stark segregiert ist, dass Postleitzahl und Name die Ethnie vorhersagen können, oft mit einer Genauigkeit von über 90%. Dieser Ansatz wurde von der RAND Corporation und dem Consumer Financial Protection Bureau (CFPB) entwickelt und hat eine hohe Glaubwürdigkeit bei der Prüfung von Vorurteilen im Bereich der Verbraucherfinanzierung. Das CFPB hat sogar Code auf GitHub für BISG! Falls erforderlich, können ähnliche Ansätze verwendet werden, um aus dem Namen, der Sozialversicherungsnummer oder dem Geburtsjahr auf das Geschlecht zu schließen.

Traditionelle Ansätze: Testen auf gleichwertige Ergebnisse

Wenn wir unsere Daten auf Verzerrungen untersucht, sichergestellt haben, dass wir die nötigen Informationen haben, um Verzerrungstests durchzuführen, und ein Modell trainiert haben, ist es an der Zeit, dessen Ergebnisse auf Verzerrungen zu testen. Wir beginnen unsere Diskussion über Verzerrungstests, indem wir uns mit einigen etablierten Tests befassen. Diese Tests haben in der Regel einen Präzedenzfall in Gesetzen, Vorschriften oder juristischen Kommentaren und konzentrieren sich auf durchschnittliche Unterschiede in den Ergebnissen zwischen demografischen Gruppen. Eine gute Zusammenfassung der traditionellen Richtlinien für Voreingenommenheitstests findest du in den knappen Richtlinien des Office of Federal Contract Compliance Programs für die Überprüfung von Auswahlverfahren bei der Einstellung. Bei dieser Art von Tests spielt es keine Rolle, ob wir die Ergebnisse eines Multiple-Choice-Einstellungstests oder die numerischen Ergebnisse eines hochmodernen KI-basierten Empfehlungssystems analysieren.

Hinweis

Die Tests in diesem Abschnitt orientieren sich an dem Begriff der statistischen Parität, d. h. wenn ein Modell für alle demografischen Gruppen ungefähr gleiche Wahrscheinlichkeiten oder günstige Vorhersagen erzeugt.

Tabelle 4-1 zeigt, wie diese Tests in Kategorien für statistische und praktische Tests sowie für kontinuierliche und binäre Ergebnisse eingeteilt werden. Diese Tests stützen sich stark auf das Konzept der geschützten Gruppen, bei dem der Mittelwert der geschützten Gruppe (z. B. Frauen oder Schwarze) einfach, direkt und paarweise mit dem Mittelwert der Kontrollgruppe (z. B. Männer oder Weiße) verglichen wird. Das bedeutet, dass wir mindestens einen Test für jede geschützte Gruppe in unseren Daten brauchen. Wenn das altmodisch klingt, ist es das auch. Aber da diese Tests seit Jahrzehnten am häufigsten in der Gesetzgebung und bei Rechtsstreitigkeiten verwendet werden, ist es ratsam, mit diesen Tests zu beginnen, bevor man mit neueren Methoden kreativ wird. Etablierte Tests haben meist auch bekannte Schwellenwerte, die anzeigen, wann Werte problematisch sind. Diese Schwellenwerte sind in Tabelle 4-1 aufgeführt und werden in den folgenden Abschnitten näher erläutert.

Tabelle 4-1. Einige gängige Metriken zur Messung von Verzerrungen in ML-Modellen, ggf. mit Schwellenwertena
Test Typ Diskrete Ergebnisse/Klassifizierungstests Kontinuierliche Ergebnisse/Regressionstests

Statistische Bedeutung

Logistischer Regressionskoeffizient

Linearer Regressionskoeffizient

Statistische Bedeutung

χ2 Test

t-test

Statistische Bedeutung

Exakter Test von Fisher

Statistische Bedeutung

Binomial-z

Praktische Bedeutung

Vergleich der Gruppenmittelwerte

Vergleich der Gruppenmittelwerte

Praktische Bedeutung

Prozentpunkt Unterschied zwischen den Gruppenmitteln/marginaler Effekt

Prozentpunktdifferenz zwischen den Gruppenmitteln

Praktische Bedeutung

Adverse impact ratio (AIR) (akzeptabel: 0.8-1.25)

Standardisierter mittlerer Unterschied (SMD, Cohen's d) (kleiner Unterschied: 0.2, mittlerer Unterschied: 0.5, großer Unterschied: 0.8)

Praktische Bedeutung

Odds Ratios

Praktische Bedeutung

Rückstand auf die Parität

Unterschiedliche Gültigkeit

Genauigkeits- oder AUC-Verhältnisse (akzeptabel:0.8-1.25)

R2-Verhältnis (akzeptabel: 0.8-1.25)

Unterschiedliche Gültigkeit

TPR-, TNR-, FPR-, FNR-Verhältnisse (zulässig: 0.8-1.25)

MSE, RMSE Verhältnisse (akzeptabel: 0.8-1.25)

Unterschiedliche Gültigkeit

Gleichheit der Quoten ([Kontroll-TPR ≈ geschützte TPR ∣ y = 1] und [Kontroll-FPR ≈ geschützte FPR ∣ y = 0])

Unterschiedliche Gültigkeit

Chancengleichheit ([Kontroll-TPR ≈ geschützte TPR ∣ y = 1])

a TPR = richtig positive Rate; TNR = richtig negative Rate; FPR = falsch positive Rate; FNR = falsch negative Rate

Statistische Signifikanztests

Statistische Signifikanztests sind wahrscheinlich in allen Disziplinen und Rechtsordnungen am weitesten verbreitet, also konzentrieren wir uns zunächst darauf. Statistische Signifikanztests werden verwendet, um festzustellen, ob durchschnittliche oder proportionale Unterschiede in den Modellergebnissen zwischen geschützten Gruppen in den neuen Daten wahrscheinlich sind oder ob die Unterschiede in den Ergebnissen zufällige Eigenschaften unserer aktuellen Testdatensätze sind. Bei kontinuierlichen Ergebnissen stützen wir uns oft auf t-Tests zwischen den mittleren Modellergebnissen zweier demografischer Gruppen. Bei binären Ergebnissen verwenden wir häufig Binomial-Z-Tests für den Anteil positiver Ergebnisse in zwei verschiedenen demografischen Gruppen, Chi-Quadrat-Tests für Kontingenztabellen von Modellergebnissen und den exakten Test von Fisher, wenn die Zellen im Kontingenztest weniger als 30 Personen enthalten.

Wenn du jetzt denkst, dass das eine Menge paarweiser Tests sind, die wichtige Informationen auslassen, dann gute Arbeit! Wir können herkömmliche lineare oder logistische Regressionsmodelle verwenden, die an die Werte, bekannten Ergebnisse oder vorhergesagten Ergebnisse unseres ML-Modells angepasst werden, um herauszufinden, ob eine demografische Markervariable einen statistisch signifikanten Koeffizienten hat, wenn andere wichtige Faktoren vorhanden sind. Natürlich ist auch die Bewertung der statistischen Signifikanz schwierig. Da diese Tests schon vor Jahrzehnten vorgeschrieben wurden, verweisen die meisten juristischen Kommentare auf eine Signifikanz auf dem 5%-Niveau als Beweis für das Vorhandensein unzulässiger Verzerrungen in den Modellergebnissen. Aber in modernen Datensätzen mit Hunderttausenden, Millionen oder mehr Zeilen wird jeder kleine Unterschied in den Ergebnissen auf dem 5 %-Niveau signifikant sein. Wir empfehlen, die Ergebnisse der traditionellen statistischen Verzerrungstests auf dem 5 %-Niveau zu analysieren und das Signifikanzniveau entsprechend der Größe unseres Datensatzes anzupassen. Wir würden uns vor allem auf die bereinigten Ergebnisse konzentrieren, aber bedenke, dass unsere Organisation im schlimmsten Fall mit einer rechtlichen Prüfung und einer Verzerrungsprüfung durch externe Experten konfrontiert werden könnte, bei der wir die 5 %-Signifikanzschwelle einhalten müssten. Dies wäre ein weiterer guter Zeitpunkt, um mit unseren Kollegen in der Rechtsabteilung zu sprechen.

Praktische Signifikanztests

Die Adverse Impact Ratio (AIR) und der damit verbundene Schwellenwert der Vier-Fünftel-Regel sind wahrscheinlich die bekanntesten und am häufigsten missbrauchten Instrumente zur Prüfung von Vorurteilen in den USA. Betrachten wir zunächst, was die AIR ist, und gehen dann darauf ein, wie sie von Praktikern missbraucht wird. AIR ist ein Test für binäre Ergebnisse, bei dem der Anteil eines bestimmten Ergebnisses, in der Regel ein positives Ergebnis wie der Erhalt eines Jobs oder eines Kredits, für eine geschützte Gruppe durch den Anteil dieses Ergebnisses für die entsprechende Kontrollgruppe geteilt wird. Dieser Anteil ist mit einem Schwellenwert von vier Fünfteln oder 0,8 verbunden. Diese Vier-Fünftel-Regel wurde von der EEOC in den späten 1970er Jahren als praktischer Grenzwert hervorgehoben, bei dem Ergebnisse über vier Fünftel bevorzugt werden. In einigen Bundesgerichtsbezirken werden AIR und die Vier-Fünftel-Regel immer noch als sehr wichtige Daten angesehen, während andere Bundesgerichtsbezirke entschieden haben, dass die Messung zu fehlerhaft oder zu vereinfacht ist, um wichtig zu sein. In den meisten Fällen haben AIR und die Vier-Fünftel-Regel außerhalb des Beschäftigungsbereichs keinen offiziellen rechtlichen Stellenwert, aber sie werden gelegentlich noch als internes Instrument zur Überprüfung von Verzerrungen in regulierten Branchen wie der Konsumfinanzierung verwendet. Außerdem kann die AIR-Regel in einem Rechtsstreit immer wieder in der Aussage eines Experten auftauchen, wenn es um Befangenheit geht.

AIR ist ein einfacher und beliebter Voreingenommenheitstest. Was machen wir also beim AIR falsch? Eine ganze Menge. Techniker neigen dazu, ihn falsch zu interpretieren. Ein AIR-Wert über 0,8 ist nicht unbedingt ein gutes Zeichen. Wenn unser AIR-Test unter 0,8 liegt, ist das wahrscheinlich ein schlechtes Zeichen. Aber wenn er über vier Fünftel liegt, bedeutet das nicht, dass alles in Ordnung ist. Ein weiteres Problem ist die Verwechslung des AIR-Maßstabs und des Schwellenwerts von 0,8 mit dem juristischen Konstrukt der disparaten Auswirkungen. Wir können nicht erklären, warum, aber einige Anbieter nennen AIR wörtlich "disparate impact". Das ist nicht dasselbe. Datenwissenschaftler können nicht feststellen, ob ein Unterschied in den Ergebnissen wirklich eine disparate Auswirkung ist. Ungleiche Auswirkungen sind eine komplexe rechtliche Entscheidung, die von Anwälten, Richtern oder Geschworenen getroffen wird. Die Konzentration auf die Vier-Fünftel-Regel lenkt auch von der soziotechnischen Natur des Umgangs mit Vorurteilen ab. Die Vier-Fünftel-Regel ist nur in einigen Beschäftigungsfällen rechtlich sinnvoll. Wie jedes numerische Ergebnis reichen auch die Ergebnisse des AIR-Tests allein nicht aus, um Befangenheit in einem komplexen ML-System festzustellen.

Trotzdem ist es wahrscheinlich eine gute Idee, sich die AIR-Ergebnisse und andere praktische Signifikanzwerte anzusehen. Ein weiteres gängiges Maß ist die standardisierte Mittelwertdifferenz (SMD, oder Cohen's d). SMD kann für Regressions- oder Klassifikationsergebnisse verwendet werden und ist daher noch modellunabhängiger als AIR. Die SMD ist der Mittelwert des Ergebnisses oder der Punktzahl einer geschützten Gruppe abzüglich des Mittelwerts des Ergebnisses oder der Punktzahl einer Kontrollgruppe, wobei diese Größe durch ein Maß für die Standardabweichung des Ergebnisses geteilt wird. SMD-Werte von 0,2, 0,5 und 0,8 werden in maßgeblichen sozialwissenschaftlichen Texten mit kleinen, mittleren und großen Unterschieden in den Gruppenergebnissen in Verbindung gebracht. Andere gebräuchliche Maßstäbe für die praktische Signifikanz sind die Prozentpunktdifferenz (PPD) oder der Unterschied zwischen den mittleren Ergebnissen zweier Gruppen, ausgedrückt als Prozentsatz, und die Unterschreitung, d.h. die Anzahl der Personen oder der Geldbetrag, der erforderlich ist, um die Ergebnisse zwischen einer geschützten und einer Kontrollgruppe gleichwertig zu machen.

Das Worst-Case-Szenario bei traditionellen Ergebnistests ist, dass sowohl die statistischen als auch die praktischen Testergebnisse signifikante Unterschiede bei den Ergebnissen in einem oder mehreren Paaren oder geschützten und Kontrollgruppen zeigen. Beim Vergleich von Einstellungsempfehlungen für Schwarze und Weiße wäre es zum Beispiel sehr schlecht, einen signifikanten Binomial-z-Test und einen AIR unter 0,8 zu sehen, und es wäre noch schlimmer, dies für mehrere geschützte und Kontrollgruppen zu sehen. Im besten Fall sehen wir bei traditionellen Verzerrungstests keine statistische Signifikanz oder große Unterschiede bei praktischen Signifikanztests. Aber selbst in diesem Fall gibt es keine Garantie dafür, dass ein System nicht verzerrt ist, sobald es eingesetzt wird, oder dass es nicht auf eine Art und Weise verzerrt ist, die diese Tests nicht erkennen, z. B. durch Ausblenden. Der wahrscheinlichste Fall bei traditionellen Tests ist natürlich, dass wir eine Mischung von Ergebnissen erhalten und Hilfe bei der Interpretation der Ergebnisse und bei der Behebung der entdeckten Probleme von einer Gruppe von Stakeholdern außerhalb unseres direkten Data Science Teams benötigen. Selbst mit all dieser Arbeit und Kommunikation wäre das traditionelle Bias-Testing nur der erste Schritt einer gründlichen Bias-Testing-Übung. Als Nächstes werden wir einige neuere Ideen zum Bias-Testing diskutieren.

Eine neue Denkweise: Testen auf gleichwertige Leistungsqualität

In den letzten Jahren haben viele Forscherinnen und Forscher Testansätze entwickelt, die sich auf die unterschiedliche Qualität der Leistungen verschiedener demografischer Gruppen konzentrieren. Diese Tests haben zwar weniger rechtliche Präzedenzfälle als die traditionellen Tests auf praktische und statistische Signifikanz, aber sie sind in gewisser Weise mit dem Konzept der differenziellen Validität verwandt. Diese neueren Verfahren versuchen zu verstehen, wie sich häufige ML-Vorhersagefehler auf Minderheitengruppen auswirken können, und sicherzustellen, dass Menschen, die mit einem ML-System interagieren, die gleichen Chancen auf positive Ergebnisse haben.

Das wichtige Papier "Fairness jenseits von ungleicher Behandlung und ungleicher Wirkung: Learning Classification without Disparate Mistreatment" legt dar, warum es wichtig ist, ML-Modellfehler im Kontext der Fairness zu betrachten. Wenn Minderheitengruppen mehr falsch-positive oder falsch-negative Entscheidungen erhalten als andere Gruppen, kann das je nach Anwendung eine Reihe von Nachteilen mit sich bringen. In ihrem bahnbrechenden Buch "Equality of Opportunity in Machine Learning" (Chancengleichheit beim maschinellen Lernen) definieren Hardt, Price und Srebro einen Begriff von Fairness, der die weithin anerkannte equalized odds-Idee abändert. In dem älteren Szenario der Chancengleichheit haben zwei demografische Gruppen, wenn das bekannte Ergebnis eintritt (d. h. y = 1), ungefähr die gleichen Wahrheitsquoten. Wenn das bekannte Ergebnis nicht eintritt ( y = 0), bedeutet Chancengleichheit, dass die Falsch-Positiv-Raten in den beiden demografischen Gruppen ungefähr gleich hoch sind. Die Chancengleichheit lockert die y = 0 Beschränkung der Chancengleichheit und argumentiert, dass die Suche nach ausgeglichenen Wahrheitsquoten einfacher und nützlicher ist, wenn y = 1 mit einem positiven Ergebnis gleichzusetzen ist, wie z. B. dem Erhalt eines Kredits oder eines Arbeitsplatzes.

Wer sich schon einmal mit Konfusionsmatrizen beschäftigt hat, weiß, dass es viele andere Möglichkeiten gibt, die Fehler eines binären Klassifikators zu analysieren. Wir können über unterschiedliche Raten von wahr-positiven, wahr-negativen, falsch-positiven, falsch-negativen und vielen anderen Klassifizierungsergebnissen in verschiedenen demografischen Gruppen nachdenken. Wir können diese Messungen auch in formalere Konstrukte wie Chancengleichheit oder Chancengleichheit umwandeln. Tabelle 4-2 enthält ein Beispiel dafür, wie Leistungsqualitäts- und Fehlermetriken über demografische Gruppen hinweg bei der Prüfung auf Verzerrungen hilfreich sein können.

Tabelle 4-2. Klassifizierungsqualität und Fehlerquoten, berechnet für zwei demografische Gruppena
Metrischer Typ ... Genauigkeit Empfindlichkeit (TPR) ... Spezifität (TNR) ... FPR FNR ...

Weiblicher Wert

...

0.808

0.528

...

0.881

...

0.119

0.472

...

Männlicher Wert

...

0.781

0.520

...

0.868

...

0.132

0.480

...

Verhältnis von Frauen zu Männern

...

1.035

1.016

...

1.016

...

1.069

0.983

...

a Die Werte für die Vergleichsgruppe, die Frauen, werden durch die Werte für die Kontrollgruppe, die Männer, geteilt.

Der erste Schritt, der in Tabelle 4-2 dargestellt ist, besteht darin, eine Reihe von Leistungs- und Fehlermessungen für zwei oder mehr demografische Gruppen von Interesse zu berechnen. Dann bilden wir mit Hilfe von AIR und der Vier-Fünftel-Regel ein Verhältnis zwischen dem Wert der Vergleichsgruppe und dem Wert der Kontrollgruppe und wenden Schwellenwerte von vier Fünfteln (0,8) und fünf Vierteln (1,25) an, um mögliche Verzerrungen aufzuzeigen. Es ist wichtig zu sagen, dass die Schwellenwerte von 0,8 und 1,25 nur Richtwerte sind; sie haben keine rechtliche Bedeutung und sind mehr als Richtwerte zu verstehen. Im Idealfall sollten diese Werte nahe bei 1 liegen, um zu zeigen, dass beide demografischen Gruppen ungefähr die gleiche Leistungsqualität oder Fehlerquote im Modell haben. Wir können diese Schwellenwerte mit den Werten versehen, die wir für sinnvoll halten, aber wir würden sagen, dass 0,8-1,25 die maximale Spanne an akzeptablen Werten ist.

Je nach Anwendungsbereich können einige Metriken wichtiger sein als andere. Bei medizinischen Tests zum Beispiel können falsch-negative Ergebnisse sehr schädlich sein. Wenn eine demografische Gruppe bei einer medizinischen Diagnose mehr falsch-negative Ergebnisse erhält als andere, kann man sich leicht vorstellen, wie das zu Verzerrungen führen kann. Der Entscheidungsbaum für Fairness-Metriken auf Folie 40 von "Dealing with Bias and Fairness in AI/ML/Data Science Systems" (Umgang mit Voreingenommenheit und Fairness in KI/ML/Datenwissenschaftlichen Systemen) ist ein gutes Hilfsmittel, um zu entscheiden, welche der verschiedenen Fairness-Metriken für unsere Anwendung am besten geeignet ist.

Denkst du jetzt: "Was ist mit Regression? Was ist mit allem in ML, was nicht binär klassifiziert?!" Es stimmt, dass die meisten Bias-Tests für binäre Klassifizierer entwickelt wurden, was frustrierend sein kann. Aber wir können t-Tests und SMD auf Regressionsmodelle anwenden, und wir können die Ideen in diesem Abschnitt über Leistungsqualität und Fehlerraten ebenfalls anwenden. Genauso wie wir die Klassifizierungskennzahlen ins Verhältnis setzen, können wir auchR2, den mittleren prozentualen Fehler (MAPE) oder den normalisierten mittleren quadratischen Fehler (RMSE) über die Vergleichs- und Kontrollgruppen hinweg ins Verhältnis setzen und die Vier-Fünftel-Regel als Richtschnur verwenden, um herauszufinden, wann diese Kennzahlen auf ein Verzerrungsproblem in unseren Vorhersagen hindeuten könnten. Den Rest der ML-Methode, abgesehen von binärer Klassifizierung und Regression, werden wir als Nächstes behandeln. Mach dich darauf gefasst, dass du etwas Einfallsreichtum und Muskelkraft brauchen wirst.

Am Horizont: Tests für das breitere ML-Ökosystem

Ein großer Teil der Forschung und der juristischen Kommentare geht von der Verwendung binärer Klassifikatoren aus. Dafür gibt es einen Grund. Egal wie komplex das ML-System ist, es läuft oft darauf hinaus, eine binäre Ja- oder Nein-Entscheidung zu treffen oder zu unterstützen. Wenn diese Entscheidung Auswirkungen auf Menschen hat und wir die Daten dafür haben, sollten wir die Ergebnisse mit den bereits erwähnten Tools testen. In manchen Fällen ist der Output eines ML-Systems nicht ausreichend für eine binäre Entscheidung, oder wir möchten tiefer gehen und die Ursachen für die Verzerrungen in unserem System verstehen oder herausfinden, welche Untergruppen am stärksten von Verzerrungen betroffen sein könnten. Oder wir verwenden ein generatives Modell, wie ein LM- oder Bilderzeugungssystem. In diesen Fällen reichen AIR, t-Tests und Quoten der wahren Positivrate nicht aus. In diesem Abschnitt geht es darum, was wir tun können, um den Rest des ML-Ökosystems zu testen und wie wir tiefer gehen können, um mehr Informationen über die Ursachen für Verzerrungen in unseren Daten zu erhalten. Wir beginnen mit einigen allgemeinen Strategien, die für die meisten Arten von ML-Systemen funktionieren sollten, und gehen dann kurz auf Techniken für Verzerrungen gegenüber Einzelpersonen oder kleinen Gruppen, LMs, multinomiale Klassifikatoren, Empfehlungssysteme und unüberwachte Modelle ein:

Allgemeine Strategien

Einer der allgemeinsten Ansätze für Bias-Tests ist die kontradiktorische Modellierung. Anhand der numerischen Ergebnisse unseres Systems - egal, ob es sich um Rankings, Cluster-Labels, extrahierte Features, Termeinbettungen oder andere Arten von Scores handelt - können wir diese Scores als Input für ein anderes ML-Modell verwenden, das einen demografischen Klassenmarker vorhersagt. Wenn das Gegenmodell den demografischen Marker aus den Vorhersagen unseres Modells vorhersagen kann, bedeutet das, dass die Vorhersagen unseres Modells demografische Informationen kodieren. Das ist normalerweise ein schlechtes Zeichen. Ein anderer allgemeiner technischer Ansatz besteht darin, erklärbare KI-Techniken anzuwenden, um die Hauptfaktoren für die Vorhersagen unseres Modells aufzudecken. Wenn diese Merkmale, Pixel, Begriffe oder andere Eingabedaten voreingenommen zu sein scheinen oder mit demografischen Informationen korrelieren, ist das ein weiteres schlechtes Zeichen. Es gibt inzwischen sogar spezielle Ansätze, um zu verstehen, welche Merkmale zu Verzerrungen in den Modellergebnissen führen. Der Einsatz von XAI zur Erkennung von Verzerrungen ist spannend, weil er uns direkt zeigt, wie wir Probleme mit Verzerrungen lösen können. Ganz einfach: Merkmale, die zu Verzerrungen führen, sollten wahrscheinlich aus dem System entfernt werden.

Nicht alle Strategien zur Aufdeckung von Vorurteilen sollten in einem abgerundeten Testplan technisch sein. Nutze Ressourcen wie die AI Incident Database, um zu verstehen, wie es in der Vergangenheit zu Vorurteilen gekommen ist, und entwickle Tests oder Mechanismen für das Nutzerfeedback, um festzustellen, ob wir die Fehler der Vergangenheit wiederholen. Wenn unser Team oder unsere Organisation nicht mit den Nutzerinnen und Nutzern über Vorurteile kommuniziert, die sie erleben, ist das ein großer blinder Fleck. Wir müssen mit unseren Nutzern sprechen. Wir sollten Mechanismen für das Nutzerfeedback in unser System oder unseren Produktlebenszyklus einbauen, damit wir wissen, was unsere Nutzer/innen erleben, eventuelle Schäden verfolgen und sie nach Möglichkeit abmildern können. Außerdem sollten wir Anreize schaffen, damit die Nutzerinnen und Nutzer uns Feedback zu Vorurteilen geben. Das Twitter Algorithmic Bias Event ist ein tolles Beispiel für strukturiertes und motiviertes Crowd-Sourcing von Informationen über Vorurteile. In der Fallbesprechung am Ende des Kapitels werden der Prozess und die Lehren aus diesem einzigartigen Ereignis erläutert.

Sprachmodelle

Generative Modelle werfen viele Probleme mit Verzerrungen auf. Trotz des Mangels an ausgereiften Ansätzen zum Testen von Sprachmodellen ist dies ein aktiver Forschungsbereich, in dem die meisten wichtigen Arbeiten dem Thema in irgendeiner Form Tribut zollen. Abschnitt 6.2 von "Language Models Are Few-Shot Learners" ist eines der besseren Beispiele dafür, wie man über Verzerrungsprobleme nachdenkt und einige grundlegende Tests durchführt. Im Großen und Ganzen besteht der Test auf Voreingenommenheit in Sprachmodellen aus dem Prompt-Engineering, d. h. man lässt die Sprachmodelle Eingabeaufforderungen wie "Der muslimische Mann..." oder"Die Ärztin..." ausfüllen und überprüft, ob der generierte Text anstößig ist (und das kann er sein!). Um den Zufallsfaktor zu erhöhen, können die Eingabeaufforderungen auch von anderen LMs erstellt werden. Die Überprüfung auf anstößige Inhalte kann durch eine manuelle Analyse oder durch eine automatisierte Stimmungsanalyse erfolgen. Ein weiterer gängiger Ansatz ist die Durchführung von Hot Flips, bei denen z. B. als männlich geltende Namen mit als weiblich geltenden Namen ausgetauscht werden, und das Testen der Leistungsqualität von Aufgaben wie der Erkennung von benannten Entitäten. Auch XAI kann eingesetzt werden. Sie kann dabei helfen, herauszufinden, welche Begriffe oder Entitäten Vorhersagen oder andere Ergebnisse beeinflussen, und Menschen können entscheiden, ob diese Faktoren aus der Perspektive der Voreingenommenheit bedenklich sind.

Individuelle Fairness

Viele der von uns vorgestellten Techniken konzentrieren sich auf Vorurteile gegenüber großen Gruppen. Aber was ist mit kleinen Gruppen oder bestimmten Personen? ML-Modelle können kleine Gruppen von Menschen auf der Grundlage von demografischen Informationen oder Proxies leicht isolieren und sie unterschiedlich behandeln. Es ist auch leicht möglich, dass sehr ähnliche Personen auf verschiedenen Seiten einer komplexen Entscheidungsgrenze landen. Auch hier können kontradiktorische Modelle helfen. Die Vorhersagen des kontradiktorischen Modells können ein zeilenweises lokales Maß für die Verzerrung sein. Personen, deren Vorhersagen des kontradiktorischen Modells sehr zuverlässig sind, könnten aufgrund von demografischen oder stellvertretenden Informationen ungerecht behandelt werden. Wir können kontrafaktische Tests verwenden oder Tests, bei denen ein Datenattribut einer Person so verändert wird, dass sie eine Entscheidungsgrenze überschreitet, um herauszufinden, ob Personen tatsächlich auf eine Seite einer Entscheidungsgrenze gehören oder ob ihr vorhergesagtes Ergebnis durch eine Art von Verzerrung beeinflusst wird. Beispiele für einige dieser Techniken in der Praxis findest du in Kapitel 10.

Multinomiale Klassifizierung

Es gibt verschiedene Möglichkeiten, um Bias-Tests bei multinomialen Klassifikatoren durchzuführen. Wir könnten zum Beispiel eine Dimensionsreduktionstechnik verwenden, um unsere verschiedenen Wahrscheinlichkeitsausgabespalten zu einer einzigen Spalte zusammenzufassen und diese Spalte dann wie ein Regressionsmodell mit t-Tests und SMD zu testen, wobei wir die Durchschnittswerte und die Varianz des extrahierten Merkmals über verschiedene demografische Gruppen hinweg berechnen und die zuvor beschriebenen Schwellenwerte für die statistische und praktische Bedeutung anwenden. Es wäre auch ratsam, anerkanntere Maße anzuwenden, die auch für multinomiale Ergebnisse funktionieren, wie Chi-Quadrat-Tests oder Chancengleichheit. Der vielleicht konservativste Ansatz besteht darin, jede Ausgangskategorie als eigenes binäres Ergebnis zu behandeln, und zwar in einer Eins-gegen-Alle-Form. Wenn wir viele Kategorien zu testen haben, fangen wir mit der häufigsten an und gehen von dort aus weiter, indem wir alle Standards wie AIR, binomiales z und Fehlermetriken anwenden.

Unüberwachte Modelle

Cluster-Labels können wie multinomiale Klassifizierungsergebnisse behandelt oder mit adversen Modellen getestet werden. Die extrahierten Merkmale können wie Regressionsergebnisse und auch mit adversen Modellen getestet werden.

Empfehlungssysteme

Empfehlungssysteme sind eine der wichtigsten Arten von kommerziellen ML-Technologien. Sie dienen oft als Torwächter für den Zugang zu Informationen oder Produkten, die wir täglich brauchen. Natürlich wurden auch sie schon wegen verschiedener und schwerwiegender Verzerrungen kritisiert. Viele allgemeine Ansätze, wie z. B. kontradiktorische Modelle, Nutzerfeedback und XAI, können helfen, Verzerrungen in Empfehlungen aufzudecken. Inzwischen gibt es jedoch auch spezielle Ansätze zur Überprüfung von Empfehlungen auf Verzerrungen. In Publikationen wie "Comparing Fair Ranking Metrics" oder auf Konferenzen wie "Fairness and Discrimination in Recommendation and Retrieval" erfährst du mehr.

Die Welt von ML ist breit und tief. Vielleicht hast du eine Art von Modell, das wir hier nicht abdecken konnten. Wir haben viele Optionen für Bias-Tests vorgestellt, aber sicher nicht alle! Vielleicht müssen wir unseren gesunden Menschenverstand, unsere Kreativität und unseren Einfallsreichtum einsetzen, um unser System zu testen. Erinnere dich: Zahlen sind nicht alles. Bevor du dir eine neue Technik zum Testen von Verzerrungen ausdenkst, solltest du in der Fachliteratur nachsehen. Irgendjemand hat sich wahrscheinlich schon einmal mit einem Problem wie dem unseren beschäftigt. Lass dich auch von früheren Fehlschlägen inspirieren, wie du testen kannst, und sprich vor allem mit den Nutzern und Beteiligten. Ihr Wissen und ihre Erfahrung sind wahrscheinlich wichtiger als jedes numerische Testergebnis.

Zusammenfassung Testplan

Bevor wir uns den Ansätzen zur Verringerung von Verzerrungen zuwenden, wollen wir versuchen, das, was wir über das Testen von Verzerrungen gelernt haben, in einem Plan zusammenzufassen, der in den meisten gängigen Szenarien funktionieren wird. Unser Plan konzentriert sich sowohl auf numerische Tests als auch auf menschliches Feedback, und zwar während der gesamten Lebensdauer des ML-Systems. Der Plan, den wir vorstellen, ist sehr gründlich. Es kann sein, dass wir nicht alle Schritte ausführen können, vor allem, wenn unser Unternehmen noch nie ML-Systeme auf Vorurteile getestet hat. Erinnere dich einfach daran, dass jeder gute Plan technische und soziotechnische Ansätze umfasst und fortlaufend ist:

  1. In der Ideenfindungsphase des Systems sollten wir uns mit Stakeholdern wie potenziellen Nutzern, Fachleuten und Geschäftsführern zusammensetzen, um sowohl die Risiken als auch die Chancen des Systems zu durchdenken. Je nach Art des Systems brauchen wir auch den Beitrag von Anwälten, Sozialwissenschaftlern, Psychologen oder anderen. Die Stakeholder sollten immer verschiedene demografische Gruppen, Bildungshintergründe und Lebens- und Berufserfahrungen repräsentieren. Wir halten Ausschau nach menschlichen Vorurteilen wie Gruppendenken, Finanzierungsvorurteilen, dem Dunning-Kruger-Effekt und Bestätigungsvorurteilen, die unsere Chancen auf technischen Erfolg schmälern können.

  2. In der Entwurfsphase des Systems sollten wir mit der Planung von Überwachungs- und Rückgriffsmechanismen beginnen und sicherstellen, dass wir über die Daten verfügen, die wir für die Prüfung von Vorurteilen benötigen, oder dass wir in der Lage sind, diese Daten zu sammeln. Diese Fähigkeit ist technischer, rechtlicher und ethischer Natur. Wir müssen technisch in der Lage sein, die Daten zu erheben und zu verarbeiten, wir müssen die Zustimmung der Nutzer/innen oder eine andere Rechtsgrundlage für die Erhebung und Nutzung haben - und zwar ohne in manchen Fällen eine Ungleichbehandlung vorzunehmen - und wir sollten uns nicht darauf verlassen, dass wir den Menschen ihre Daten entlocken. Wir sollten auch anfangen, uns mit Experten für Benutzerinteraktion und -erfahrung (UI/UX) zu beraten, um über die Implementierung von Regressmechanismen für falsche Entscheidungen nachzudenken und die Rolle menschlicher Voreingenommenheit, wie z. B. Verankerung, bei der Interpretation von Systemergebnissen abzuschwächen. Weitere wichtige Überlegungen sind, wie Menschen mit Behinderungen oder eingeschränktem Internetzugang mit dem System interagieren können, und die Überprüfung früherer fehlgeschlagener Entwürfe, damit diese vermieden werden können.

  3. Sobald wir Trainingsdaten haben, sollten wir wahrscheinlich alle direkten demografischen Marker entfernen und diese nur für die Tests speichern. (Natürlich kann es bei manchen Anwendungen, wie z. B. bei bestimmten medizinischen Behandlungen, wichtig sein, diese Informationen im Modell zu behalten). Wir sollten die Trainingsdaten auf Repräsentativität, faire Verteilung der Ergebnisse und demografische Proxies testen, damit wir wissen, worauf wir uns einlassen. Ziehe in Erwägung, die Proxies aus den Trainingsdaten zu streichen und die Daten neu zu gewichten, um die Repräsentativität oder die positiven Ergebnisse zwischen den demografischen Gruppen auszugleichen. In Bereichen wie dem Finanzwesen, dem Personalwesen, der Krankenversicherung oder anderen stark regulierten Branchen sollten wir uns jedoch mit unserer Rechtsabteilung über mögliche Bedenken hinsichtlich einer Ungleichbehandlung bei der Neugewichtung der Daten austauschen.

  4. Nachdem unser Modell trainiert wurde, ist es an der Zeit, mit dem Testen zu beginnen. Wenn es sich bei unserem Modell um einen traditionellen Regressions- oder Klassifikationsschätzer handelt, müssen wir die entsprechenden traditionellen Tests anwenden, um ungünstige Unterschiede in den Ergebnissen zwischen den Gruppen zu erkennen. Außerdem müssen wir Tests für die Leistungsqualität zwischen den demografischen Gruppen durchführen, um sicherzustellen, dass die Leistung für alle unsere Nutzer/innen ungefähr gleich ist. Wenn es sich bei unserem Modell nicht um einen traditionellen Regressions- oder Klassifikationsschätzer handelt, müssen wir uns trotzdem eine logische Methode überlegen, um unsere Ergebnisse in eine einzelne numerische Spalte oder eine binäre 1/0-Spalte umzuwandeln, damit wir eine ganze Reihe von Tests durchführen können. Wenn wir unsere Ergebnisse nicht umwandeln können oder einfach nur mehr über die Verzerrungen in unserem Modell wissen wollen, sollten wir kontradiktorische Modelle und XAI ausprobieren, um Diskriminierungsbereiche in unseren Ergebnissen zu finden oder die Ursachen für die Verzerrungen in unserem Modell zu verstehen. Wenn es sich bei unserem System um ein LM, ein Empfehlungssystem oder eine andere spezialisierte Art von ML handelt, sollten wir auch Teststrategien anwenden, die für diese Art von Systemen entwickelt wurden.

  5. Wenn ein Modell eingesetzt wird, muss es auf Probleme wie fehlerhafte Leistung, Hacks und Verzerrungen überwacht werden. Aber die Überwachung ist nicht nur eine technische Aufgabe. Wir müssen Anreize schaffen und das Feedback der Nutzerinnen und Nutzer aufnehmen und berücksichtigen. Wir müssen sicherstellen, dass unsere Regressmechanismen unter realen Bedingungen richtig funktionieren, und wir müssen alle Schäden, die unser System verursacht, verfolgen. All dies geschieht zusätzlich zur Leistungsüberwachung, die auch die üblichen statistischen Verzerrungstests umfasst. Die Überwachung und die Sammlung von Rückmeldungen müssen während der gesamten Lebensdauer des Systems fortgesetzt werden.

Was ist, wenn wir beim Testen oder Überwachen etwas Schlechtes finden? Das ist ziemlich normal und darum geht es im nächsten Abschnitt. Es gibt technische Möglichkeiten, Verzerrungen zu verringern, aber die Ergebnisse von Verzerrungstests müssen in die allgemeinen ML-Governance-Programme einer Organisation integriert werden, um die beabsichtigten Vorteile in Bezug auf Transparenz und Rechenschaftspflicht zu erzielen. Im nächsten Abschnitt werden wir uns auch mit der Steuerung und den menschlichen Faktoren bei der Vermeidung von Verzerrungen befassen.

Vorurteile abmildern

Wenn wir ein ML-Modell auf Verzerrungen in seinen Ergebnissen testen, werden wir sie wahrscheinlich in vielen Fällen finden. Wenn sie auftauchen, müssen wir sie auch beseitigen (wenn wir keine Verzerrungen finden, sollten wir unsere Methodik und Ergebnisse noch einmal überprüfen und planen, das Auftreten von Verzerrungen zu überwachen, wenn das System eingesetzt wird). Dieser Abschnitt des Kapitels beginnt mit einer technischen Diskussion über Ansätze zur Vermeidung von Verzerrungen. Dann gehen wir zu den menschlichen Faktoren über, die Verzerrungen abmildern und die sich in der Praxis als besonders effektiv erweisen. Praktiken wie human-centered design (HCD) und Governance von ML-Praktikern sind viel wahrscheinlicher, dass sie den Schaden während des gesamten Lebenszyklus eines ML-Systems verringern, als ein punktueller technischer Ansatz zur Schadensbegrenzung. Bei jeder ernsthaften Entscheidung über den Einsatz von ML müssen wir verschiedene Interessengruppen einbeziehen, auch bei der anfänglichen Einrichtung von Governance- und Diversity-Initiativen. Die technischen Methoden, die wir vorschlagen werden, werden wahrscheinlich eine gewisse Rolle dabei spielen, das ML unserer Organisation fairer zu machen, aber sie funktionieren in der Praxis nicht ohne die ständige Interaktion mit unseren Nutzern und eine angemessene Aufsicht über die ML-Praktiker.

Technische Faktoren zur Milderung von Vorurteilen

Beginnen wir unsere Diskussion über die Abschwächung technischer Verzerrungen mit einem Zitat aus der NIST SP1270 AI bias guidance. Wenn wir Beobachtungsdaten, die wir verwenden, weil sie verfügbar sind, in ein unerklärliches Modell einspeisen und die Hyperparameter so lange verändern, bis wir eine Leistungskennzahl maximieren, machen wir vielleicht das, was das Internet Data Science nennt, aber wir machen keine Wissenschaft:1

Der Physiker Richard Feynman bezeichnete Praktiken, die oberflächlich betrachtet der Wissenschaft ähneln, aber nicht der wissenschaftlichen Methode folgen, als Cargo-Kult-Wissenschaft. Ein zentraler Grundsatz der wissenschaftlichen Methode ist, dass Hypothesen überprüfbar, Experimente interpretierbar und Modelle falsifizierbar oder zumindest überprüfbar sein sollten. Kommentatoren haben Ähnlichkeiten zwischen der KI und der Cargo-Kult-Wissenschaft gezogen und dabei die Blackbox-Interpretierbarkeit, das Problem der Reproduzierbarkeit und den Versuch-und-Irrtum-Prozess angeführt.

Die wissenschaftliche Methode und Versuchsplanung

Eine der besten technischen Lösungen zur Vermeidung von Verzerrungen in ML-Systemen ist das Festhalten an der wissenschaftlichen Methode. Wir sollten eine Hypothese über die Auswirkungen unseres Modells in der realen Welt aufstellen. Schreibe sie auf und ändere sie nicht. Sammle Daten, die mit unserer Hypothese in Zusammenhang stehen. Wähle Modellarchitekturen aus, die interpretierbar sind und im Zusammenhang mit unserer Hypothese eine gewisse strukturelle Bedeutung haben; in vielen Fällen werden das gar keine ML-Modelle sein. Wir sollten unser Modell mit Genauigkeit, MAPE oder anderen traditionellen Bewertungsmaßstäben bewerten, aber dann einen Weg finden, um zu testen, ob unser Modell in der realen Umgebung das tut, was es soll, zum Beispiel mit A/B-Tests. Dieser bewährte Prozess reduziert menschliche Voreingenommenheit - insbesondere Bestätigungsvoreingenommenheit - bei der Modellentwicklung und -implementierung und hilft dabei, systemische Voreingenommenheit in den Ergebnissen von ML-Systemen zu erkennen und abzuschwächen, da diese sich wahrscheinlich darin äußern, dass sich das System nicht wie beabsichtigt verhält. In Kapitel 12 werden wir uns mit der wissenschaftlichen Methode und ihren Auswirkungen auf die Datenwissenschaft befassen.

Ein weiteres grundlegendes Mittel zur Vermeidung von Verzerrungen ist die Versuchsplanung. Wir müssen nicht jeden verfügbaren Datenschrott verwenden, um ein ML-Modell zu trainieren. Wir können Methoden aus der Versuchsplanung heranziehen, um Daten zu sammeln, die speziell auf unsere Hypothese zugeschnitten sind. Zu den üblichen Problemen bei der Verwendung beliebiger Daten, die in unserem Unternehmen herumliegen, gehört, dass diese Daten ungenau, schlecht kuratiert, redundant und mit systemischen Verzerrungen behaftet sein können. Mit Hilfe der Versuchsplanung können wir einen kleineren, besser aufbereiteten Satz von Trainingsdaten sammeln und auswählen, der sich tatsächlich auf eine Versuchshypothese bezieht.

Inoffizieller ausgedrückt: Das Nachdenken über die Versuchsplanung hilft uns, wirklich dumme, aber schädliche Fehler zu vermeiden. Es heißt, dass es keine dummen Fragen gibt. Leider ist das bei der ML-Verzerrung nicht der Fall. Zum Beispiel die Frage, ob ein Gesicht Vertrauenswürdigkeit oder Kriminalität vorhersagen kann. Diese fehlerhaften experimentellen Prämissen beruhen auf bereits entlarvten und rassistischen Theorien wie der Phrenologie. Eine einfache Möglichkeit, unseren experimentellen Ansatz zu überprüfen, besteht darin, zu prüfen, ob der Name unseres Zielmerkmals auf "iness" oder "ality" endet. Dies kann darauf hinweisen, dass wir eine Art Konstrukt höherer Ordnung modellieren und nicht etwas, das konkret messbar ist. Konstrukte höherer Ordnung wie Vertrauenswürdigkeit oder Kriminalität sind oft mit menschlichen und systemischen Vorurteilen behaftet, die unser System lernen wird. Wir sollten auch die Datenbank für KI-Vorfälle überprüfen, um sicherzustellen, dass wir nicht einfach ein fehlgeschlagenes Design wiederholen.

Die Wiederholung der Vergangenheit ist ein weiterer großer Fehler, den man mit ML leicht machen kann, wenn man das Experiment, das unser Modell impliziert, nicht durchdenkt. Eines der schlimmsten Beispiele für diese Art von grundlegendem Fehler bei der Versuchsplanung ist in der Krankenversicherung passiert und wurde in Science und Nature dokumentiert. Das Ziel der im Science-Artikel untersuchten Algorithmen war es, in die Versorgung der kränksten Patienten eines Krankenversicherers einzugreifen. Dies sollte sowohl für den Versicherer als auch für die Patienten ein Gewinn sein - die Kosten für die Versicherer würden sinken, wenn die Patienten mit dem größten Bedarf frühzeitig identifiziert und besser versorgt würden. Aber ein sehr grundlegender und sehr großer Designfehler führte dazu, dass die Algorithmen die Gesundheitsversorgung von den Bedürftigsten abzweigten! Was lief schief? Anstatt vorherzusagen, welche Patienten in Zukunft am kränksten sein werden, beschlossen die beteiligten Modellierer, vorherzusagen, wer die teuersten Patienten sein werden. Die Modellierer gingen davon aus, dass die teuersten Menschen auch die kränksten sind. Tatsächlich waren die teuersten Patienten ältere Menschen mit teuren Krankenversicherungstarifen und Zugang zu guter Pflege. Der Algorithmus leitete einfach mehr Leistungen an Menschen mit guter Gesundheitsversorgung um und kürzte die Mittel für diejenigen, die sie am dringendsten benötigten. Wie du dir vielleicht vorstellen kannst, waren diese beiden Bevölkerungsgruppen auch stark nach Rassen getrennt. In dem Moment, in dem die Modellierer die Kosten für die Gesundheitsversorgung als Zielgröße wählten und nicht einen Indikator für Gesundheit oder Krankheit, war dieses Modell zu einer gefährlichen Verzerrung verdammt. Wenn wir die Voreingenommenheit in ML verringern wollen, müssen wir nachdenken, bevor wir programmieren. Wenn wir versuchen, die wissenschaftliche Methode und das experimentelle Design in unseren ML-Modellierungsprojekten anzuwenden, sollten wir viel klarer darüber nachdenken, was wir tun, und auch mehr technische Erfolge erzielen.

Ansätze zur Verringerung von Vorurteilen

Selbst wenn wir die wissenschaftliche Methode und den Versuchsplan anwenden, kann unser ML-System immer noch verzerrt sein. Tests helfen uns, diese Verzerrungen zu erkennen, und wir wollen sie wahrscheinlich auch technisch behandeln. Es gibt viele Möglichkeiten, Verzerrungen zu behandeln, sobald sie entdeckt wurden, oder ML-Modelle zu trainieren, die versuchen, weniger Verzerrungen zu lernen. In dem kürzlich erschienenen Artikel "An Empirical Comparison of Bias Reduction Methods on Real-World Problems in High-Stakes Policy Settings" werden die gängigsten Methoden zur Reduzierung von Verzerrungen verglichen. Ein weiterer Artikel derselben Forschergruppe, "Empirical Observation of Negligible Fairness-Accuracy Trade-Offs in Machine Learning for Public Policy", befasst sich mit der falschen Vorstellung, dass wir bei der Behandlung von Verzerrungen die Genauigkeit opfern müssen. Wir machen unsere Modelle nicht weniger leistungsfähig, wenn wir sie weniger voreingenommen machen - ein weit verbreiteter Irrglaube in der Datenwissenschaft. Eine weitere gute Quelle für die technische Beseitigung von Verzerrungen ist das AIF360-Paket von IBM, in dem die meisten wichtigen Beseitigungstechniken enthalten sind. Wir werden die sogenannten Preprocessing-, Inprocessing- und Postprocessing-Ansätze sowie die Modellauswahl, die LM-Entgiftung und andere Techniken zur Beseitigung von Verzerrungen vorstellen.

Preprocessing-Techniken zur Verringerung von Verzerrungen wirken auf die Trainingsdaten des Modells und nicht auf das Modell selbst. Bei der Vorverarbeitung werden die Trainingsdaten neu ausgewählt oder neu gewichtet, um die Anzahl der Zeilen für jede demografische Gruppe auszugleichen oder zu verschieben oder die Ergebnisse gleichmäßiger über die demografischen Gruppen zu verteilen. Wenn die Qualität der Leistungen in den verschiedenen demografischen Gruppen ungleich ist, kann es hilfreich sein, die Vertretung der Gruppen mit schlechten Leistungen zu erhöhen. Wenn die positiven oder negativen Ergebnisse ungleich verteilt sind, was in der Regel durch statistische und praktische Signifikanztests festgestellt wird, kann eine Neuverteilung der Ergebnisse in den Trainingsdaten helfen, die Modellergebnisse auszugleichen.

Der Begriff "In-Processing" bezieht sich auf eine Reihe von Techniken, die den Trainingsalgorithmus eines Modells verändern, um dessen Ergebnisse weniger verzerrt zu machen. Es gibt viele Ansätze für das In-Processing, aber einige der populärsten sind Constraints, duale Zielfunktionen und kontradiktorische Modelle:

Zwänge

Ein großes Problem bei ML-Modellen ist ihre Instabilität. Eine kleine Änderung der Eingaben kann zu einer großen Änderung der Ergebnisse führen. Das ist besonders besorgniserregend, wenn es sich bei den ähnlichen Inputs um Menschen aus verschiedenen demografischen Gruppen handelt und die unterschiedlichen Ergebnisse die Gehälter oder Arbeitsempfehlungen dieser Menschen sind. In ihrem bahnbrechenden Buch "Fairness Through Awareness" beschreiben Cynthia Dwork et al. die Verringerung von Verzerrungen als eine Art von Einschränkung während des Trainings, die den Modellen hilft, ähnliche Personen ähnlich zu behandeln. ML-Modelle finden auch automatisch Wechselwirkungen. Dies ist aus der Perspektive der Verzerrung besorgniserregend, wenn die Modelle viele verschiedene Proxies für die demografische Gruppenzugehörigkeit lernen, und zwar über verschiedene Zeilen und Eingangsmerkmale für verschiedene Personen. Wir werden nie in der Lage sein, alle diese Proxys zu finden. Um zu verhindern, dass die Modelle ihre eigenen Proxys erstellen, kannst du Interaktionsbeschränkungen in XGBoost verwenden.

Doppelte Ziele

Bei der dualen Optimierung misst ein Teil der Verlustfunktion eines Modells den Modellierungsfehler und ein anderer Teil die Verzerrung, und durch Minimierung der Verlustfunktion wird ein leistungsfähiges und weniger verzerrtes Modell gefunden. "FairXGBoost: Fairness-Aware Classification in XGBoost" stellt eine Methode vor, mit der ein Regularisierungsterm für Verzerrungen in die Zielfunktion von XGBoost aufgenommen werden kann, der zu Modellen mit guten Kompromissen zwischen Leistung und Fairness führt.2

Adversarial Modelle

Adversarial-Modelle können auch dazu beitragen, dass das Training weniger einseitig ist. Bei einer Variante der adversen Modellierung wird ein Hauptmodell trainiert, das später eingesetzt werden soll. Dann versucht ein adverses Modell, die demografische Zugehörigkeit anhand der Vorhersagen des Hauptmodells vorherzusagen. Wenn dies gelingt, wird das Training des Gegenmodells fortgesetzt - zuerst wird das Hauptmodell und dann das Gegenmodell trainiert - bis das Gegenmodell die demografische Gruppenzugehörigkeit nicht mehr anhand der Vorhersagen des Hauptmodells vorhersagen kann.

In Studien verringern Pre- und In-Processing tendenziell die gemessene Verzerrung der Ergebnisse, aber es hat sich gezeigt, dass Post-Processing-Ansätze zu den effektivsten technischen Verzerrungsminderungen gehören. Beim Postprocessing werden die Modellvorhersagen direkt geändert, um sie weniger verzerrt zu machen. Gleiche Chancen oder gleiche Möglichkeiten sind einige gängige Schwellenwerte, die beim Rebalancing von Vorhersagen verwendet werden, d. h. bei der Änderung von Klassifizierungsentscheidungen, bis die Ergebnisse in etwa den Kriterien für gleiche Chancen oder Möglichkeiten entsprechen. Natürlich können auch kontinuierliche oder andere Arten von Ergebnissen geändert werden, um sie weniger verzerrt zu machen. Leider ist die Nachbearbeitung die rechtlich heikelste Art der technischen Verzerrungsreduzierung. Die Nachbearbeitung läuft oft darauf hinaus, dass positive Vorhersagen für Mitglieder der Kontrollgruppe in negative Vorhersagen umgewandelt werden, damit die Mitglieder geschützter oder marginalisierter Gruppen mehr positive Vorhersagen erhalten. Auch wenn diese Art von Modifikationen in vielen verschiedenen Szenarien erforderlich sein kann, solltest du besonders vorsichtig sein, wenn du die Nachbearbeitung in den Bereichen Konsumfinanzierung oder Beschäftigung anwendest. Wenn wir Bedenken haben, sollten wir mit Juristenkollegen über Ungleichbehandlung oder umgekehrte Diskriminierung sprechen.

Warnung

Da die Vor-, Zwischen- und Nachbereitungstechniken dazu neigen, die Modellergebnisse aufgrund der Zugehörigkeit zu einer demografischen Gruppe zu verändern, können sie Anlass zu Bedenken im Hinblick auf ungleiche Behandlung, umgekehrte Diskriminierung oder positive Maßnahmen geben. Konsultiere Rechtsexperten, bevor du diese Methoden in risikoreichen Szenarien einsetzt, insbesondere in den Bereichen Beschäftigung, Bildung, Wohnungswesen oder Verbraucherfinanzierung.

Einer der rechtlich konservativsten Ansätze zur Verringerung von Verzerrungen besteht darin, ein Modell auf der Grundlage von Leistung und Fairness auszuwählen, wobei die Modelle in einer Art Rastersuche über viele verschiedene Hyperparametereinstellungen und Eingabemerkmalsätze hinweg trainiert werden und demografische Informationen nur zum Testen der Kandidatenmodelle auf Verzerrungen verwendet werden. Siehe Abbildung 4-2. Sie zeigt die Ergebnisse einer zufälligen Rastersuche über zweihundert neuronale Netze. Auf der y-Achse sehen wir die Genauigkeit. Das höchste Modell auf dieser Achse wäre das Modell, das wir normalerweise als das beste auswählen. Wenn wir jedoch die Bias-Tests für diese Modelle auf der x-Achse hinzufügen, sehen wir, dass es mehrere Modelle mit fast der gleichen Genauigkeit und viel besseren Bias-Testergebnissen gibt. Die Hinzufügung von Bias-Tests zur Suche nach Hyperparametern verlängert die Gesamttrainingszeit um Sekundenbruchteile und eröffnet eine ganz neue Dimension bei der Auswahl von Modellen.

mlha 0402
Abbildung 4-2. Eine einfache, zufällige Rastersuche ergibt mehrere interessante Modelle, die ein gutes Gleichgewicht zwischen Genauigkeit und AIR bieten

Es gibt noch viele andere technische Hilfsmittel zur Abschwächung von Befangenheit. Einer der wichtigsten ist, wie bereits mehrfach in diesem Buch erwähnt, ein Mechanismus, der es ermöglicht, gegen falsche und folgenschwere ML-basierte Entscheidungen Einspruch zu erheben und sie aufzuheben. Wann immer wir ein Modell entwickeln, das sich auf Menschen auswirkt, sollten wir sicherstellen, dass wir auch einen Mechanismus entwickeln und testen, mit dem Menschen falsche Entscheidungen erkennen und anfechten können. Das bedeutet in der Regel, dass wir eine zusätzliche Schnittstelle bereitstellen, die den Nutzern die Dateneingaben und Vorhersagen erklärt und es ihnen ermöglicht, eine Änderung der Vorhersage zu verlangen.

Die Entgiftung, d.h. der Prozess, der verhindert, dass LMs schädliche Sprache wie Hassreden, Beleidigungen, Obszönitäten und Drohungen produzieren, ist ein weiterer wichtiger Bereich in der Bias-Minderungsforschung. Unter "Herausforderungen bei der Entgiftung von Sprachmodellen" findest du einen guten Überblick über einige der aktuellen Entgiftungsansätze und die damit verbundenen Herausforderungen. Da man davon ausgeht, dass Verzerrungen dadurch entstehen, dass Modelle die Realität systematisch falsch abbilden, werden kausale Schlussfolgerungen und Entdeckungstechniken, mit denen sichergestellt werden soll, dass Modelle kausale Phänomene der realen Welt abbilden, ebenfalls als Mittel zur Verringerung von Verzerrungen angesehen. Auch wenn der Kausalschluss aus Beobachtungsdaten nach wie vor eine Herausforderung darstellt, sind Kausalerkennungsansätze wie LiNGAM, die nach Eingabemerkmalen mit einer gewissen kausalen Beziehung zum Vorhersageziel suchen, definitiv etwas, das wir bei unserem nächsten ML-Projekt in Betracht ziehen sollten.

Warnung

Die Bemühungen zur Eindämmung von Vorurteilen müssen überwacht werden. Der Abbau von Vorurteilen kann fehlschlagen oder zu schlechteren Ergebnissen führen.

Wir schließen diesen Abschnitt mit einer Warnung ab. Ohne die menschlichen Faktoren, die wir als Nächstes erörtern, funktionieren technische Maßnahmen zur Verringerung von Vorurteilen wahrscheinlich nicht von allein. Es hat sich sogar gezeigt, dass Bias-Tests und Bias-Minderung zu keinen Verbesserungen oder sogar zu schlechteren Ergebnissen führen können. Wie ML-Modelle selbst muss auch die Bias-Minderung im Laufe der Zeit überwacht und angepasst werden, um sicherzustellen, dass sie hilft und nicht schadet. Wenn die Bias-Tests Probleme aufdecken und die Bias-Minderung diese nicht behebt, sollte das betreffende System nicht eingesetzt werden. Wie können wir verhindern, dass ein System eingesetzt wird, wenn so viele ML-Systeme als technische Lösungen betrachtet werden, die für einen erfolgreichen Einsatz prädestiniert sind? Indem wir die richtige Gruppe von Menschen in die Lage versetzen, die letzte Entscheidung zu treffen, und zwar durch eine gute Governance, die eine risikobewusste Kultur fördert!

Menschliche Faktoren bei der Entschärfung von Vorurteilen

Um sicherzustellen, dass ein Modell möglichst wenig verzerrt ist, bevor es zum Einsatz kommt, ist viel menschliche Arbeit erforderlich. Erstens brauchen wir eine demografisch und beruflich vielfältige Gruppe von Fachleuten und Interessenvertretern, um das System zu entwickeln, zu überprüfen und zu überwachen. Zweitens müssen wir unsere Nutzer/innen in den Aufbau, die Überprüfung und die Überwachung des Systems einbeziehen. Und drittens brauchen wir eine Steuerung, die sicherstellt, dass wir uns bei Verzerrungsproblemen selbst zur Verantwortung ziehen können.

Wir wollen nicht so tun, als hätten wir Antworten auf die immer wiederkehrenden Probleme mit der Vielfalt in der Tech-Branche. Aber wir wissen Folgendes: Viel zu viele Modelle und ML-Systeme werden von unerfahrenen und demografisch homogenen Entwicklungsteams mit wenig Fachwissen über den Anwendungsbereich entwickelt. Das macht die Systeme und ihre Betreiber anfällig für massive blinde Flecken. In der Regel bedeuten diese blinden Flecken einfach nur verlorene Zeit und Geld, aber sie können auch zu einer massiven Umleitung von Ressourcen im Gesundheitswesen, zur Verhaftung der falschen Personen, zu medialer und behördlicher Aufmerksamkeit, zu rechtlichen Problemen und Schlimmerem führen. Wenn wir uns bei den ersten Diskussionen über ein KI-System im Raum umsehen und nur ähnliche Gesichter sehen, müssen wir unglaublich hart arbeiten, um sicherzustellen, dass systemische und menschliche Vorurteile das Projekt nicht entgleisen lassen. Es ist ein bisschen Meta, aber es ist wichtig, darauf hinzuweisen, dass es auch problematisch ist, wenn immer dieselben Techniker die Regeln dafür aufstellen, wer an dem System beteiligt sein wird. Schon bei den ersten Diskussionen sollten wir versuchen, die Sichtweisen verschiedener Menschen, verschiedener Berufe, Menschen mit Fachwissen und Vertreter der Interessengruppen einzubringen. Und wir müssen sie weiterhin einbeziehen. Wird das unsere Produktgeschwindigkeit verlangsamen? Auf jeden Fall. Wird es dadurch schwieriger, "schnell zu arbeiten und Dinge zu zerstören"? Auf jeden Fall. Wird der Versuch, all diese Leute einzubeziehen, die technischen Führungskräfte und leitenden Ingenieure verärgern? Oh ja. Wie können wir es also schaffen? Wir müssen den Stimmen unserer Nutzerinnen und Nutzer Gehör verschaffen, die in vielen Fällen eine vielfältige Gruppe von Menschen mit vielen verschiedenen Wünschen und Bedürfnissen sind. Und wir brauchen ein Governance-Programm für unsere ML-Systeme. Leider ist es sehr schwierig, privilegierte technische Führungskräfte und leitende Ingenieure dazu zu bringen, sich um Voreingenommenheit in ML zu kümmern, wenn eine verschrobene Person oder sogar eine Gruppe von gewissenhaften Praktikern keine breitere Unterstützung im Unternehmen findet.

Eine der Möglichkeiten, wie wir den organisatorischen Wandel in Bezug auf ML-Bias einleiten können, ist die Interaktion mit den Nutzern. Nutzer/innen mögen keine kaputten Modelle. Sie mögen keine räuberischen Systeme, und sie mögen es nicht, wenn sie automatisch und in großem Umfang diskriminiert werden. Das Feedback der Nutzerinnen und Nutzer ist nicht nur gut fürs Geschäft, sondern hilft uns auch, Probleme in unserem Design zu erkennen und Schäden aufzudecken, die bei statistischen Bias-Tests übersehen werden können. Wir möchten noch einmal betonen, dass es sehr unwahrscheinlich ist, dass statistische Verzerrungstests aufdecken, wie oder wann Menschen mit Behinderungen oder Menschen, die auf der anderen Seite der digitalen Kluft leben, Schaden erleiden, weil sie das System nicht nutzen können oder es für sie auf seltsame Weise funktioniert. Wie können wir diese Art von Nachteilen aufspüren? Indem wir mit unseren Nutzern sprechen. Wir schlagen nicht vor, dass Ingenieure zu ihren Nutzern nach Hause gehen, aber wir schlagen vor, dass Unternehmen bei der Entwicklung und dem Einsatz von ML-Systemen Standardmechanismen wie User Stories, UI/UX-Forschungsstudien, menschenzentriertes Design und Bug Bounties einsetzen, um auf strukturierte Weise mit ihren Nutzern zu interagieren und das Feedback der Nutzer in die Verbesserung des Systems einfließen zu lassen. Der Fall am Ende des Kapitels zeigt, wie strukturiertes und incentiviertes Nutzerfeedback in Form eines Bug Bounty Probleme in einem großen und komplexen ML-System aufdeckt.

Eine weitere wichtige Möglichkeit, die Organisationskultur zu verändern, ist die Unternehmensführung. Deshalb haben wir das Buch in Kapitel 1 mit Governance begonnen. Hier erklären wir kurz, warum Governance wichtig ist, um Vorurteile abzubauen. In vielerlei Hinsicht geht es bei der Voreingenommenheit im ML um Schlamperei und manchmal auch um böse Absicht. Governance kann bei beidem helfen. Wenn die schriftlichen Richtlinien und Verfahren eines Unternehmens vorschreiben, dass alle ML-Modelle vor ihrem Einsatz gründlich auf Verzerrungen oder andere Probleme getestet werden, werden wahrscheinlich mehr Modelle getestet, was die Leistung der ML-Modelle für das Unternehmen erhöht und hoffentlich die Wahrscheinlichkeit von unbeabsichtigten Verzerrungen verringert. Die Dokumentation und insbesondere die Vorlagen für die Modelldokumentation, die die Praktiker/innen durch die von der Richtlinie vorgeschriebenen Arbeitsschritte führen, sind ein weiterer wichtiger Bestandteil der Governance. Entweder füllen wir als Praktiker/innen die Modelldokumentation vollständig aus und vermerken die richtigen Schritte, die wir unternommen haben, um die von unserer Organisation als bewährte Methoden definierten Vorgaben zu erfüllen, oder wir tun es nicht. Mit der Dokumentation gibt es eine Papierspur, und mit einer Papierspur gibt es eine gewisse Hoffnung auf Verantwortlichkeit. Die Führungskräfte sollten gute Arbeit in den Musterdokumenten sehen können, aber auch nicht so gute Arbeit. Im letzteren Fall kann die Geschäftsleitung eingreifen und die betreffenden Mitarbeiter/innen schulen lassen, und wenn die Probleme weiter bestehen, können disziplinarische Maßnahmen ergriffen werden. Was die rechtlichen Definitionen von Fairness angeht, die für Unternehmen, die ML einsetzen, ein echtes Problem darstellen können, so können Richtlinien allen helfen, sich an die Gesetze zu halten, und die Überprüfung der Musterdokumentation durch die Geschäftsleitung kann dabei helfen, zu erkennen, wenn die Praktiker sich nicht daran halten. Was die menschlichen Voreingenommenheiten angeht, die ML-Modelle verderben können, so können Richtlinien bewährte Methoden festlegen, um sie zu vermeiden, und die Überprüfung der Modelldokumentation durch das Management kann helfen, sie zu erkennen, bevor die Modelle eingesetzt werden.

Schriftliche Richtlinien und Verfahren sowie eine obligatorische Modelldokumentation tragen zwar wesentlich dazu bei, die Unternehmenskultur in Bezug auf die Erstellung von Modellen zu prägen, aber bei der Governance geht es auch um Organisationsstrukturen. Ein verrückter Datenwissenschaftler kann nicht viel gegen den Missbrauch von ML-Modellen in einem großen Unternehmen ausrichten. Wir brauchen organisatorische Unterstützung, um Veränderungen zu bewirken. Die ML-Governance sollte auch die Unabhängigkeit der Modellvalidierung und anderer Aufsichtspersonen sicherstellen. Wenn die Tester den Entwicklungs- oder ML-Managern unterstellt sind und danach beurteilt werden, wie viele Modelle sie einsetzen, dann tun die Tester wahrscheinlich nicht viel mehr, als fehlerhafte Modelle abzustempeln. Deshalb besteht das Modellrisikomanagement (MRM), wie es von den US-Aufsichtsbehörden definiert wird, darauf, dass die Modelltester/innen völlig unabhängig von den Modellentwicklern/innen sind, die gleiche Ausbildung und die gleichen Fähigkeiten wie die Modellentwickler/innen haben und genauso bezahlt werden wie die Modellentwickler/innen. Wenn der Director of Responsible ML dem VP of Data Science und dem Chief Technology Officer (CTO) unterstellt ist, kann er seinen Vorgesetzten nicht "nein" sagen. Er ist wahrscheinlich nur ein Aushängeschild, das seine Zeit damit verbringt, dem Unternehmen ein besseres Gefühl für seine fehlerhaften Modelle zu geben. Aus diesem Grund definiert MRM eine leitende Funktion, die sich auf ML-Risiken konzentriert, und legt fest, dass diese leitende Funktion nicht dem CTO oder CEO, sondern direkt dem Vorstand unterstellt ist (oder einem Chief Risk Officer, der ebenfalls dem Vorstand unterstellt ist).

Vieles an Governance läuft auf einen entscheidenden Begriff hinaus, den mehr Datenwissenschaftler/innen kennen sollten: effective challenge. Unter effektiver Anfechtung versteht man im Wesentlichen eine Reihe von Organisationsstrukturen, Geschäftsprozessen und kulturellen Kompetenzen, die eine qualifizierte, objektive und befugte Aufsicht und Steuerung von ML-Systemen ermöglichen. In vielerlei Hinsicht geht es bei der effektiven Anfechtung darum, jemanden in einer Organisation zu haben, der den Einsatz eines ML-Systems stoppen kann, ohne Vergeltungsmaßnahmen oder andere negative berufliche oder persönliche Konsequenzen befürchten zu müssen. Allzu oft haben leitende Ingenieure, Wissenschaftler und Führungskräfte aus dem Technologiebereich einen unangemessenen Einfluss auf alle Aspekte von ML-Systemen, einschließlich ihrer Validierung, der so genannten Governance, und wichtiger Entscheidungen über ihren Einsatz oder ihre Stilllegung. Das widerspricht dem Konzept der effektiven Herausforderung und dem wissenschaftlichen Grundprinzip der objektiven Expertenprüfung. Wie wir bereits weiter oben im Kapitel beschrieben haben, können solche Bestätigungsfehler, Finanzierungsfehler und Techno-Chauvinismus zur Entwicklung von pseudowissenschaftlichen ML-Systemen führen, die systembedingte Fehler aufrechterhalten.

Auch wenn es keine Patentlösung für die Voreingenommenheit im ML-System gibt, sind zwei Themen für dieses Kapitel besonders wichtig. Erstens: Der erste Schritt in jedem Prozess zur Verringerung von Vorurteilen ist die Einbeziehung einer demografisch und beruflich vielfältigen Gruppe von Interessenvertretern. Schritt 0 für ein ML-Projekt ist es, verschiedene Interessengruppen in den Raum (oder per Videoanruf) zu holen, wenn wichtige Entscheidungen getroffen werden! Zweitens gehören menschenzentriertes Design, Bug Bounties und andere standardisierte Prozesse, die sicherstellen, dass die Technologie den Bedürfnissen der menschlichen Interessengruppen entspricht, zu den effektivsten Ansätzen, um Vorurteile abzubauen. Wir schließen das Kapitel mit einer Falldiskussion über die Voreingenommenheit des Bildverarbeitungsalgorithmus von Twitter und wie ein Bug Bounty eingesetzt wurde, um mehr darüber von den Nutzern zu erfahren .

Fallstudie: Das Bias Bug Bounty

Dies ist eine Geschichte über ein fragwürdiges Modell und eine sehr anständige Reaktion darauf. Im Oktober 2020 erhielt Twitter die Rückmeldung, dass sein Image-Cropping-Algorithmus sich möglicherweise verzerrt verhält. Der Image-Cropping-Algorithmus nutzte eine XAI-Technik, eine Saliency Map, um zu entscheiden, welcher Teil eines von Nutzern hochgeladenen Bildes am interessantesten war, und erlaubte den Nutzern nicht, diese Entscheidung zu beeinflussen. Beim Hochladen von Fotos, die in einen Tweet eingefügt werden sollten, hatten einige Nutzer das Gefühl, dass der ML-basierte Bildausschneider weiße Menschen in Bildern bevorzugte und sich auf die Brust und die Beine von Frauen konzentrierte (male gaze bias). Das ML Ethics, Transparency, and Accountability (META)-Team unter der Leitung von Rumman Chowdhury hat einen Blogartikel, Code und ein Papier veröffentlicht, in dem die Probleme und die Tests beschrieben werden, die sie durchgeführt haben, um die Voreingenommenheit der Nutzer zu verstehen. Dieses Maß an Transparenz ist lobenswert, aber dann unternahm Twitter einen noch einzigartigeren Schritt. Es schaltete den Algorithmus aus und ließ die Nutzer/innen einfach ihre eigenen Fotos posten, die in vielen Fällen nicht beschnitten waren. Bevor wir uns dem Bug Bounty zuwenden, das später eingeführt wurde, um die Auswirkungen auf die Nutzerinnen und Nutzer noch besser zu verstehen, ist es wichtig, die Entscheidung von Twitter zu betonen, den Algorithmus abzuschalten. Hype, kommerzieller Druck, einseitige Finanzierung, Gruppendenken, der Trugschluss der versunkenen Kosten und die Sorge um die eigene Karriere - all das macht es extrem schwierig, ein hochkarätiges ML-System außer Betrieb zu nehmen. Aber genau das hat Twitter getan und damit ein gutes Beispiel für den Rest von uns gegeben. Wir müssen keine kaputten oder unnötigen Modelle einsetzen, und wir können Modelle abschalten, wenn wir Probleme finden.

Abgesehen von der Transparenz der Probleme und der Rücknahme des Algorithmus beschloss Twitter dann, ein einseitiges Bug Bounty zu veranstalten, um strukturiertes Nutzerfeedback zu dem Algorithmus zu erhalten. Wie bei einem Bug Bounty üblich, wurden die Nutzer mit Geldpreisen für diejenigen, die die schlimmsten Fehler fanden, zur Teilnahme motiviert. Die Struktur und die Anreize sind der Schlüssel zum Verständnis des einzigartigen Werts eines Bug Bounty als Mechanismus für Nutzerfeedback. Die Struktur ist wichtig, weil es für große Organisationen schwierig ist, auf unstrukturiertes Ad-hoc-Feedback zu reagieren. Es ist schwer, einen Grund für eine Veränderung zu finden, wenn das Feedback in Form einer E-Mail hier, eines Tweets dort und eines gelegentlichen, unpassenden Artikels in den Tech-Medien eingeht. Das META-Team hat sich die Mühe gemacht, eine strukturierte Rubrik zu erstellen, in der die Nutzer/innen ihr Feedback abgeben können. Das bedeutet, dass die Rückmeldungen leichter zu überprüfen sind, von einer größeren Anzahl von Interessenvertretern geprüft werden können und sogar eine numerische Bewertung enthalten, um den verschiedenen Interessenvertretern zu helfen, den Schweregrad des Problems zu verstehen. Die Rubrik kann von allen genutzt werden, die Schäden in der Computer Vision oder in Systemen zur Verarbeitung natürlicher Sprache verfolgen wollen, bei denen Messungen der praktischen und statistischen Signifikanz und der unterschiedlichen Leistung oft nicht die ganze Geschichte der Verzerrung erzählen. Auch Anreize sind wichtig. Auch wenn uns der verantwortungsvolle Umgang mit ML sehr am Herzen liegt, haben die meisten Menschen und sogar die Nutzer von ML-Systemen andere Sorgen oder verstehen nicht, wie ML-Systeme ernsthaften Schaden anrichten können. Wenn wir wollen, dass die Nutzerinnen und Nutzer ihren Alltag unterbrechen und uns von unseren ML-Systemen erzählen, müssen wir sie bezahlen oder andere sinnvolle Anreize schaffen.

Laut AlgorithmWatch, einer EU-Denkfabrik, die sich mit den sozialen Auswirkungen automatisierter Entscheidungsfindung befasst, war das Bug Bounty "ein beispielloses Experiment der Offenheit". Da der Code von Image-Cropper für die Teilnehmer des Kopfgeldes offen war, fanden die Nutzer viele neue Probleme. Laut Wired entdeckten die Teilnehmer an der Bug Bounty auch eine Voreingenommenheit gegenüber Personen mit weißen Haaren und sogar gegenüber Memes, die in nicht-lateinischen Schriften geschrieben sind - das heißt, wenn wir ein Meme posten wollten, das in Chinesisch, Kyrillisch, Hebräisch oder einer der vielen anderen Sprachen geschrieben ist, die nicht das lateinische Alphabet verwenden, würde der Zuschneidealgorithmus gegen uns arbeiten. AlgorithmWatch hat auch eines der seltsamsten Ergebnisse des Wettbewerbs hervorgehoben. Der Bildbeschneider wählte oft die letzte Zelle eines Comics aus und verdarb so den Nutzern den Spaß beim Teilen von Medien, die das Comicformat verwenden. Am Ende gingen 3.500 $ und der erste Preis an einen Studenten aus der Schweiz, Bogdan Kulynych. Kulynychs Lösung verwendete Deepfakes, um Gesichter in verschiedenen Formen, Schattierungen und Altersstufen zu erstellen. Mit diesen Gesichtern und dem Zugriff auf den Beschneidungsalgorithmus konnte er empirisch nachweisen, dass die Saliency-Funktion des Algorithmus, mit der die interessanteste Region eines hochgeladenen Bildes ausgewählt wird, wiederholt jüngere, dünnere, weißere und weiblichere Gesichter bevorzugt.

Die Bias-Bounty war nicht ohne Kritik. Einige Aktivisten der Zivilgesellschaft äußerten Bedenken, dass die hohe Aufmerksamkeit eines Tech-Unternehmens und einer Tech-Konferenz von den sozialen Ursachen algorithmischer Verzerrungen ablenkt. AlgorithmWatch weist scharfsinnig darauf hin, dass die ausgelobten 7.000 US-Dollar deutlich weniger sind als die Kopfgelder für Sicherheitslücken, die im Durchschnitt bei 10.000 US-Dollar pro Fehler liegen. Außerdem wird darauf hingewiesen, dass 7.000 US-Dollar 1-2 Wochengehältern von Ingenieuren im Silicon Valley entsprechen und dass Twitters eigenes Ethik-Team erklärt hat, dass die einwöchige Bug-Bounty etwa dem Wert eines Jahres an Tests entspricht. Zweifellos profitierte Twitter von der Bug-Bounty und zahlte einen geringen Preis für die von den Nutzern bereitgestellten Informationen. Gibt es noch andere Probleme bei der Verwendung von Bug Bounties als Risikominderungsmaßnahme? Natürlich gibt es die, und Kulynych hat diese und andere drängende Probleme in der Online-Technologie gut zusammengefasst. Laut dem Guardian hatte Kulynych gemischte Gefühle gegenüber dem Bug Bounty und meinte: "Algorithmische Schäden sind nicht nur Bugs. Viele schädliche Technologien sind nicht aufgrund von Unfällen oder unbeabsichtigten Fehlern schädlich, sondern weil sie so konzipiert sind. Das liegt an der Maximierung des Engagements und im Allgemeinen am Gewinn, der die Kosten auf andere abwälzt. Die Verstärkung der Gentrifizierung, die Senkung der Löhne, die Verbreitung von Clickbait und Fehlinformationen sind zum Beispiel nicht unbedingt auf voreingenommene Algorithmen zurückzuführen." Kurz gesagt: Bei ML Bias und den damit verbundenen Schäden geht es mehr um Menschen und Geld als um Technologie.

1 Die Autorinnen und Autoren sind sich der potenziellen Anstößigkeit einiger der in diesem Zitat vorkommenden Begriffe bewusst. Das Quellenmaterial, NIST SP1270 AI, wurde überprüft und durch das Potenzial für extremen Schaden gerechtfertigt, wenn wissenschaftliche Strenge in der KI ignoriert wird.

2 Beachte, dass die Aktualisierung der Verlustfunktionen für XGBoost ziemlich einfach ist.

Get Maschinelles Lernen für hochriskante Anwendungen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.