Vielversprechend: Fairness in der Sprachverarbeitung

Fairness ist ein zentraler Aspekt der ethisch verantwortungsvollen Entwicklung und Anwendung künstlicher Intelligenz (KI). Da Menschen möglicherweise voreingenommen sind, sind es ggf. auch Machine Learning (ML)-Modelle, die auf Daten trainiert werden, die menschliche Vorurteile (engl. biases) widerspiegeln — insbesondere auch ML-basierte Natural Language Processing (NLP)-Modelle.

Ein prominentes Beispiel für ein voreingenommenes (engl. biased) ML-basiertes NLP-Modell ist die Übersetzung von „She is a doctor. He was a nurse.“ vom Englischen ins Ungarische und zurück durch Google Translate. Die Übersetzung ins Ungarische führt zu „Ő egy orvos. Ápolónő volt.“. Die Rückübersetzung ins Englische führt zu „He is a doctor. She was a nurse.“ Ungarisch ist eine geschlechtsneutrale Sprache ohne geschlechtsspezifische Personalpronomen. Bei der Übersetzung ins Ungarische geht daher die Information bzgl. des Geschlechts verloren. Bei der Rückübersetzung ins Englische werden die Personalpronomen dann durch Google Translate’s Statistical Machine Translation (SMT)-Modell bestimmt. Scheinbar hat dieses SMT-Modell erlernt, dass es wahrscheinlicher ist, dass ein Mann ein Arzt und eine Frau eine Krankenschwester ist, und übersetzt — ohne das es hierfür weitere Evidenz gibt — entsprechend. Ein noch extremeres Beispiel findet sich hier. Dieses Verhalten von Google Translate kann jedoch nur bei der Übersetzung mehrerer Sätze beobachtet werden kann. Bei der Übersetzung einzelner Sätze erlaubt es bereits die Auswahl geschlechtsspezifischer Übersetzungen: So bietet Google Translate bei der Übersetzung von „Ő egy orvos.“ von Ungarisch nach Englisch sowohl „She is a doctor.“ als auch „He is a doctor.“ an.

Abgesehen von Geschlechterstereotypen können NLP-Modelle auch andere Biases aufweisen, bspw. rassistische oder religiöse Stereotypen. Zweifelsohne können voreingenommene Modelle dadurch Schaden verursachen, wenn sie produktiv eingesetzt werden:

Ein voreingenommenes KI-System kann bestimmten Gruppen bestimmte Ressourcen oder Möglichkeiten zuweisen oder sie ihnen vorenthalten und die Unterordnung dieser Gruppen entlang ihrer Identität verstärken. (Kate Crawford auf der Conference on Neural Information Processing Systems 2017).

Voreingenommene KI-Systeme wurden bspw. für die Diskriminierung von Afroamerikanern und die Diskriminierung von Frauen verantwortlich gemacht. Außerdem wurde gezeigt, dass ML-Modelle Vorurteile zum Zeitpunkt ihrer Anwendung nicht nur reproduzieren, sondern sogar verstärken.

Wenn die Daten, auf denen wir (NLP-)Modelle trainieren, vorurteilsbehaftet sind, sind dies auch unsere (NLP-)Modelle. Aber woher kommt der Bias in unseren (Trainings-)Daten? Es gibt verschiedene Arten von Bias, die häufig miteinander zusammenhängen und die Erstellung von Datensätzen beeinflussen können, bspw. der sog. Selection Bias und der sog. Demographic Bias — d.h. Datensätze enthalten latente Informationen über die Personen, die sie erstellt haben. Weitere Arten von Bias sind bspw. der sog. Confirmation Bias, der sog. Human Reporting Bias, der sog. Out-of-group Homgeneity Bias und die sog. Correlation Fallacy.

Um diesen Biases entgegenzuwirken, können wir entweder unsere Daten oder unsere Modelle „debiasen“. Daten-Debiasing — bspw. durch das Korrigieren oder Entfernen von vorurteilsbehafteten Labels und Datenpunkten — passt zu dem, was Andrew Ng kürzlich propagiert: dem Übergang von modellzentrierter zu datenzentrierter KI. Auch die Erweiterung unserer (Trainings-)Daten (engl. data augmentation), bspw. durch den Austausch von Personalpronomen, ist ein Weg, Bias in Daten, auf denen wir unsere NLP-Modelle trainieren, entgegenzuwirken. Bemerken wir, dass unsere Datensätze in einem inakzeptablen Maß Vorurteile widerspiegeln und ein Debiasing unmöglich ist, sollten wir diese nicht verwenden und auch andere davon abhalten, sie zu verwenden, so wie dies bspw. für den Computer Vision-Datensatz TinyImages geschehen ist.

Zum Model-Debiasing wurden bereits zahlreiche Untersuchungen durchgeführt. Viele dieser Forschungsarbeiten konzentrieren sich dabei auf die grundlegende NLP-Technologie der Gegenwart: Vektor-basierte Wortrepräsentationen (engl. word embeddings) bzw. Sprachmodelle (engl. language models), auf die sich nahezu alle modernen NLP-Modelle stützen. Model-Debiasing wird dabei üblichweise als ein Optimierungsproblem formuliert. Ansätze sind hier u.a.

Einige Forschungsarbeiten, die sich nicht auf das Debiasing Vektor-basierter Wortrepräsentationen konzentrieren, sondern auf das Debiasing spezifischer NLP-Modelle — bspw. für Dialogsysteme — finden sich u.a. in dieser Zusammenfassung.

Ob wir Biases überhaupt aus unseren Modellen entfernen sollten („awareness is better than blindness“), ist Gegenstand aktueller Debatten; wenn wir es tun, ist bisher unklar, ob es überhaupt möglich ist, diese Biases vollständig zu beseitigen. Gerade deswegen ist es von größter Bedeutung, Biases in unseren Daten und Modellen als solche zu erkennen. Hierfür müssen wir Praktiken etablieren, durch die wir nicht nur die Genauigkeit unserer (NLP-)Modelle messen — bspw. anhand üblicher Qualitätsmaße wie dem F-Score — sondern sie auch hinsichtlich der Inklusion evaluieren, bspw. indem wir ihre Genauigkeit hinsichtlich bestimmter Gruppen bewerten.

Kontakt

Nicht alle wichtigen Informationen
stehen in Tabellen.

Nutzen Sie auch das, was sich in den Texten und Grafiken Ihrer Berichte befindet. Schreiben Sie uns!