Vielversprechend: Erklärbare KI

In unserem “Ethik und KI”-Artikel beleuchten wir ausführlich, wie Künstliche Intelligenz (KI) verantwortungsvoll entwickelt und angewendet werden kann. In diesem Blog-Eintrag gehen wir näher auf einen zentralen Aspekt verantwortungsvoller KI-Entwicklung und -Anwendung ein: die Erklärbarkeit von Entscheidungen, die durch KI getroffen werden.

Erklärbar heißt hier, die Ursachen eines Sachverhaltes durch die Darstellung seiner logischen und kausalen Zusammenhänge verständlich zu machen. Verständlich sind für den Menschen bspw. zwei- oder dreidimensionale Räume sowie Sequenzen bekannter Wörter und Symbole. Nicht direkt verständlich hingegen sind hoch-dimensionale Räume — wie bspw. Word Embeddings, also Vektor-Repräsentationen von Wörtern — oder Sequenzen unbekannter Wörter und Symbole.

Eine Möglichkeit, Entscheidungen, die durch KI getroffen werden, erklärbar zu machen, ist der Einsatz Erklärbarer KI (engl. Explainable AI, XAI). XAI stellt Methoden bereit, die zur Erklärung von KI-Systemen — vornehmlich Verfahren des Maschinellen Lernens (engl. Machine Learning, ML)dienen. Damit ist XAI u.a. ein wichtiger Baustein zur Umsetzung der Datenschutz-Grundverordnung(DSGVO) der EU.

Im Bezug auf XAI unterscheidet man zwischen post-hoc (lat. nach diesem) und ante-hoc (lat. vor diesem) Erklärungsansätzen. Post-hoc Ansätze erklären etwas erst zur Vorhersagezeit, ante-hoc Ansätze bereits zur Trainingszeit. Ante-hoc Ansätze sind “von Natur aus” transparent. Hier spricht man im Gegensatz zur intransparenten Black Box oft von einer sog. Glass Box. Einige “klassische” ML-Verfahren sind solche Glass Boxes, bspw. Entscheidungsbäume (engl. Decision Trees) und auch stark regularisierte logistische Regression (engl. Logistic Regression). Weiterhin unterscheidet man lokale von globalen Erklärungsansätzen. Lokale Ansätze erklären spezifische Vorhersagen des Modells, globale Ansätze oft das gesamte Modell.

Bekannte Vertreter der lokalen post-hoc Ansätze sind bspw. Local Interpretable Model-Agnostic Explanations (LIME) und Layer-wise Relevance Propagation (LRP). LIME ist — wie der Name erahnen lässt — ein Modell-unspezifisches Verfahren, mit dem sich einzelne Vorhersagen prinzipiell beliebiger Modelle erklären lassen; allerdings lauern hier auch Fallstricke, bspw. falls sich das zu erklärende Modell (auch) lokal nicht-linear verhält. Wie LIME funktioniert, verdeutlicht Abbildung 1. Sie erklärt, warum ein Modell voraussagt, dass das gezeigte Bild einen Baumfrosch zeigt:

Abbildung 1: Lokale post-hoc Modellerklärung durch LIME.

Im Gegensatz zu diesem Modell-unspezifischen Verfahren dient LRP ausschließlich der Erklärung nicht-linearer Modelle, wie künstlicher neuronaler Netze (KNN), also u.a. der Erklärung von Deep Learning-Architekturen: durch LRP kann sichtbar gemacht werden, welche Teile des Modells — insbesondere welche Teile der Eingabe — einen besonders großen Einfluss auf die Ausgabe haben. Was LRP leistet, verdeutlicht Abbildung 2. Sie zeigt für 2 Modelle, welche Wörter für die Klassifikation des Dokuments einen besonders großen Einfluß haben:

Abbildung 2: Lokale post-hoc Modellerklärung durch LRP.

Ein nicht lokaler, sondern globaler post-hoc Erklärungsansatz ist bspw. die Nutzung von Shapley-Werten (engl. Shapley values), um den Einfluß bestimmter Features zu bemessen. Abbildung 3 visualisiert dies:

Abbildung 3: Globale post-hoc Modellerklärung durch Shapley-Werte.

Grundsätzlich bewegt sich Erklärbare KI im Spannungsfeld zwischen der Genauigkeit (engl. accuracy) eines Modells, und dessen Interpretierbarkeit (engl. interpretability) bzw. Erklärbarkeit. Bisher gilt oft: Umso genauer ein Modell ist, umso weniger interpretierbar ist es. Und umso interpretierbarer ein Modell, umso weniger genau ist es. Abbildung 4 aus einem Artikel von Arrieta et al. verdeutlicht diesen Zusammenhang:

Abbildung 4: Zusammenhang zwischen Modell-Genauigkeit und -Erklärbarkeit.

Hier sieht man: Support Vector Machines (SVM) und Deep Learning-Architekturen erreichen bspw. hohe Genauigkeit, sind jedoch per se nur sehr schlecht interpretierbar. Ziel aktueller Forschung im Bereich XAI ist es dementsprechend oft, vor allem solche ML-Methoden hoher Genauigkeit im Nachhinein mit Erklärungen zu versehen, etwa mittels der oben beschriebenen post-hoc Methoden, und diese Methoden hinsichtlich ihrer Zuverlässigkeit zu evaluieren (S. 43ff). Doch auch völlig neuartige ML-Methoden, die neben hoher Genauigkeit eben auch eine möglichst hohe Interpretierbarkeit aufweisen, werden entwickelt, bspw. innerhalb des DARPA XAI-Forschungsprogramms.

Sollen XAI-Verfahren nun sofort eingesetzt werden, kann sowohl auf diverse Open Source-Projekte — etwa dieses für LIME oder dieses für Shapley-Werte — zurückgegriffen werden, als auch auf Angebote großer KI-Dienstleister: So bietet Googles Cloud Service in ihrer Explainable AI u.a. ein “Was wäre wenn?”-Werkzeug (engl. What if? tool) an, um die Zusammenhänge zwischen Modell-Eingabe und -Ausgabe zu analysieren.

Offensichtlich ist also: Erklärbare KI ist nicht nur bereits jetzt möglich, sie ist je nach Anwendungsgebiet der KI sogar geboten. Sie kann u.a. dazu dienen, Vertrauen in KI zu schaffen, Regularien zu erfüllen und Modelle bzw. die ihnen zugrundeliegenden Trainingsdaten zu verstehen und dadurch zu verbessern. Für eine verantwortungsvolle Entwicklung und Anwendung von KI ist Erklärbare KI somit unersetzlich und schafft echte Mehrwerte.

Kontakt

Nicht alle wichtigen Informationen
stehen in Tabellen.

Nutzen Sie auch das, was sich in den Texten und Grafiken Ihrer Berichte befindet. Schreiben Sie uns!