Technologie

Datenschutzkonforme KI

Wie KI durch Föderiertes Lernen erfolgreich & datenschutzkonform trainiert werden kann.

Mit Datenschutz wird in Deutschland nahezu jeder KI-Praktizierende konfrontiert. Häufig wird Datenschutz ― undifferenziert ― als Ursache dafür angesehen, dass KI-Projekte nicht umgesetzt werden können. Denn: Für das Training von KI-Modellen müssen sämtliche relevanten Daten auf einem Server verfügbar gemacht werden. Das ist dann problematisch, wenn die Daten in separaten Silos liegen, die nicht zusammengeführt werden dürfen.

Dies betrifft u.a. auch die Situation, in der ein KI-Dienstleister einem anderen Unternehmen ein trainiertes KI-Modell liefern soll, dafür aber Zugriff auf die Daten des Unternehmens benötigt. Hierfür ist jedoch eine entsprechende Vereinbarung mit allen real Betroffenen nötig, was für Unternehmen mit Tausenden von Kunden in der Regel unpraktikabel ist. Bisher waren mögliche Lösungen dieses Problems die Trainings-Infrastruktur im Unternehmen selbst (“on-premise”) aufzubauen oder die Daten ― so überhaupt möglich ― entweder zu anonymisieren oder gar zu synthetisieren, also künstliche Daten zu erzeugen.

Alle Daten überall?

Doch wie wäre es, wenn die Grundvoraussetzung für das KI-Training ― das Vorhandensein aller Daten auf einen zentralen Server ― entfallen würde? Könnte so ein KI-Training überhaupt noch richtig lernen? Und welche Probleme ergäben sich dann?

Tatsächlich gibt es bereits eine Form des Maschinellen Lernens, bei der mehrere Server gemeinsam an ein und demselben Training arbeiten. Es handelt sich dabei um das Verteilte Lernen (distributed training). Die Experimente vieler aktueller Veröffentlichungen im Bereich Deep Learning basieren auf Berechnungen, die über dutzende, teilweise sogar hunderte von Servern hinweg verarbeitet werden. Oft können nur dadurch überhaupt die nötigen Berechnungen ausreichend schnell durchgeführt werden, denn der Trend der letzten Jahre zeigt: immer mehr Daten fließen in immer größere Modelle.

Beim Verteilten Lernen werden jedoch sämtliche Daten auf mindestens einem Server verfügbar gemacht. Tatsächlich benötigt wird aber eine Methode, die ein Training auch dann erfolgreich absolvieren kann, wenn jedem Server nur ein Teil der Daten dauerhaft zur Verfügung steht.

Föderiertes Lernen

Diese Methode heißt föderiertes Lernen (federated learning). Hierbei befinden sich sämtliche Daten in separaten Datensilos, auf die der zentrale KI-Trainer keinen Zugriff hat. In diesen Datensilos werden ― unabhängig voneinander ― zunächst Teilmodelletrainiert. Diese sind per Definition zunächst “unvollständig trainiert”, da für ihr Training nur eine Teil aller Daten genutzt wurde.

Diese Teilmodelle werden dann an den zentralen KI-Trainer-Server gesendet, welcher sie zu einem Gesamtmodell aggregiert. Dieses Gesamtmodell ist allerdings noch immer “unvollständig trainiert”, da für das Training zwar alle Daten genutzt wurden, die Modell-Parameter aber bisher nicht in ihrer Gesamtheit justiert wurden.

Dieses (nach wie vor unvollständig trainierte) Gesamtmodell wird dann wieder an die einzelnen Datensilos verteilt. In den Datensilos wird das Silo-individuelle Training fortgesetzt. Die daraus resultierenden Teilmodelle werden wieder an den zentralen KI-Trainer-Server gesendet.

Dieser Kreislauf des Hin- und Herreichens der Modelle wird wiederholt, bis das Gesamtmodell eine gewisse Güte erreicht und somit als “vollständig trainiert” gilt. Wichtig ist: Die Teilmodelle, die an den zentralen KI-Trainer-Server gesendet werden, beinhalten lediglich die aus den Daten erlernten Muster. Aus diesen Mustern können die Ursprungsdaten nicht rekonstruiert werden. Um diese zentrale Bedingung tatsächlich zu erfüllen, werden sowohl die Teilmodelle als auch das aggregierte Gesamtmodell entsprechend verschlüsselt. Während des gesamten Trainings hat der zentrale KI-Trainer-Server somit niemals Zugriff auf die eigentlichen Daten. Dennoch ist nach ausreichend vielen Wiederholungen das Gesamtmodell anhand aller Daten trainiert.

Ein junger Zweig des maschinellen Lernens

Föderiertes Lernen ist ein noch sehr junger Forschungszweig: Eingeführt wurde der Begriff in einem Artikel im Jahr 2016; das Gros der relevanten Veröffentlichungen reicht nur bis in das Jahr 2017 zurück. Dennoch wird föderiertes Lernen bereits genutzt: Google und Apple trainieren bspw. gewisse Funktionen auf mobilen Endgeräten durch föderiertes Lernen. Darunter zum Beispiel die intelligente Wortvorhersage. Deshalb unterstützen auch einige Deep Learning Bibliotheken föderiertes Lernen bereits rudimentär, bspw. Googles TensorFlow. Auch einige Unternehmen bieten bereits Produkte an, die auf föderiertem Lernen basieren, wie etwa Eoda oder Owkin: Owkin vertreibt u.a. vollständig trainierte Modelle, welche anhand von Daten mehrerer Krankenhäuser trainiert wurden.

Von einer breiten Anwendung des föderierten Lernens kann dennoch keine Rede sein. Die Gründe dafür sind u.a.:

  • Projekte, die tatsächlich föderiertes Lernen benötigen, werden auch im Jahr 2020 meist gar nicht erst in Erwägung gezogen.
  • Projekte, die föderiertes Lernen nutzen, sind oft ungleich aufwändiger als “herkömmliche” KI-Projekte.
  • Viele Aspekte des föderierten Lernens sind noch weitgehend unerforscht.
  • Für den Einsatz föderierten Lernens fehlt es schlichtweg an praktischen Erfahrungen.

Herausforderungen beim föderierten Lernen

Das gesamte Trainingssystem erhält niemals Zugriff auf alle Daten. Dieser Grundsatz des föderierten Lernens verursacht Herausforderungen, die das Training negativ beeinflussen und ggf. auch unmöglich machen können.

Zum einen wäre da der Aufwand für Kommunikation. Das wiederholte Hin- und Herreichen von Teilmodellen bedarf einer enormen Bandbreite zur Datenübertragung. In einem “herkömmlichen” Trainingsverfahren ist das nicht der Fall. Auch muss sichergestellt werden, dass sich aus den Teilmodellen wirklich keine der ursprünglichen Daten rekonstruieren lassen.

Des Weiteren entsteht ein nicht unerheblicher Aufwand für Infrastruktur. So muss in allen Datensilos für eine ausreichend homogene Hardware- und Softwareumgebung gesorgt werden, damit das Training der Teilmodelle ausreichend schnell durchgeführt werden kann. Andernfalls bremsen einzelne langsame Datensilos das Gesamttraining aus.

Einzelne Datensilos können technisch unzuverlässige Teilnehmer des Gesamttrainings sein. Für Googles und Apples Anwendungen (siehe oben) sind das die Smartphones der Benutzer, die jederzeit ausfallen können. Eventuell sind einzelne Datensilos auch nicht von einem Trainingsschritt zum nächsten re-identifizierbar. Die Trainingsprozedur muss dann hinreichend robust gestaltet sein, damit das Training trotzdem voranschreiten kann.

Neben der technischen Unzuverlässigkeit kann auch eine absichtliche Unzuverlässigkeit eine wichtige Rolle spielen. Es können Szenarien entstehen, bei denen nicht wenige Datenquellen an einem Training partizipieren, sondern viele. Darunter können auch potentiell bösartigeTeilnehmer sein, welche gezielt Trainingsdaten manipulieren, um dem Training zu schaden. Im schlimmsten Fall schlägt das Training dann sogar fehl. Ohne spezielle Vorkehrungen ist es in herkömmlichen Trainingsszenarien möglich, mit einigen wenigen ― gezielt irreführenden ― Trainingsbeispielen ein Modell spürbar zu verschlechtern. Die ist selbst dann der Fall, wenn die Menge der nicht manipulierten Daten viel größer ist als die Menge der manipulierten Daten.

Obwohl es zunächst vielleicht akademisch anmutet, so ist die Vergleichbarkeit und Wiederholbarkeit von Trainingsdurchläufen gerade im industriellen Einsatz von KI enorm wichtig. Spätestens wenn eine neuere Version eines KI-Modells eine bereits im produktiven Einsatz befindliche Version ersetzen soll, ist eine Vergleichbarkeit ihrer Performance gefragt. Die Wiederholbarkeit ihrer Berechnungen wiederum ist eine Grundvoraussetzung für die Vertrauenswürdigkeit einer KI-Lösung.

Fazit

Föderiertes Lernen löst das Datenschutzproblem, und damit ein zentrales Problem der KI-Industrie: den für das Training essentiellen Zugang zu Daten aus verschiedenen ― möglicherweise nicht zusammenführbaren ― Quellen. Denn obwohl es zunächst paradox klingt: für das Training eines KI-Modells ist es dank des föderierten Lernens nicht nötig, dass das finale Gesamtmodell ― das Produkt ― Zugriff auf alle Daten erhält. Dadurch werden KI-Projekte umsetzbar, die so vorher nicht denkbar waren.

Verschiedene Unternehmen (z.B. mehrere Krankenhäuser und Versicherungen) könnten so ein gemeinsames Modell trainieren, welches von den Daten aller Teilnehmer lernt, ohne dass die Unternehmen ihre Daten einander zur Verfügung stellen müssen. Das resultierende Modell ist wahrscheinlich erheblich besser, als wenn jedes Unternehmen ein individuelles Modell trainiert hätte.

Das Beispiel der föderiert trainierten Wortvorhersage von Google zeigt, dass Produkte denkbar sind, die ausschließlich bei Endkunden auf ihren lokalen Daten trainiert werden. Trotzdem ergibt sich ein Gesamtmodell, welches wiederum allen Teilnehmern zur Verfügung gestellt wird. Damit wird erreicht, dass alle Endkunden von allen anderen indirekt profitieren. Ein Service wird dadurch automatisch immer besser, je mehr Menschen ihn nutzen.

Dem breiteren Einsatz des föderierten Lernens stehen aktuell jedoch noch einige Hürden im Weg. Dazu gehören unter anderem die immensen Aufwände für dessen Einsatz oder die schlechte Reproduzierbarkeit der Trainings, falls die partizipierenden Datensilos unzuverlässig sind.

Projekte und Produkte, die föderiertes Lernen einsetzen, werden deshalb auf absehbare Zeit spezielle Lösungen für den jeweiligen Use Case bleiben. Das liegt daran, dass die jeweiligen Parameter wie Größe, inhaltliche Variabilität und Zuverlässigkeit der Datensilos einen enorm großen Einfluss auf die zu implementierende Lösung haben werden. Das bedeutet auch, dass solche Lösungen vorerst nur sehr großen Unternehmen oder Allianzen von Unternehmen vorbehalten bleiben werden. Für alle anderen Unternehmen gilt, dass sie potentielle Allianzen mit anderen Unternehmen prüfen sollten. Vermutlich werden wir deshalb zukünfig mehr und mehr “KI-Trainingsallianzen” beobachten. Voraussichtlich wird föderiertes Lernen auch den Wert von fertig trainierten Modellen heben und diese langlebiger machen, da die für das Training zustande gekommenen Allianzen sich auch wieder auflösen könnten, die Modelle aber bleiben würden.

Quellen

Hier finden Sie Verweise auf einige relevante wissenschaftliche Veröffentlichungen:

  • Der Artikel, der Föderiertes Lernen einführte.
  • Ein Artikel, der einen Überblick über viele aktuelle Entwicklungen des Föderierten Lernens liefert.

Software-Bibliotheken

Hier finden Sie Verweise auf Software-Bibliotheken, in denen bereits Funktionalität implementiert wurde, die für Föderiertes Lernen notwendig ist:


Veröffentlicht am 30. Oktober 2020. Zuletzt aktualisiert am 19. April 2021.