Kurz notiert: Backdoors in Föderiertem Lernen

In ihrem NeurIPS-2020-Artikel besprechen Wang et al. einen weiteren Angriff auf Föderiertes Lernen (FL): das Einfügen sog. backdoors (dt. Hintertüren) in ein Modell während des Trainings. Im Zusammenhang mit FL besteht das Ziel einer backdoor darin, das globale Modell gezielt zu Falschvorhersagen zu zwingen. In einer Bildklassifikation könnte das bspw. bedeuten, das Modell dahingehend zu korrumpieren, dass es Flugzeuge fälschlicherweise als Lastwagen klassifiziert. Die Autoren untersuchen hier insbesonders das, was sie als edge-case backdoors bezeichnen: diese zwingen ein Modell dazu, vermeintlich „einfache“ Eingaben, die wahrscheinlich wieder Teil der Trainings- noch der Testdaten sind, falsch zu klassifizieren. Mit anderen Worten: edge-case backdoors zielen auf Eingaben (d.h. features) ab, die selten beobachtet werden. Diese „Seltenheit“ betrifft dabei nur die Eingaben. Die Ausgaben (d.h. labels) sind nicht eingeschränkt.

Es werden zwei Möglichkeiten untersucht, edge-case backdoors in Modellen zu platzieren:

  1. Data poisening: Eine Angreifer*in hat Black-Box-Zugriff auf ihr Gerät und manipuliert lokale Trainingsdaten auf betrügerische Weise.
  2. Model poisening: Ein Angreifer*in hat White-Box-Zugriff auf ihr Gerät und manipuliert lokale Modelle auf betrügerische Weise.

Die Autoren beweisen zunächst, dass die Existenz von sog. adversarial examples die Existenz von edge-case backdoors impliziert. Weil unklar ist, inwiefern Modelle robust gegenüber solchen adversarial examples sein können, ist somit auch unklar, inwieweit Modelle gegenüber edge-case backdoors robust sein können. Darüber hinaus beweisen sie, dass es schwer ist, edge-case backdoors überhaupt zu bemerken. Gestützt werden diese Beweise durch eine Vielzahl von Experimenten im Bereich Computer Vision und Natural Language Processing. In diesen Experimenten zeigt sich, dass bekannte Abwehrmechanismen weder Schutz vor Black-Box- noch vor White-Box-Angriffen bieten. 5 Abwehrmechanismen werden hierbei untersucht:

Die Autoren stellen fest, dass White-Box-Angriffe bei — sorgfältiger Parameterwahl — von NDC, Krum, Multi-Krum und RFA unentdeckt bleiben. Black-Box-Angriffe bleiben unentdeckt von NDC und RFA, werden aber durch Krum und Multi-Krum erkannt. Das Hinzufügen von Gaußschem Rauschen schützt sowohl vor Black-Box- als auch vor White-Box-Angriffen, geht jedoch zu Lasten der Modellgenauigkeit. Vielleicht nicht überraschend stellen die Autoren auch fest, dass Modelle mit hoher Kapazität anfälliger für edge-case bacldoors sind als Modelle mit niedriger Kapazität. Modelle mit geringer(er) Kapazität stellen daher eine weitere Möglichkeit dar, sich gegen Agriffe durch edge-case backdoors zu verteidigen, gehen jedoch (möglicherweise) wiederum zu Lasten der Modellgenauigkeit.

In der Praxis bedeutet das:

Für jeden FL-Anwendungsfall muss zwischen globaler Modellgenauigkeit und notwendiger Robustheit abgewogen werden.

Gibt es in einem FL-Anwendungsfall möglicherweise Teilnehmer mit böswilligen Absichten, stehen mit dem Hinzufügen von Rauschen beim Aggregieren lokaler Modelle und dem Verringern der Modellkapazität zwei probate Abwehrmechanismen zur Verfügung. Können böswillige Absichten dausgeschlossen werden, kann ggf. auf diese Mechanismen verzichtet werden.

Kontakt

Nicht alle wichtigen Informationen
stehen in Tabellen.

Nutzen Sie auch das, was sich in den Texten und Grafiken Ihrer Berichte befindet. Schreiben Sie uns!