Anzeige

Sichere Lösung oder Poisoning-Falle?

Verteiltes maschinelles Lernen im Einsatz

KI-Technologien wie Deep Learning haben zuletzt große Fortschritte erzielt. Doch sind nicht alle Daten für das Training der Algorithmen geeignet, etwa aus Datenschutzgründen. Verteiltes Maschinelles Lernen - oder Federated Learning - soll dieses Problem adressieren, bietet aber auch neue Angriffsflächen.

Bild: acatech - Dt. Akademie der TechnikwissenschaftenBild: acatech - Dt. Akademie der Technikwissenschaften
Abbildung 1: Funktionsweise des Federated Learning Systems

Deep Learning bringt eine Reihe neuer funktionaler, aber auch datenschutzrechtlicher und sicherheitstechnischer Herausforderungen mit sich. Für das Training von Deep Neural Networks (DNNs) werden immer größere und diverse, teils sensible, Datenmengen benötigt.

Bild: acatech - Dt. Akademie der TechnikwissenschaftenBild: acatech - Dt. Akademie der Technikwissenschaften

In der Praxis gibt es jedoch Daten, die nicht geteilt werden können. So unterliegen etwa Patientendaten dem Datenschutz, Informationen über die Haltbarkeit von Bauteilen dürfen Wettbewerbern nicht in die Hände fallen und frei zugängliche Daten über Sicherheitsvorfälle könnten den Ruf eines Unternehmens schädigen. Verteiltes maschinelles Lernen soll das Modelltraining dezentralisieren. In einer aktuellen Publikation gibt die Plattform Lernende Systeme einen knappen Überblick über die Ansätze dieser Methode. Ein Beispiel ist etwa das Federated Learning, bei dem verschiedene Parteien mit privaten Datensätzen gemeinsam ein DNN-Modell zu trainieren, ohne dass sie ihre Datensätze teilen müssen. Während beim klassischen, zentralisierten Deep Learning alle Daten an einem einzigen Ort gesammelt werden müssen, um anschließend ein DNN-Modell zu trainieren, wird beim Federated Learning das Training an die verschiedenen Teilnehmer ausgelagert. Das Training ist in mehrere Runden aufgeteilt. In jeder Runde lädt zuerst jeder Teilnehmer das aktuelle gemeinsame DNN-Model von einem sogenannten koordinierenden Aggregator herunter (Schritt 1 in Abbildung 1), trainiert dieses dann lokal auf dem eignen privaten Datensatz (Schritt 2) und sendet nur die Trainingsergebnisse (die sogenannten Parameter des DNN-Modells) an den koordinierenden Server (Schritt 3). Dieser Server aggregiert dann die Parameter der empfangenen DNN-Modelle (Schritt 4) und übermittelt diese in der nächsten Runde zurück an alle Teilnehmer. Diese verwenden dann die empfangenen Parameter als Ausgangspunkt für weitere Trainingsrunden. Die Trainingsdaten verlassen in diesem Schema nie die Rechnerplattform des Datenbesitzers, was den Datenschutz (durch Datenminimierung) verbessert. Außerdem wird die Rechenlast auf dem koordinierenden Server reduziert, da das Training nun auf den Rechnern der einzelnen Teilnehmer erfolgt. Ein Anwendungsbeispiel sind die Wortvorschläge für Smartphone-Tastaturen: Durch Federated Learning können Smartphone-Keyboards Wortvorschläge basierend auf den Texten anderer Nutzer verbessern, indem die Geräte lokal trainieren und nur die Parameter des DNN teilen. Somit müssen die Texte nicht einem externen Server anvertraut werden. Bei der kollaborativen Bedrohungsanalyse ermöglicht Federated Learning eine Risikoanalyse auf Basis von Daten verschiedener europäischer Finanzdienstleister, ohne dass diese ihre Daten teilen müssen.

acatech - Dt. Akademie der Technikwissenschaften

Dieser Artikel erschien in IT&Production 2 (März) 2023 - 09.03.23.
Für weitere Artikel besuchen Sie www.it-production.com