Anzeige

OpenAI-Gym-Umgebungen

Reinforcement Learning mit Simulink-Modellen

Maschinelles Lernen fasst viele Methoden zusammen, die mit der Generierung von Wissen aus Erfahrung verbunden sind. Überwachtes Lernen befasst sich mit der Erstellung von Modellen, die auf Daten basieren. Unüberwachtes Lernen beschäftigt sich mit der Identifizierung von Strukturen in Daten. Beim bestärkenden Lernen, dem sogenannten Reinforcement Learning, das manchmal als Unterkategorie des überwachten Lernens gesehen wird, geht es um eine Strategie, die durch Ausprobieren gelernt wird und die zu einer maximalen Belohnung führt. Die Belohnungsfunktion muss dabei für jeden Anwendungsfall definiert werden.

Bild: Inst. f. Steuerungstechn. der Werkzeugm.Bild: Inst. f. Steuerungstechn. der Werkzeugm.
Abbildung 1: Übersicht eines Reinforcement-Learning-Prozesses

Artikelserie Steuerungstechnik aus der Cloud

SPS-MAGAZIN 9/2018: Ethernet TSN und Open Source

SPS-MAGAZIN 10/2018: Reinforcement Learning mit Simulink-Modellen

SPS-MAGAZIN 11/2018: Tool für die virtuelle Produktion

SPS-MAGAZIN 12/2018: Ausblick: Stuttgarter Innovationstage 2019

Das Ausprobieren erfolgt in den meisten Fällen mithilfe einer Simulation, bei der der Reinforcement Learning Agent eine vordefinierte Anzahl und Art an Aktionen durchführt und seine Belohnung sowie Änderungen in seiner Umgebung beobachtet. Simulationen als Umgebungen sind bei meisten Anwendungsfällen Voraussetzung für den Lernprozess. Bekannte Beispiele für Simulationsumgebungen sind Videospiele oder Simulationen von Brettspielen wie Schach oder Go, bei denen Reinforcement-Learning-Agenten eine möglichst hohe Punktzahl als Ziel (und auch als Belohnung) haben. Ein weiteres bekanntes Beispiel für eine Reinforcement-Learning-Umgebung, die näher an der Produktionstechnik liegt, ist die Simulation eines invertierten Pendels. Seine Dynamikgleichungen sind einfach und können in jeder Programmiersprache implementiert und simuliert werden. Für das bestärkende Lernen ist es dabei wichtig, zu entscheiden, welche Belohnung der Agent bekommt und wann. Beim Pendelbeispiel ist es relativ simpel: Der Agent wird belohnt wenn das Pendel oben steht und möglichst wenig Geschwindigkeit hat. Diese einfache Simulationsumgebung kann an die neuen Reinforcement-Learning-Algorithmen gekoppelt werden und eine Strategie, durch die das Pendel nach oben gehalten wird, kann erlernt werden. Reinforcement Learning kann aber auch Steuerungslogik für Produktionssysteme erlernen, falls das Produktionssystem als eine für das Lernen geeignete Simulation aufgebaut ist.

Inst. f. Steuerungstechn. der Werkzeugm.

Dieser Artikel erschien in SPS-MAGAZIN 10 2018 - 05.10.18.
Für weitere Artikel besuchen Sie www.sps-magazin.de