Anzeige

Trends, Themen und Projekte am ISW

Machine Learning in Steuerungstechnik und Robotik

Maschinelles Lernen ist ein weites Feld der künstlichen Intelligenz. Der letzte Teil dieser Artikelserie zur Steuerung aus der Cloud beschäftigt sich mit Grundlagen und Trends bei Maschine Learning sowie mit aktuellen Projekten am ISW der Universität Stuttgart.

Bild: Inst. f. Steuerungstechn. der Werkzeugm.Bild: Inst. f. Steuerungstechn. der Werkzeugm.
Architektur des Reinforcement Learnings

Beim maschinellen Lernen unterscheidet man hauptsächlich zwischen drei algorithmischen Ansätzen: überwachtes Lernen (supervised learning), unüberwachtes Lernen (unsupervised learning) und bestärkendes Lernen (reinforcement learning). Beim überwachten Lernen wird dem System gezeigt wie es sich verhalten soll, sowohl die Ziele als auch das Vorgehen sind bekannt.

Bild: Inst. f. Steuerungstechn. der Werkzeugm.Bild: Inst. f. Steuerungstechn. der Werkzeugm.
Vergleich des Aufbaus zwischen Hardware-in-the-Loop und Reinforcement Learning

Gesucht werden nur noch die Parameter für den Ablauf. In Analogie zur Psychologie wird quasi mit einem Lehrer gelernt, der dem System das korrekte Verhalten zeigt. Beim nicht überwachten Lernen wird nach einer Struktur in den Daten gesucht, weder das Vorgehen noch die genaue Struktur werden vorgegeben. Häufig geht es darum verschiedene Verallgemeinerungen zu treffen um Muster zu finden, beispielsweise für das Clustering oder um eine große Menge an Daten zu sortieren. Beim Reinforcement Learning sind die Ziele bekannt, das Vorgehen jedoch nicht. Es wird auch keine Verhaltensstrategie gezeigt. Das System soll eine passende Strategie zur Erreichung der Ziele selbst finden. Lernen findet nicht durch Nachahmung statt, sondern durch eigene Erfahrungen. Es befindet sich in einer unbekannten Umgebung (simuliert oder real) und bekommt Belohnungen oder Bestrafungen, um auf ein passendes Verhalten zu schließen. Die Belohnung gibt einen Anhalt dafür, wie gut die getroffene Entscheidung war. Durch die Interaktion mit der Umgebung bekommt das System neue Informationen, die helfen das Verhalten zu verbessern. Damit Erfahrungen über verschiedene Zustände und Aktionen gesammelt werden können, muss viel ausprobiert werden. In Folge wird aus den Fehlern und guten Aktionen gelernt, der Lernprozess hat einen iterativen Charakter. Die Belohnungen können auch erst verzögert gegeben und dann je nach auftretendem Zeitpunkt gewichtet werden, wenn nicht einzelne Teilziele, sondern größere Gesamtziele bekannt sind. Diese Ansätze sind wichtige Aspekte des Reinforcement Learnings. Je nach Methode wird eventuell zunächst ein Zustandsmodell der Umgebung entwickelt, um darauf basierend zu lernen. Fehlt es an Informationen über die Verhaltensstrategie, funktioniert die Methode besonders gut. Es ist nicht nötig, Regeln genau zu beschreiben, und es ist möglich aus (scheinbar) rein intuitiven Entscheidungen zu lernen. Unter Umständen werden dadurch neue Entscheidungsregeln entdeckt, die von Menschen so nicht wahrgenommen werden. Reinforcement Learning wird einerseits angewendet, um Ergebnisse in Abhängigkeit der aktuellen Situation vorherzusagen. Andererseits dient es dazu Entscheidungen zu treffen, um ein möglichst gutes Ergebnis zu erhalten.

Inst. f. Steuerungstechn. der Werkzeugm.

Dieser Artikel erschien in SPS-MAGAZIN 12 2017 - 12.12.17.
Für weitere Artikel besuchen Sie www.sps-magazin.de