Autonom lernende Systeme in dynamischen Umgebungen
DELTA (Dynamically Evolving Long-Term Autonomy)
ERA-Net: CHIST ERA
Wissenschaftsdisziplinen
Informatik (80%); Mathematik (20%)
Keywords
-
Reinforcement learning,
Statistical learning theory,
Exploration
In vielen komplexen autonomen Systemen ist es notwendig, wiederholt koordinierte Operationen auszuführen, um bestimmte Zielsetzungen zu erreichen. Der Bereich des Reinforcement Lernens (RL) bietet ein passendes und auch leistungsfähiges Framework für solche Aufgaben: Hier muss ein Lerner optimales Verhalten etwa eine Folge von koordinierten Aktionen, um einen bestimmten Zielzustand zu erreichen erlernen, indem er Feedback der Umgebung auf seine Aktionen beobachtet und auswertet. Obwohl es in letzter Zeit einige eindrucksvolle Anwendungen für RL-Algorithmen gab (etwa menschenähnliche Leistungen im Spielen von einfachen Videospielen oder das Schlagen des Weltmeisters im Brettspiel Go), funktionieren die meisten RL-Algorithmen nur unter der starken Voraussetzung einer unveränderlichen Umgebung mit fixer Zielsetzung. Das vorliegende Projekt möchte neue RL-Algorithmen entwickeln, die nicht mehr von dieser Voraussetzung abhängig sind. Diese Algorithmen sollen nicht nur in sich verändernden Umgebungen einsatzfähig sein, sondern auch mit unterschiedlichen und wechselnden Zielsetzungen umgehen können. Dies ermöglicht lebenslanges Lernen über längere Zeitintervalle, in denen der Lerner mehrere verschiedene Aufgaben zu erfüllen hat. Die zu entwickelnden AlgorithmenmüssenLösungen für folgende drei grundlegenden Problembereiche bieten: Exploration, Planung und Aufteilung von Aufgaben in Teilaufgaben. Exploration beschäftigt sich mit Methoden, wie man auf effiziente Weise ein Modell der Umgebung erlernen kann, ohne dabei unbedingt eine bestimmte Aufgabe zu erfüllen. Planung ist nötig, um in einem gegebenen oder durch Exploration erlernten Modell eine optimale Strategie zu entwerfen. Zu guter Letzt sollen komplexe Aufgaben in einfachere Teilaufgaben aufgeteilt werden, sodass die zusammengesetzten Lösungen der einzelnen Teilaufgaben letztendlich eine Lösung für die ursprüngliche Aufgabe bilden. Die entwickelten Algorithmen sollen in realistischen Problembereichen getestet und evaluiert werden, die sich mit der optimalen Verteilung von Energie in Netzwerken beschäftigen.
Ziel unseres Projektes ist es, Steuerungsstrategien mit lebenslanger Lernfähigkeit zu entwerfen. Solche Steuerungen ermöglichen es Systemen, sich an Veränderungen in ihrer Umgebung anzupassen und eine nahezu optimale Leistung aufrechtzuerhalten. Dieses Projekt beschäftigt sich mit Steuerungen, die in autonomen Systemen implementiert sind, beispielsweise in elektrischen Verteilungsnetzen. Eine solche Steuerung wählt wiederholt und fortlaufend Aktionen aus, um ein bestimmtes Ziel zu erreichen. Ein solches Ziel könnte die Vermeidung eines Blackouts bei gleichzeitig kostengünstiger Bereitstellung von Energie sein. Für ein statisches System - ein System ohne wesentlichen Veränderungen - kann eine nahezu optimale Steuerung berechnet werden. Zum Beispiel ist Reinforcement Learning eine Methode, um auch komplizierte Steuerungen zu berechnen. Jedoch werden Systeme, die über einen langen Zeitraum eingesetzt werden, voraussichtlich mit Veränderungen in ihrer Umgebung konfrontiert sein. Ziel unseres Projektes ist es daher, Steuerungsstrategien mit lebenslanger Lernfähigkeit zu entwerfen, damit Systeme in der Lage sind, sich an Veränderungen in ihrer Umgebung anzupassen und dabei eine nahezu optimale Leistung aufrechtzuerhalten. Ein Beispiel für ein solches System ist die Steuerung eines elektrischen Mikronetzes, das erneuerbare und konventionelle Stromquellen balancieren muss und gleichzeitig mit wechselnder Stromerzeugung und wechselndem Verbraucherverhalten konfrontiert ist. Ein solches Micro-Grid diente als Testumgebung für unsere Verfahren. Der Schwerpunkt unserer Arbeit in diesem Verbundforschungsprojekt liegt auf der Exploration: herauszufinden, welche Aktionen langfristig förderlich sind und welche Aktionen vermieden werden sollten. Exploration in einer sich ändernden Umgebung ist aber eine besondere Herausforderung, da bereits gesammelte Informationen nach einer Veränderung ungültig werden können. Um dieser Herausforderung zu begegnen, erweitern wir Methoden aus dem Reinforcement Learning und entwickeln dabei neue Explorationsstrategien, die Informationen nach einer Veränderung der Umgebung automatisch aktualisieren. Dabei ist wesentlich, dass unsere Methoden Veränderungen automatisch erkennen und die Exploration entsprechend steuern können. Reinforcement Learning beruht auf einem Belohnungsmodell, um Strategien zu trainieren: Die Strategie soll dabei langfristige die Belohnungen maximieren. In unseren Forschungsarbeiten setzen wir diesen Mechanismus auch für die inkrementelle Exploration, beispielsweise durch einen Roboter, ein. Inkrementelle Exploration bedeutet, dass zuerst die unmittelbare Umgebung und dann immer größere Teile der Umgebung erkundet werden. In großen Umgebungen ist eine kompakte und aussagekräftige Darstellung der Umgebung für effizientes Lernen äußerst wichtig: Denken Sie beispielsweise daran, sich sinnvolle Wörter beziehungsweise zufälligen Buchstabenfolgen zu merken. Leider sind für Reinforcement Learning gut geeignete Darstellungen der Umgebung oft nicht bekannt. Daher haben wir einen Algorithmus entwickelt, der automatisch die beste Darstellung für seine Umgebung auswählt.
- Montanuniversität Leoben - 100%
- Bertrand Cornélusse, Université de Liege - Belgien
- Michal Valko, Inria Lille - Nord Europe - Frankreich
- Anders Jonsson, Universitat Pompeu Fabra - Spanien