Projektdetail

Grant-DOI 10.55776/I3437
Bewilligungssumme International - Multilaterale Initiativen
Status beendet
Projektbeginn 01.02.2018
Projektende 31.05.2021
Bewilligungssumme 213.790 €
Projekt-Website

weitere EU-Initiativen: CHIST-ERA

Wissenschaftsdisziplinen

Informatik (80%); Mathematik (20%)

Keywords

Reinforcement learning,
Statistical learning theory,
Exploration

Abstract

Zusammenfassung

In vielen komplexen autonomen Systemen ist es notwendig, wiederholt koordinierte Operationen auszuführen, um bestimmte Zielsetzungen zu erreichen. Der Bereich des Reinforcement Lernens (RL) bietet ein passendes und auch leistungsfähiges Framework für solche Aufgaben: Hier muss ein Lerner optimales Verhalten etwa eine Folge von koordinierten Aktionen, um einen bestimmten Zielzustand zu erreichen erlernen, indem er Feedback der Umgebung auf seine Aktionen beobachtet und auswertet. Obwohl es in letzter Zeit einige eindrucksvolle Anwendungen für RL-Algorithmen gab (etwa menschenähnliche Leistungen im Spielen von einfachen Videospielen oder das Schlagen des Weltmeisters im Brettspiel Go), funktionieren die meisten RL-Algorithmen nur unter der starken Voraussetzung einer unveränderlichen Umgebung mit fixer Zielsetzung. Das vorliegende Projekt möchte neue RL-Algorithmen entwickeln, die nicht mehr von dieser Voraussetzung abhängig sind. Diese Algorithmen sollen nicht nur in sich verändernden Umgebungen einsatzfähig sein, sondern auch mit unterschiedlichen und wechselnden Zielsetzungen umgehen können. Dies ermöglicht lebenslanges Lernen über längere Zeitintervalle, in denen der Lerner mehrere verschiedene Aufgaben zu erfüllen hat. Die zu entwickelnden AlgorithmenmüssenLösungen für folgende drei grundlegenden Problembereiche bieten: Exploration, Planung und Aufteilung von Aufgaben in Teilaufgaben. Exploration beschäftigt sich mit Methoden, wie man auf effiziente Weise ein Modell der Umgebung erlernen kann, ohne dabei unbedingt eine bestimmte Aufgabe zu erfüllen. Planung ist nötig, um in einem gegebenen oder durch Exploration erlernten Modell eine optimale Strategie zu entwerfen. Zu guter Letzt sollen komplexe Aufgaben in einfachere Teilaufgaben aufgeteilt werden, sodass die zusammengesetzten Lösungen der einzelnen Teilaufgaben letztendlich eine Lösung für die ursprüngliche Aufgabe bilden. Die entwickelten Algorithmen sollen in realistischen Problembereichen getestet und evaluiert werden, die sich mit der optimalen Verteilung von Energie in Netzwerken beschäftigen.

Ziel unseres Projektes ist es, Steuerungsstrategien mit lebenslanger Lernfähigkeit zu entwerfen. Solche Steuerungen ermöglichen es Systemen, sich an Veränderungen in ihrer Umgebung anzupassen und eine nahezu optimale Leistung aufrechtzuerhalten. Dieses Projekt beschäftigt sich mit Steuerungen, die in autonomen Systemen implementiert sind, beispielsweise in elektrischen Verteilungsnetzen. Eine solche Steuerung wählt wiederholt und fortlaufend Aktionen aus, um ein bestimmtes Ziel zu erreichen. Ein solches Ziel könnte die Vermeidung eines Blackouts bei gleichzeitig kostengünstiger Bereitstellung von Energie sein. Für ein statisches System - ein System ohne wesentlichen Veränderungen - kann eine nahezu optimale Steuerung berechnet werden. Zum Beispiel ist Reinforcement Learning eine Methode, um auch komplizierte Steuerungen zu berechnen. Jedoch werden Systeme, die über einen langen Zeitraum eingesetzt werden, voraussichtlich mit Veränderungen in ihrer Umgebung konfrontiert sein. Ziel unseres Projektes ist es daher, Steuerungsstrategien mit lebenslanger Lernfähigkeit zu entwerfen, damit Systeme in der Lage sind, sich an Veränderungen in ihrer Umgebung anzupassen und dabei eine nahezu optimale Leistung aufrechtzuerhalten. Ein Beispiel für ein solches System ist die Steuerung eines elektrischen Mikronetzes, das erneuerbare und konventionelle Stromquellen balancieren muss und gleichzeitig mit wechselnder Stromerzeugung und wechselndem Verbraucherverhalten konfrontiert ist. Ein solches Micro-Grid diente als Testumgebung für unsere Verfahren. Der Schwerpunkt unserer Arbeit in diesem Verbundforschungsprojekt liegt auf der Exploration: herauszufinden, welche Aktionen langfristig förderlich sind und welche Aktionen vermieden werden sollten. Exploration in einer sich ändernden Umgebung ist aber eine besondere Herausforderung, da bereits gesammelte Informationen nach einer Veränderung ungültig werden können. Um dieser Herausforderung zu begegnen, erweitern wir Methoden aus dem Reinforcement Learning und entwickeln dabei neue Explorationsstrategien, die Informationen nach einer Veränderung der Umgebung automatisch aktualisieren. Dabei ist wesentlich, dass unsere Methoden Veränderungen automatisch erkennen und die Exploration entsprechend steuern können. Reinforcement Learning beruht auf einem Belohnungsmodell, um Strategien zu trainieren: Die Strategie soll dabei langfristige die Belohnungen maximieren. In unseren Forschungsarbeiten setzen wir diesen Mechanismus auch für die inkrementelle Exploration, beispielsweise durch einen Roboter, ein. Inkrementelle Exploration bedeutet, dass zuerst die unmittelbare Umgebung und dann immer größere Teile der Umgebung erkundet werden. In großen Umgebungen ist eine kompakte und aussagekräftige Darstellung der Umgebung für effizientes Lernen äußerst wichtig: Denken Sie beispielsweise daran, sich sinnvolle Wörter beziehungsweise zufälligen Buchstabenfolgen zu merken. Leider sind für Reinforcement Learning gut geeignete Darstellungen der Umgebung oft nicht bekannt. Daher haben wir einen Algorithmus entwickelt, der automatisch die beste Darstellung für seine Umgebung auswählt.

Forschungsstätte(n)

Montanuniversität Leoben - 100%

Internationale Projektbeteiligte

Bertrand Cornélusse, Université de Liege - Belgien
Michal Valko, Inria Lille - Nord Europe - Frankreich
Anders Jonsson, Universitat Pompeu Fabra - Spanien

Research Output

11 Publikationen

Publikationen

Titel	Regret Bounds for Reinforcement Learning via Markov Chain Concentration
Typ	Journal Article
Autor	Ortner Ronald
Journal	JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH
Seiten	115-128

Titel	Gambler Bandits and the Regret of Being Ruined. 20th Int. Conf. on Autonomous Agents and Multiagent Systems
Typ	Conference Proceeding Abstract
Autor	Perotto Fs
Konferenz	20th Int. Conf. on Autonomous Agents and Multiagent Systems (AAMAS 2021)
Link	Publikation

Titel	Efficient Bias-Span-Constrained Exploration-Exploitation in Reinforcement Learning
DOI	10.48550/arxiv.1802.04020
Typ	Preprint
Autor	Fruit R
Link	Publikation

Titel	Regret Bounds for Reinforcement Learning via Markov Chain Concentration
DOI	10.1613/jair.1.11316
Typ	Journal Article
Autor	Ortner R
Journal	Journal of Artificial Intelligence Research

Titel	Regret Bounds for Learning State Representations in Reinforcement Learning
Typ	Conference Proceeding Abstract
Autor	Ortner R
Konferenz	33rd Conf. on Neural Processing Systems (NeurIPS 2019)
Link	Publikation

Titel	Autonomous exploration for navigating in non-stationary CMPs
Typ	Other
Autor	Gajane P
Link	Publikation

Titel	Achieving Optimal Dynamic Regret for Non-stationary Bandits without Prior Information
Typ	Conference Proceeding Abstract
Autor	Auer P
Konferenz	32nd Ann. Conf. on Learning Theory (COLT 2019)
Link	Publikation

Titel	Adaptively Tracking the Best Bandit Arm with an Unknown Number of Distribution Changes
Typ	Conference Proceeding Abstract
Autor	Auer P
Konferenz	32nd Ann. Conf. on Learning Theory (COLT 2019)
Link	Publikation

Titel	Variational Regret Bounds for Reinforcement Learning
Typ	Conference Proceeding Abstract
Autor	Gajane P
Konferenz	Conf. on Uncertainty in Artificial Intelligence (UAI 2019)
Link	Publikation

Titel	Autonomous Exploration for Navigating in MDPs Using Blackbox RL Algorithms
DOI	10.24963/ijcai.2023/413
Typ	Conference Proceeding Abstract
Autor	Auer P
Seiten	3714-3722
Link	Publikation

Titel	Adaptive Algorithms for Meta-Induction
DOI	10.1007/s10838-021-09590-2
Typ	Journal Article
Autor	Ortner R
Journal	Journal for General Philosophy of Science
Seiten	433-450
Link	Publikation

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Autonom lernende Systeme in dynamischen Umgebungen

DELTA (Dynamically Evolving Long-Term Autonomy)

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Autonom lernende Systeme in dynamischen Umgebungen

DELTA (Dynamically Evolving Long-Term Autonomy)

Wissenschaftsdisziplinen

Keywords

Research Output