Projektdetail

Grant-DOI 10.55776/TAI590
Bewilligungssumme 1000 Ideen
Status beendet
Projektbeginn 10.01.2022
Projektende 09.08.2024
Bewilligungssumme 150.761 €

Wissenschaftsdisziplinen

Informatik (100%)

Keywords

Reinforcement Learning (Theory)

Abstract

Zusammenfassung

Im Forschungsgebiet des Reinforcement Learning (dt. oft Verstärkungslernen) werden Algorithmen entwickelt, die komplexes Verhalten (wie z.B. Autofahren, Spielen eines Computer- oder Brettspiels) selbständig erlernen können. Bei einigen derartigen Lernproblemen geht es darum, etwas optimal, also so gut wie möglich machen zu können, etwa beim Spielen eines Computerspiels, wo möglichst viele Punkte erreicht werden sollen. Die meisten entwickelten Algorithmen basieren tatsächlich auf einer Optimierung von Auszahlungen (wie etwa die Punkte im Computerspiel), obwohl sehr viele Lernprobleme eigentlich anderer Art sind. Soll uns beispielsweise ein autonomes Fahrzeug in die Arbeit bringen, muss das nicht unbedingt möglichst schnell oder auf kürzestem Weg erfolgen. Typischerweise genügt es, wenn wir rechtzeitig zu Arbeitsbeginn im Büro sind. Für die meisten derzeit verfügbaren Lernalgorithmen müsste man dennoch versuchen, die Problemstellung als Optimierungsproblem darzustellen, um sie anwenden zu können. Das bedeutet nicht nur Zusatzarbeit für die Anwenderin, die entstehenden Optimierungsprobleme sind in der Praxis oft auch schwierig zu lösen. Das Berechnen der auf den Zentimeter kürzesten oder auf die Sekunde schnellsten Autofahrt ins Büro ist aufgrund der Komplexität des Problems praktisch unmöglich. Entsprechend lassen sich die meisten Lernalgorithmen in der Praxis auch kaum sinnvoll einsetzen. Im vorliegenden Forschungsprojekt soll an Algorithmen gearbeitet werden, die Problemstellungen nicht unbedingt optimal sondern nur gut genug lösen, dies aber wesentlich schneller. Dafür ist es zunächst nötig, passende mathematische Modelle zu finden, für die dann in einem zweiten Schritt passende Algorithmen entwickelt und analysiert werden sollen, die für einen Praxiseinsatz besser geeignet sind.

Im Forschungsgebiet des Reinforcement Learning (dt. oft Verstärkungslernen) werden Algorithmen entwickelt, die komplexes Verhalten (wie z.B. Autofahren, Spielen eines Computer- oder Brettspiels) selbständig erlernen können. Bei einigen derartigen Lernproblemen geht es darum, etwas optimal, also so gut wie möglich machen zu können, etwa beim Spielen eines Computerspiels, wo möglichst viele Punkte erreicht werden sollen. Die meisten entwickelten Algorithmen basieren tatsächlich auf einer Optimierung von Auszahlungen (wie etwa die Punkte im Computerspiel), obwohl sehr viele Lernprobleme eigentlich anderer Art sind. Soll uns beispielsweise ein autonomes Fahrzeug in die Arbeit bringen, muss das nicht unbedingt möglichst schnell oder auf kürzestem Weg erfolgen. Typischerweise genügt es, wenn wir rechtzeitig zu Arbeitsbeginn im Büro sind. Für die meisten derzeit verfügbaren Lernalgorithmen müsste man dennoch versuchen, die Problemstellung als Optimierungsproblem darzustellen, um sie anwenden zu können. Das bedeutet nicht nur Zusatzarbeit für die Anwenderin, die entstehenden Optimierungsprobleme sind in der Praxis oft auch schwierig zu lösen. Das Berechnen der auf den Zentimeter kürzesten oder auf die Sekunde schnellsten Autofahrt ins Büro ist aufgrund der Komplexität des Problems praktisch unmöglich. Entsprechend lassen sich die meisten Lernalgorithmen in der Praxis auch kaum sinnvoll einsetzen. Im vorliegenden Forschungsprojekt wurde an Algorithmen geforscht, die Problemstellungen nicht unbedingt optimal sondern nur gut genug lösen. Die entwickelten Algorithmen wurden mit mathematischen Methoden analysiert und zeigen für die vereinfachten Problemstellungen tatsächlich eine wesentlich verbesserte Leistungsfähigkeit. Während Algorithmen, die optimales Verhalten erlernen wollen, sich nie sicher sein können, dass sie die optimale Strategie bereits gefunden haben und deshalb sicherheitshalber auch immer wieder scheinbar schlechtere Optionen ausprobieren müssen, ist dies nicht der Fall, wenn der Algorithmus nur einen bestimmten Schwellwert erreichen will. Das bedeutet auch, dass wenn für eine eine Problemstellung ein guter Schwellwert bekannt ist, der nur von der optimalen Strategie erreicht wird, diese auch viel effizienter erlernt werden kann.

Forschungsstätte(n)

Montanuniversität Leoben - 100%

Research Output

7 Publikationen
2 Datasets & Models
4 Wissenschaftliche Auszeichnungen

Publikationen

Titel	Understanding the Gaps in Satisficing Bandits
Typ	Conference Proceeding Abstract
Autor	Ortner R
Konferenz	Forty-Third International Conference on Machine Learning, ICML 2026

Titel	Online Regret Bounds for Satisficing in Markov Decision Processes
DOI	10.1287/moor.2023.0275
Typ	Journal Article
Autor	Hajiabolhassan H
Journal	Mathematics of Operations Research

Titel	Online Regret Bounds for Satisficing in MDPs
Typ	Conference Proceeding Abstract
Autor	Hajiabolhassan H
Konferenz	European Workshop on Reinforcement Learning
Link	Publikation

Titel	Regret Bounds for Satisficing in Multi-Armed Bandit Problems
Typ	Journal Article
Autor	Hajiabolhassan H
Journal	Transactions on Machine Learning Research
Link	Publikation

Titel	Understanding the Gaps in Satisficing Bandits
Typ	Conference Proceeding Abstract
Autor	Ortner R
Konferenz	European Workshop on Reinforcement Learning

Titel	Adaptive Algorithms for Meta-Induction
DOI	10.1007/s10838-021-09590-2
Typ	Journal Article
Autor	Ortner R
Journal	Journal for General Philosophy of Science
Seiten	433-450
Link	Publikation

Titel	Regret Bounds for Satisficing in Multi-Armed Bandit Problems
Typ	Conference Proceeding Abstract
Autor	Hajiabolhassan H
Konferenz	European Workshop on Reinforcement Learning
Link	Publikation

Datasets & Models

Öffentlich zugänglich
Titel	Sat-UcRL for satisficing in MDPs
Typ	Computer model/algorithm
Link	Link

Öffentlich zugänglich
Titel	Sat-UCB for satisficing in the multi-armed bandit setting
Typ	Computer model/algorithm
Link	Link

Wissenschaftliche Auszeichnungen

Titel	Poster EWRL 2024
Typ	Poster/abstract prize
Bekanntheitsgrad	Continental/International

Titel	Invitation as Speaker to Reinforcement Learning for Stochastic Networks Workshop in Toulouse
Typ	Personally asked as a key note speaker to a conference
Bekanntheitsgrad	Continental/International

Titel	Poster EWRL 2023
Typ	Poster/abstract prize
Bekanntheitsgrad	Continental/International

Titel	Poster EWRL 2022
Typ	Poster/abstract prize
Bekanntheitsgrad	Continental/International

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Verstärkungslernen ohne Optimalität

Reinforcement Learning: Beyond Optimality

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Verstärkungslernen ohne Optimalität

Reinforcement Learning: Beyond Optimality

Wissenschaftsdisziplinen

Keywords

Research Output