Verstärkungslernen ohne Optimalität
Reinforcement Learning: Beyond Optimality
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
-
Reinforcement Learning (Theory)
Im Forschungsgebiet des Reinforcement Learning (dt. oft Verstärkungslernen) werden Algorithmen entwickelt, die komplexes Verhalten (wie z.B. Autofahren, Spielen eines Computer- oder Brettspiels) selbständig erlernen können. Bei einigen derartigen Lernproblemen geht es darum, etwas optimal, also so gut wie möglich machen zu können, etwa beim Spielen eines Computerspiels, wo möglichst viele Punkte erreicht werden sollen. Die meisten entwickelten Algorithmen basieren tatsächlich auf einer Optimierung von Auszahlungen (wie etwa die Punkte im Computerspiel), obwohl sehr viele Lernprobleme eigentlich anderer Art sind. Soll uns beispielsweise ein autonomes Fahrzeug in die Arbeit bringen, muss das nicht unbedingt möglichst schnell oder auf kürzestem Weg erfolgen. Typischerweise genügt es, wenn wir rechtzeitig zu Arbeitsbeginn im Büro sind. Für die meisten derzeit verfügbaren Lernalgorithmen müsste man dennoch versuchen, die Problemstellung als Optimierungsproblem darzustellen, um sie anwenden zu können. Das bedeutet nicht nur Zusatzarbeit für die Anwenderin, die entstehenden Optimierungsprobleme sind in der Praxis oft auch schwierig zu lösen. Das Berechnen der auf den Zentimeter kürzesten oder auf die Sekunde schnellsten Autofahrt ins Büro ist aufgrund der Komplexität des Problems praktisch unmöglich. Entsprechend lassen sich die meisten Lernalgorithmen in der Praxis auch kaum sinnvoll einsetzen. Im vorliegenden Forschungsprojekt soll an Algorithmen gearbeitet werden, die Problemstellungen nicht unbedingt optimal sondern nur gut genug lösen, dies aber wesentlich schneller. Dafür ist es zunächst nötig, passende mathematische Modelle zu finden, für die dann in einem zweiten Schritt passende Algorithmen entwickelt und analysiert werden sollen, die für einen Praxiseinsatz besser geeignet sind.
Im Forschungsgebiet des Reinforcement Learning (dt. oft Verstärkungslernen) werden Algorithmen entwickelt, die komplexes Verhalten (wie z.B. Autofahren, Spielen eines Computer- oder Brettspiels) selbständig erlernen können. Bei einigen derartigen Lernproblemen geht es darum, etwas optimal, also so gut wie möglich machen zu können, etwa beim Spielen eines Computerspiels, wo möglichst viele Punkte erreicht werden sollen. Die meisten entwickelten Algorithmen basieren tatsächlich auf einer Optimierung von Auszahlungen (wie etwa die Punkte im Computerspiel), obwohl sehr viele Lernprobleme eigentlich anderer Art sind. Soll uns beispielsweise ein autonomes Fahrzeug in die Arbeit bringen, muss das nicht unbedingt möglichst schnell oder auf kürzestem Weg erfolgen. Typischerweise genügt es, wenn wir rechtzeitig zu Arbeitsbeginn im Büro sind. Für die meisten derzeit verfügbaren Lernalgorithmen müsste man dennoch versuchen, die Problemstellung als Optimierungsproblem darzustellen, um sie anwenden zu können. Das bedeutet nicht nur Zusatzarbeit für die Anwenderin, die entstehenden Optimierungsprobleme sind in der Praxis oft auch schwierig zu lösen. Das Berechnen der auf den Zentimeter kürzesten oder auf die Sekunde schnellsten Autofahrt ins Büro ist aufgrund der Komplexität des Problems praktisch unmöglich. Entsprechend lassen sich die meisten Lernalgorithmen in der Praxis auch kaum sinnvoll einsetzen. Im vorliegenden Forschungsprojekt wurde an Algorithmen geforscht, die Problemstellungen nicht unbedingt optimal sondern nur gut genug lösen. Die entwickelten Algorithmen wurden mit mathematischen Methoden analysiert und zeigen für die vereinfachten Problemstellungen tatsächlich eine wesentlich verbesserte Leistungsfähigkeit. Während Algorithmen, die optimales Verhalten erlernen wollen, sich nie sicher sein können, dass sie die optimale Strategie bereits gefunden haben und deshalb sicherheitshalber auch immer wieder scheinbar schlechtere Optionen ausprobieren müssen, ist dies nicht der Fall, wenn der Algorithmus nur einen bestimmten Schwellwert erreichen will. Das bedeutet auch, dass wenn für eine eine Problemstellung ein guter Schwellwert bekannt ist, der nur von der optimalen Strategie erreicht wird, diese auch viel effizienter erlernt werden kann.
- Montanuniversität Leoben - 100%
Research Output
- 5 Publikationen
- 2 Datasets & Models
- 4 Wissenschaftliche Auszeichnungen
-
2023
Titel Regret Bounds for Satisficing in Multi-Armed Bandit Problems Typ Journal Article Autor Hajiabolhassan H Journal Transactions on Machine Learning Research Link Publikation -
2023
Titel Online Regret Bounds for Satisficing in MDPs Typ Conference Proceeding Abstract Autor Hajiabolhassan H Konferenz European Workshop on Reinforcement Learning Link Publikation -
2024
Titel Understanding the Gaps in Satisficing Bandits Typ Conference Proceeding Abstract Autor Ortner R Konferenz European Workshop on Reinforcement Learning -
2022
Titel Adaptive Algorithms for Meta-Induction DOI 10.1007/s10838-021-09590-2 Typ Journal Article Autor Ortner R Journal Journal for General Philosophy of Science Seiten 433-450 Link Publikation -
2022
Titel Regret Bounds for Satisficing in Multi-Armed Bandit Problems Typ Conference Proceeding Abstract Autor Hajiabolhassan H Konferenz European Workshop on Reinforcement Learning Link Publikation
-
2024
Titel Invitation as Speaker to Reinforcement Learning for Stochastic Networks Workshop in Toulouse Typ Personally asked as a key note speaker to a conference Bekanntheitsgrad Continental/International -
2024
Titel Poster EWRL 2024 Typ Poster/abstract prize Bekanntheitsgrad Continental/International -
2023
Titel Poster EWRL 2023 Typ Poster/abstract prize Bekanntheitsgrad Continental/International -
2022
Titel Poster EWRL 2022 Typ Poster/abstract prize Bekanntheitsgrad Continental/International