Struktur in Problemen des Verstärkungslernens
Structure in Reinforcement Learning
Wissenschaftsdisziplinen
Informatik (50%); Mathematik (50%)
Keywords
-
Reinforcement Learning,
Regret,
Markov decision processes,
Computational Learning Theory
Markov Entscheidungsprozesse (engl. Markov decision processes, MDPs) bieten eine allgemeine Möglichkeit zur Modellierung von stochastischen Problemstellungen und kamen seit ihrer Einführung in den 1950ern durch Richard Bellman in zahlreichen Anwendungen zum Einsatz. In den 1980ern entdeckte die Künstliche Intelligenz Forschung in MDPs ein Werkzeug zur Darstellung von Lernproblemen mit "verzögertem Feedback". Doch obwohl eine Vielzahl an Algorithmen für dieses sogenannte Verstärkungslernen (engl. reinforcement learning) entwickelt wurde, blieb diesen Methoden ein wirklicher Durchbruch bisher verwehrt, trotz einiger erfolgreicher Anwendungen wie etwa Gerald Tesauros Backgammon Algorithmus. Grund dafür ist vor allem, dass in praktischen Anwendungen der Zustandsraum der entsprechenden MDP-Repräsentation meist sehr groß ist, und sowohl Komplexität als auch der Verlust (engl. regret), den ein Algorithmus im Vergleich zu einer optimalen Strategie erleidet, für typische Algorithmen linear oder gar polynomiell mit der Größe des Zustandsraumes wachsen. Die meisten dieser Algorithmen sind allerdings - anders als etwa menschliches Lernen - nicht darauf ausgerichtet, Ähnlichkeits- und andere Strukturen im zugrundeliegenden Problem zu erkennen und auszunutzen. Dieses Projekt beschäftigt sich mit solchen Strukturen in MDPs und der Frage, wie diese durch Lernalgorithmen verwertet werden können. Die Entwicklung entsprechender Methoden würde den Einsatz von Verstärkungslernalgorithmen auch in Bereichen ermöglichen, wo bisher nur Heuristiken verwendet werden bzw. man auf Expertenwissen angewiesen ist. Entsprechende Algorithmen würden also nicht auf typische Bereiche wie etwa Lernen in Spielen beschränkt sein. Vielmehr kämen neue Bereiche wie etwa Robotik oder Logistik als Anwendungsgebiete in Frage. Das beantragte Projekt möchte sich auf folgende zwei Fragestellungen konzentrieren: Erstens sollen (Ähnlichkeits-)Strukturen auf MDPs untersucht werden, die es ermöglichen, den MDP zu vereinfachen, und dadurch in einem weiteren Schritt durch geeignete adaptive Algorithmen effizient zu erlernen. In Design und Analyse dieser Algorithmen sollen Konfidenzintervalle eine Schlüsselrolle spielen. Zweitens sollen diese Techniken auf MDPs mit kontinuierlichem Zustandsraum angewandt werden, ein Bereich, der speziell für potenzielle Anwendungen von großer Bedeutung ist. Das Projekt soll am INRIA Lille durchgeführt werden, das mit der SequeL-Gruppe ein interdisziplinäres Zentrum für Forschung auf dem Gebiet des Verstärkungslernens beherbergt. Die Zusammenarbeit soll aber nicht nur auf die SequeL-Gruppe beschränkt bleiben. Weitere Gruppen am INRIA Lille, die auf relevanten angrenzenden Forschungsgebieten wie Kontrolltheorie, Optimierung und Statistik arbeiten, können zum Erfolg des Projektes beitragen.
- Inria Lille - Nord Europe - 100%
Research Output
- 42 Zitationen
- 2 Publikationen
-
2012
Titel Regret Bounds for Restless Markov Bandits DOI 10.1007/978-3-642-34106-9_19 Typ Book Chapter Autor Ortner R Verlag Springer Nature Seiten 214-228 -
2012
Titel Adaptive aggregation for reinforcement learning in average reward Markov decision processes DOI 10.1007/s10479-012-1064-y Typ Journal Article Autor Ortner R Journal Annals of Operations Research Seiten 321-336