• Zum Inhalt springen (Accesskey 1)
  • Zur Suche springen (Accesskey 7)
FWF — Österreichischer Wissenschaftsfonds
  • Zur Übersichtsseite Entdecken

    • Forschungsradar
      • Historisches Forschungsradar 1974–1994
    • Entdeckungen
      • Emmanuelle Charpentier
      • Adrian Constantin
      • Monika Henzinger
      • Ferenc Krausz
      • Wolfgang Lutz
      • Walter Pohl
      • Christa Schleper
      • Elly Tanaka
      • Anton Zeilinger
    • Impact Stories
      • Verena Gassner
      • Wolfgang Lechner
      • Georg Winter
    • scilog-Magazin
    • Austrian Science Awards
      • FWF-Wittgenstein-Preise
      • FWF-ASTRA-Preise
      • FWF-START-Preise
      • Auszeichnungsfeier
    • excellent=austria
      • Clusters of Excellence
      • Emerging Fields
    • Im Fokus
      • 40 Jahre Erwin-Schrödinger-Programm
      • Quantum Austria
      • Spezialforschungsbereiche
    • Dialog und Diskussion
      • think.beyond Summit
      • Am Puls
      • Was die Welt zusammenhält
      • FWF Women’s Circle
      • Science Lectures
    • Wissenstransfer-Events
    • E-Book Library
  • Zur Übersichtsseite Fördern

    • Förderportfolio
      • excellent=austria
        • Clusters of Excellence
        • Emerging Fields
      • Projekte
        • Einzelprojekte
        • Einzelprojekte International
        • Klinische Forschung
        • 1000 Ideen
        • Entwicklung und Erschließung der Künste
        • FWF-Wittgenstein-Preis
      • Karrieren
        • ESPRIT
        • FWF-ASTRA-Preise
        • Erwin Schrödinger
        • doc.funds
        • doc.funds.connect
      • Kooperationen
        • Spezialforschungsgruppen
        • Spezialforschungsbereiche
        • Forschungsgruppen
        • International – Multilaterale Initiativen
        • #ConnectingMinds
      • Kommunikation
        • Top Citizen Science
        • Wissenschaftskommunikation
        • Buchpublikationen
        • Digitale Publikationen
        • Open-Access-Pauschale
      • Themenförderungen
        • AI Mission Austria
        • Belmont Forum
        • ERA-NET HERA
        • ERA-NET NORFACE
        • ERA-NET QuantERA
        • ERA-NET TRANSCAN
        • Ersatzmethoden für Tierversuche
        • Europäische Partnerschaft Biodiversa+
        • Europäische Partnerschaft ERA4Health
        • Europäische Partnerschaft ERDERA
        • Europäische Partnerschaft EUPAHW
        • Europäische Partnerschaft FutureFoodS
        • Europäische Partnerschaft OHAMR
        • Europäische Partnerschaft PerMed
        • Europäische Partnerschaft Water4All
        • Gottfried-und-Vera-Weiss-Preis
        • netidee SCIENCE
        • Projekte der Herzfelder-Stiftung
        • Quantum Austria
        • Rückenwind-Förderbonus
        • WE&ME Award
        • Zero Emissions Award
      • Länderkooperationen
        • Belgien/Flandern
        • Deutschland
        • Frankreich
        • Italien/Südtirol
        • Japan
        • Luxemburg
        • Polen
        • Schweiz
        • Slowenien
        • Taiwan
        • Tirol–Südtirol–Trentino
        • Tschechien
        • Ungarn
    • Schritt für Schritt
      • Förderung finden
      • Antrag einreichen
      • Internationales Peer-Review
      • Förderentscheidung
      • Projekt durchführen
      • Projekt beenden
      • Weitere Informationen
        • Integrität und Ethik
        • Inklusion
        • Antragstellung aus dem Ausland
        • Personalkosten
        • PROFI
        • Projektendberichte
        • Projektendberichtsumfrage
    • FAQ
      • Projektphase PROFI
      • Projektphase Ad personam
      • Auslaufende Programme
        • Elise Richter und Elise Richter PEEK
        • FWF-START-Preise
  • Zur Übersichtsseite Über uns

    • Leitbild
    • FWF-Film
    • Werte
    • Zahlen und Daten
    • Jahresbericht
    • Aufgaben und Aktivitäten
      • Forschungsförderung
        • Matching-Funds-Förderungen
      • Internationale Kooperationen
      • Studien und Publikationen
      • Chancengleichheit und Diversität
        • Ziele und Prinzipien
        • Maßnahmen
        • Bias-Sensibilisierung in der Begutachtung
        • Begriffe und Definitionen
        • Karriere in der Spitzenforschung
      • Open Science
        • Open-Access-Policy
          • Open-Access-Policy für begutachtete Publikationen
          • Open-Access-Policy für begutachtete Buchpublikationen
          • Open-Access-Policy für Forschungsdaten
        • Forschungsdatenmanagement
        • Citizen Science
        • Open-Science-Infrastrukturen
        • Open-Science-Förderung
      • Evaluierungen und Qualitätssicherung
      • Wissenschaftliche Integrität
      • Wissenschaftskommunikation
      • Philanthropie
      • Nachhaltigkeit
    • Geschichte
    • Gesetzliche Grundlagen
    • Organisation
      • Gremien
        • Präsidium
        • Aufsichtsrat
        • Delegiertenversammlung
        • Kuratorium
        • Jurys
      • Geschäftsstelle
    • Arbeiten im FWF
  • Zur Übersichtsseite Aktuelles

    • News
    • Presse
      • Logos
    • Eventkalender
      • Veranstaltung eintragen
      • FWF-Infoveranstaltungen
    • Jobbörse
      • Job eintragen
    • Newsletter
  • Entdecken, 
    worauf es
    ankommt.

    FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

    SOCIAL MEDIA

    • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
    • , externe URL, öffnet sich in einem neuen Fenster
    • Facebook, externe URL, öffnet sich in einem neuen Fenster
    • Instagram, externe URL, öffnet sich in einem neuen Fenster
    • YouTube, externe URL, öffnet sich in einem neuen Fenster

    SCILOG

    • Scilog — Das Wissenschaftsmagazin des Österreichischen Wissenschaftsfonds (FWF)
  • elane-Login, externe URL, öffnet sich in einem neuen Fenster
  • Scilog externe URL, öffnet sich in einem neuen Fenster
  • en Switch to English

  

Verstärkungslernen ohne Optimalität

Reinforcement Learning: Beyond Optimality

Ronald Ortner (ORCID: 0000-0001-6033-2208)
  • Grant-DOI 10.55776/TAI590
  • Förderprogramm 1000 Ideen
  • Status beendet
  • Projektbeginn 10.01.2022
  • Projektende 09.08.2024
  • Bewilligungssumme 150.761 €
  • Projekt-Website

Wissenschaftsdisziplinen

Informatik (100%)

Keywords

    Reinforcement Learning (Theory)

Abstract Endbericht

Im Forschungsgebiet des Reinforcement Learning (dt. oft Verstärkungslernen) werden Algorithmen entwickelt, die komplexes Verhalten (wie z.B. Autofahren, Spielen eines Computer- oder Brettspiels) selbständig erlernen können. Bei einigen derartigen Lernproblemen geht es darum, etwas optimal, also so gut wie möglich machen zu können, etwa beim Spielen eines Computerspiels, wo möglichst viele Punkte erreicht werden sollen. Die meisten entwickelten Algorithmen basieren tatsächlich auf einer Optimierung von Auszahlungen (wie etwa die Punkte im Computerspiel), obwohl sehr viele Lernprobleme eigentlich anderer Art sind. Soll uns beispielsweise ein autonomes Fahrzeug in die Arbeit bringen, muss das nicht unbedingt möglichst schnell oder auf kürzestem Weg erfolgen. Typischerweise genügt es, wenn wir rechtzeitig zu Arbeitsbeginn im Büro sind. Für die meisten derzeit verfügbaren Lernalgorithmen müsste man dennoch versuchen, die Problemstellung als Optimierungsproblem darzustellen, um sie anwenden zu können. Das bedeutet nicht nur Zusatzarbeit für die Anwenderin, die entstehenden Optimierungsprobleme sind in der Praxis oft auch schwierig zu lösen. Das Berechnen der auf den Zentimeter kürzesten oder auf die Sekunde schnellsten Autofahrt ins Büro ist aufgrund der Komplexität des Problems praktisch unmöglich. Entsprechend lassen sich die meisten Lernalgorithmen in der Praxis auch kaum sinnvoll einsetzen. Im vorliegenden Forschungsprojekt soll an Algorithmen gearbeitet werden, die Problemstellungen nicht unbedingt optimal sondern nur gut genug lösen, dies aber wesentlich schneller. Dafür ist es zunächst nötig, passende mathematische Modelle zu finden, für die dann in einem zweiten Schritt passende Algorithmen entwickelt und analysiert werden sollen, die für einen Praxiseinsatz besser geeignet sind.

Im Forschungsgebiet des Reinforcement Learning (dt. oft Verstärkungslernen) werden Algorithmen entwickelt, die komplexes Verhalten (wie z.B. Autofahren, Spielen eines Computer- oder Brettspiels) selbständig erlernen können. Bei einigen derartigen Lernproblemen geht es darum, etwas optimal, also so gut wie möglich machen zu können, etwa beim Spielen eines Computerspiels, wo möglichst viele Punkte erreicht werden sollen. Die meisten entwickelten Algorithmen basieren tatsächlich auf einer Optimierung von Auszahlungen (wie etwa die Punkte im Computerspiel), obwohl sehr viele Lernprobleme eigentlich anderer Art sind. Soll uns beispielsweise ein autonomes Fahrzeug in die Arbeit bringen, muss das nicht unbedingt möglichst schnell oder auf kürzestem Weg erfolgen. Typischerweise genügt es, wenn wir rechtzeitig zu Arbeitsbeginn im Büro sind. Für die meisten derzeit verfügbaren Lernalgorithmen müsste man dennoch versuchen, die Problemstellung als Optimierungsproblem darzustellen, um sie anwenden zu können. Das bedeutet nicht nur Zusatzarbeit für die Anwenderin, die entstehenden Optimierungsprobleme sind in der Praxis oft auch schwierig zu lösen. Das Berechnen der auf den Zentimeter kürzesten oder auf die Sekunde schnellsten Autofahrt ins Büro ist aufgrund der Komplexität des Problems praktisch unmöglich. Entsprechend lassen sich die meisten Lernalgorithmen in der Praxis auch kaum sinnvoll einsetzen. Im vorliegenden Forschungsprojekt wurde an Algorithmen geforscht, die Problemstellungen nicht unbedingt optimal sondern nur gut genug lösen. Die entwickelten Algorithmen wurden mit mathematischen Methoden analysiert und zeigen für die vereinfachten Problemstellungen tatsächlich eine wesentlich verbesserte Leistungsfähigkeit. Während Algorithmen, die optimales Verhalten erlernen wollen, sich nie sicher sein können, dass sie die optimale Strategie bereits gefunden haben und deshalb sicherheitshalber auch immer wieder scheinbar schlechtere Optionen ausprobieren müssen, ist dies nicht der Fall, wenn der Algorithmus nur einen bestimmten Schwellwert erreichen will. Das bedeutet auch, dass wenn für eine eine Problemstellung ein guter Schwellwert bekannt ist, der nur von der optimalen Strategie erreicht wird, diese auch viel effizienter erlernt werden kann.

Forschungsstätte(n)
  • Montanuniversität Leoben - 100%

Research Output

  • 5 Publikationen
  • 2 Datasets & Models
  • 4 Wissenschaftliche Auszeichnungen
Publikationen
  • 2023
    Titel Regret Bounds for Satisficing in Multi-Armed Bandit Problems
    Typ Journal Article
    Autor Hajiabolhassan H
    Journal Transactions on Machine Learning Research
    Link Publikation
  • 2023
    Titel Online Regret Bounds for Satisficing in MDPs
    Typ Conference Proceeding Abstract
    Autor Hajiabolhassan H
    Konferenz European Workshop on Reinforcement Learning
    Link Publikation
  • 2024
    Titel Understanding the Gaps in Satisficing Bandits
    Typ Conference Proceeding Abstract
    Autor Ortner R
    Konferenz European Workshop on Reinforcement Learning
  • 2022
    Titel Adaptive Algorithms for Meta-Induction
    DOI 10.1007/s10838-021-09590-2
    Typ Journal Article
    Autor Ortner R
    Journal Journal for General Philosophy of Science
    Seiten 433-450
    Link Publikation
  • 2022
    Titel Regret Bounds for Satisficing in Multi-Armed Bandit Problems
    Typ Conference Proceeding Abstract
    Autor Hajiabolhassan H
    Konferenz European Workshop on Reinforcement Learning
    Link Publikation
Datasets & Models
  • 2023 Link
    Titel Sat-UcRL for satisficing in MDPs
    Typ Computer model/algorithm
    Öffentlich zugänglich
    Link Link
  • 2022 Link
    Titel Sat-UCB for satisficing in the multi-armed bandit setting
    Typ Computer model/algorithm
    Öffentlich zugänglich
    Link Link
Wissenschaftliche Auszeichnungen
  • 2024
    Titel Invitation as Speaker to Reinforcement Learning for Stochastic Networks Workshop in Toulouse
    Typ Personally asked as a key note speaker to a conference
    Bekanntheitsgrad Continental/International
  • 2024
    Titel Poster EWRL 2024
    Typ Poster/abstract prize
    Bekanntheitsgrad Continental/International
  • 2023
    Titel Poster EWRL 2023
    Typ Poster/abstract prize
    Bekanntheitsgrad Continental/International
  • 2022
    Titel Poster EWRL 2022
    Typ Poster/abstract prize
    Bekanntheitsgrad Continental/International

Entdecken, 
worauf es
ankommt.

Newsletter

FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

Kontakt

Österreichischer Wissenschaftsfonds FWF
Georg-Coch-Platz 2
(Eingang Wiesingerstraße 4)
1010 Wien

office(at)fwf.ac.at
+43 1 505 67 40

Allgemeines

  • Jobbörse
  • Arbeiten im FWF
  • Presse
  • Philanthropie
  • scilog
  • Geschäftsstelle
  • Social Media Directory
  • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
  • , externe URL, öffnet sich in einem neuen Fenster
  • Facebook, externe URL, öffnet sich in einem neuen Fenster
  • Instagram, externe URL, öffnet sich in einem neuen Fenster
  • YouTube, externe URL, öffnet sich in einem neuen Fenster
  • Cookies
  • Hinweisgeber:innensystem
  • Barrierefreiheitserklärung
  • Datenschutz
  • Impressum
  • IFG-Formular
  • Social Media Directory
  • © Österreichischer Wissenschaftsfonds FWF
© Österreichischer Wissenschaftsfonds FWF