• Zum Inhalt springen (Accesskey 1)
  • Zur Suche springen (Accesskey 7)
FWF — Österreichischer Wissenschaftsfonds
  • Zur Übersichtsseite Entdecken

    • Forschungsradar
      • Historisches Forschungsradar 1974–1994
      • Open API
    • Entdeckungen
      • Emmanuelle Charpentier
      • Adrian Constantin
      • Monika Henzinger
      • Ferenc Krausz
      • Wolfgang Lutz
      • Walter Pohl
      • Christa Schleper
      • Elly Tanaka
      • Anton Zeilinger
    • Impact Stories
      • Verena Gassner
      • Wolfgang Lechner
      • Birgit Mitter
      • Oliver Spadiut
      • Georg Winter
    • scilog-Magazin
    • Austrian Science Awards
      • FWF-Wittgenstein-Preise
      • FWF-ASTRA-Preise
      • FWF-START-Preise
      • Auszeichnungsfeier
    • excellent=austria
      • Clusters of Excellence
      • Emerging Fields
    • Im Fokus
      • 40 Jahre Erwin-Schrödinger-Programm
      • Quantum Austria
      • Spezialforschungsbereiche
    • Dialog und Diskussion
      • think.beyond Summit
      • Am Puls
      • Was die Welt zusammenhält
      • FWF Women’s Circle
      • Science Lectures
    • Wissenstransfer-Events
    • E-Book Library
  • Zur Übersichtsseite Fördern

    • Förderportfolio
      • excellent=austria
        • Clusters of Excellence
        • Emerging Fields
      • Projekte
        • Einzelprojekte
        • Einzelprojekte International
        • Klinische Forschung
        • 1000 Ideen
        • Entwicklung und Erschließung der Künste
        • FWF-Wittgenstein-Preis
      • Karrieren
        • ESPRIT
        • FWF-ASTRA-Preise
        • Erwin Schrödinger
        • doc.funds
        • doc.funds.connect
      • Kooperationen
        • Spezialforschungsgruppen
        • Spezialforschungsbereiche
        • Forschungsgruppen
        • International – Multilaterale Initiativen
        • #ConnectingMinds
      • Kommunikation
        • Top Citizen Science
        • Wissenschaftskommunikation
        • Buchpublikationen
        • Digitale Publikationen
        • Open-Access-Pauschale
      • Themenförderungen
        • AI Mission Austria
        • Belmont Forum
        • ERA-NET HERA
        • ERA-NET NORFACE
        • ERA-NET QuantERA
        • Ersatzmethoden für Tierversuche
        • Europäische Partnerschaft BE READY
        • Europäische Partnerschaft Biodiversa+
        • Europäische Partnerschaft BrainHealth
        • Europäische Partnerschaft ERA4Health
        • Europäische Partnerschaft ERDERA
        • Europäische Partnerschaft EUPAHW
        • Europäische Partnerschaft FutureFoodS
        • Europäische Partnerschaft OHAMR
        • Europäische Partnerschaft PerMed
        • Europäische Partnerschaft Water4All
        • Gottfried-und-Vera-Weiss-Preis
        • LUKE – Ukraine
        • netidee SCIENCE
        • Projekte der Herzfelder-Stiftung
        • Quantum Austria
        • Rückenwind-Förderbonus
        • WE&ME Award
        • Zero Emissions Award
      • Länderkooperationen
        • Belgien/Flandern
        • Deutschland
        • Frankreich
        • Italien/Südtirol
        • Japan
        • Korea
        • Luxemburg
        • Polen
        • Schweiz
        • Slowenien
        • Taiwan
        • Tirol-Südtirol-Trentino
        • Tschechien
        • Ungarn
    • Schritt für Schritt
      • Förderung finden
      • Antrag einreichen
      • Internationales Peer-Review
      • Förderentscheidung
      • Projekt durchführen
      • Projekt beenden
      • Weitere Informationen
        • Integrität und Ethik
        • Inklusion
        • Antragstellung aus dem Ausland
        • Personalkosten
        • PROFI
        • Projektendberichte
        • Projektendberichtsumfrage
    • FAQ
      • Projektphase PROFI
      • Projektphase Ad personam
      • Auslaufende Programme
        • Elise Richter und Elise Richter PEEK
        • FWF-START-Preise
  • Zur Übersichtsseite Über uns

    • Leitbild
    • FWF-Film
    • Werte
    • Zahlen und Daten
    • Jahresbericht
    • Aufgaben und Aktivitäten
      • Forschungsförderung
        • Matching-Funds-Förderungen
      • Internationale Kooperationen
      • Studien und Publikationen
      • Chancengleichheit und Diversität
        • Ziele und Prinzipien
        • Maßnahmen
        • Bias-Sensibilisierung in der Begutachtung
        • Begriffe und Definitionen
        • Karriere in der Spitzenforschung
      • Open Science
        • Open-Access-Policy
          • Open-Access-Policy für begutachtete Publikationen
          • Open-Access-Policy für begutachtete Buchpublikationen
          • Open-Access-Policy für Forschungsdaten
        • Forschungsdatenmanagement
        • Citizen Science
        • Open-Science-Infrastrukturen
        • Open-Science-Förderung
      • Evaluierungen und Qualitätssicherung
      • Wissenschaftliche Integrität
      • Wissenschaftskommunikation
      • Philanthropie
      • Nachhaltigkeit
    • Geschichte
    • Gesetzliche Grundlagen
    • Organisation
      • Gremien
        • Präsidium
        • Aufsichtsrat
        • Delegiertenversammlung
        • Kuratorium
        • Jurys
      • Geschäftsstelle
    • Arbeiten im FWF
  • Zur Übersichtsseite Aktuelles

    • News
    • Presse
      • Logos
    • Eventkalender
      • Veranstaltung eintragen
      • FWF-Infoveranstaltungen
    • Jobbörse
      • Job eintragen
    • Newsletter
  • Entdecken, 
    worauf es
    ankommt.

    FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

    SOCIAL MEDIA

    • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
    • , externe URL, öffnet sich in einem neuen Fenster
    • Facebook, externe URL, öffnet sich in einem neuen Fenster
    • Instagram, externe URL, öffnet sich in einem neuen Fenster
    • YouTube, externe URL, öffnet sich in einem neuen Fenster

    SCILOG

    • Scilog — Das Wissenschaftsmagazin des Österreichischen Wissenschaftsfonds (FWF)
  • elane-Login, externe URL, öffnet sich in einem neuen Fenster
  • Scilog externe URL, öffnet sich in einem neuen Fenster
  • en Switch to English

  

Von Satisfizierung zur Optimierung im Verstärkungslernen

From Satisficing to Optimization in Reinforcement Learning

Ronald Ortner (ORCID: 0000-0001-6033-2208)
  • Grant-DOI 10.55776/PAT6918624
  • Förderprogramm Einzelprojekte
  • Status laufend
  • Projektbeginn 08.09.2025
  • Projektende 07.09.2027
  • Bewilligungssumme 187.741 €

Wissenschaftsdisziplinen

Informatik (80%); Mathematik (20%)

Keywords

    Reinforcement Learning, Satisficing, Regret, Multi-Armed Bandit, Computational Learning Theory, Markov decision process

Abstract

Im Forschungsgebiet des Reinforcement Learning (dt. oft Verstärkungslernen) werden Algorithmen entwickelt, die komplexes Verhalten (wie z.B. Autofahren, Spielen eines Computer- oder Brettspiels) selbständig erlernen können. Bei einigen derartigen Lernproblemen geht es darum, etwas optimal, also so gut wie möglich machen zu können, etwa beim Spielen eines Computerspiels, wo möglichst viele Punkte erreicht werden sollen. Die meisten entwickelten Algorithmen basieren tatsächlich auf einer Optimierung von Auszahlungen (wie etwa die Punkte im Computerspiel), obwohl sehr viele Lernprobleme eigentlich anderer Art sind. Soll uns beispielsweise ein autonomes Fahrzeug in die Arbeit bringen, muss das nicht unbedingt möglichst schnell oder auf kürzestem Weg erfolgen. Typischerweise genügt es, wenn wir rechtzeitig zu Arbeitsbeginn im Büro sind. Für die meisten derzeit verfügbaren Lernalgorithmen müsste man dennoch versuchen, die Problemstellung als Optimierungsproblem darzustellen, um sie anwenden zu können. Das bedeutet nicht nur Zusatzarbeit für die Anwenderin, die entstehenden Optimierungsprobleme sind in der Praxis oft auch schwierig zu lösen. Das Berechnen der auf den Zentimeter kürzesten oder auf die Sekunde schnellsten Autofahrt ins Büro ist aufgrund der Komplexität des Problems praktisch unmöglich. Entsprechend lassen sich die meisten Lernalgorithmen in der Praxis auch kaum sinnvoll einsetzen. In einem Vorgängerprojekt wurde untersucht, inwiefern es von Vorteil ist, wenn Problemstellungen nicht unbedingt optimal sondern nur gut genug zu lösen sind. Während bekannt war, dass das Erlernen von bestmöglichem Verhalten immer nur eine Annäherung an dieses liefern kann, konnte gezeigt werden, dass eine Strategie, die gut genug ist, d.h. über einem vorgegebenem Schwellwert liegt, auch exakt gelernt werden kann. Das bedeutet aber auch, dass eine optimale Strategie auch exakt erlernt werden kann, wenn ein Schwellwert bekannt ist, der nur durch diese erreicht werden kann. Das vorliegende Nachfolgeprojekt möchte sich nun insbesondere Lernalgorithmen widmen, die versuchen, einen solchen Schwellwert adaptiv zu bestimmen. Solche Algorithmen könnten Problemstellungen in der Praxis viel schneller und effizienter lösen.

Forschungsstätte(n)
  • Montanuniversität Leoben - 100%

Entdecken, 
worauf es
ankommt.

Newsletter

FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

Kontakt

Österreichischer Wissenschaftsfonds FWF
Georg-Coch-Platz 2
(Eingang Wiesingerstraße 4)
1010 Wien

office(at)fwf.ac.at
+43 1 505 67 40

Allgemeines

  • Jobbörse
  • Arbeiten im FWF
  • Presse
  • Philanthropie
  • scilog
  • Geschäftsstelle
  • Social Media Directory
  • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
  • , externe URL, öffnet sich in einem neuen Fenster
  • Facebook, externe URL, öffnet sich in einem neuen Fenster
  • Instagram, externe URL, öffnet sich in einem neuen Fenster
  • YouTube, externe URL, öffnet sich in einem neuen Fenster
  • Cookies
  • Hinweisgeber:innensystem
  • Barrierefreiheitserklärung
  • Datenschutz
  • IFG-Formular
  • Impressum
  • © Österreichischer Wissenschaftsfonds FWF
© Österreichischer Wissenschaftsfonds FWF