• Zum Inhalt springen (Accesskey 1)
  • Zur Suche springen (Accesskey 7)
FWF — Österreichischer Wissenschaftsfonds
  • Zur Übersichtsseite Entdecken

    • Forschungsradar
      • Historisches Forschungsradar 1974–1994
    • Entdeckungen
      • Emmanuelle Charpentier
      • Adrian Constantin
      • Monika Henzinger
      • Ferenc Krausz
      • Wolfgang Lutz
      • Walter Pohl
      • Christa Schleper
      • Elly Tanaka
      • Anton Zeilinger
    • Impact Stories
      • Verena Gassner
      • Wolfgang Lechner
      • Birgit Mitter
      • Oliver Spadiut
      • Georg Winter
    • scilog-Magazin
    • Austrian Science Awards
      • FWF-Wittgenstein-Preise
      • FWF-ASTRA-Preise
      • FWF-START-Preise
      • Auszeichnungsfeier
    • excellent=austria
      • Clusters of Excellence
      • Emerging Fields
    • Im Fokus
      • 40 Jahre Erwin-Schrödinger-Programm
      • Quantum Austria
      • Spezialforschungsbereiche
    • Dialog und Diskussion
      • think.beyond Summit
      • Am Puls
      • Was die Welt zusammenhält
      • FWF Women’s Circle
      • Science Lectures
    • Wissenstransfer-Events
    • E-Book Library
  • Zur Übersichtsseite Fördern

    • Förderportfolio
      • excellent=austria
        • Clusters of Excellence
        • Emerging Fields
      • Projekte
        • Einzelprojekte
        • Einzelprojekte International
        • Klinische Forschung
        • 1000 Ideen
        • Entwicklung und Erschließung der Künste
        • FWF-Wittgenstein-Preis
      • Karrieren
        • ESPRIT
        • FWF-ASTRA-Preise
        • Erwin Schrödinger
        • doc.funds
        • doc.funds.connect
      • Kooperationen
        • Spezialforschungsgruppen
        • Spezialforschungsbereiche
        • Forschungsgruppen
        • International – Multilaterale Initiativen
        • #ConnectingMinds
      • Kommunikation
        • Top Citizen Science
        • Wissenschaftskommunikation
        • Buchpublikationen
        • Digitale Publikationen
        • Open-Access-Pauschale
      • Themenförderungen
        • AI Mission Austria
        • Belmont Forum
        • ERA-NET HERA
        • ERA-NET NORFACE
        • ERA-NET QuantERA
        • Ersatzmethoden für Tierversuche
        • Europäische Partnerschaft BE READY
        • Europäische Partnerschaft Biodiversa+
        • Europäische Partnerschaft BrainHealth
        • Europäische Partnerschaft ERA4Health
        • Europäische Partnerschaft ERDERA
        • Europäische Partnerschaft EUPAHW
        • Europäische Partnerschaft FutureFoodS
        • Europäische Partnerschaft OHAMR
        • Europäische Partnerschaft PerMed
        • Europäische Partnerschaft Water4All
        • Gottfried-und-Vera-Weiss-Preis
        • LUKE – Ukraine
        • netidee SCIENCE
        • Projekte der Herzfelder-Stiftung
        • Quantum Austria
        • Rückenwind-Förderbonus
        • WE&ME Award
        • Zero Emissions Award
      • Länderkooperationen
        • Belgien/Flandern
        • Deutschland
        • Frankreich
        • Italien/Südtirol
        • Japan
        • Korea
        • Luxemburg
        • Polen
        • Schweiz
        • Slowenien
        • Taiwan
        • Tirol-Südtirol-Trentino
        • Tschechien
        • Ungarn
    • Schritt für Schritt
      • Förderung finden
      • Antrag einreichen
      • Internationales Peer-Review
      • Förderentscheidung
      • Projekt durchführen
      • Projekt beenden
      • Weitere Informationen
        • Integrität und Ethik
        • Inklusion
        • Antragstellung aus dem Ausland
        • Personalkosten
        • PROFI
        • Projektendberichte
        • Projektendberichtsumfrage
    • FAQ
      • Projektphase PROFI
      • Projektphase Ad personam
      • Auslaufende Programme
        • Elise Richter und Elise Richter PEEK
        • FWF-START-Preise
  • Zur Übersichtsseite Über uns

    • Leitbild
    • FWF-Film
    • Werte
    • Zahlen und Daten
    • Jahresbericht
    • Aufgaben und Aktivitäten
      • Forschungsförderung
        • Matching-Funds-Förderungen
      • Internationale Kooperationen
      • Studien und Publikationen
      • Chancengleichheit und Diversität
        • Ziele und Prinzipien
        • Maßnahmen
        • Bias-Sensibilisierung in der Begutachtung
        • Begriffe und Definitionen
        • Karriere in der Spitzenforschung
      • Open Science
        • Open-Access-Policy
          • Open-Access-Policy für begutachtete Publikationen
          • Open-Access-Policy für begutachtete Buchpublikationen
          • Open-Access-Policy für Forschungsdaten
        • Forschungsdatenmanagement
        • Citizen Science
        • Open-Science-Infrastrukturen
        • Open-Science-Förderung
      • Evaluierungen und Qualitätssicherung
      • Wissenschaftliche Integrität
      • Wissenschaftskommunikation
      • Philanthropie
      • Nachhaltigkeit
    • Geschichte
    • Gesetzliche Grundlagen
    • Organisation
      • Gremien
        • Präsidium
        • Aufsichtsrat
        • Delegiertenversammlung
        • Kuratorium
        • Jurys
      • Geschäftsstelle
    • Arbeiten im FWF
  • Zur Übersichtsseite Aktuelles

    • News
    • Presse
      • Logos
    • Eventkalender
      • Veranstaltung eintragen
      • FWF-Infoveranstaltungen
    • Jobbörse
      • Job eintragen
    • Newsletter
  • Entdecken, 
    worauf es
    ankommt.

    FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

    SOCIAL MEDIA

    • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
    • , externe URL, öffnet sich in einem neuen Fenster
    • Facebook, externe URL, öffnet sich in einem neuen Fenster
    • Instagram, externe URL, öffnet sich in einem neuen Fenster
    • YouTube, externe URL, öffnet sich in einem neuen Fenster

    SCILOG

    • Scilog — Das Wissenschaftsmagazin des Österreichischen Wissenschaftsfonds (FWF)
  • elane-Login, externe URL, öffnet sich in einem neuen Fenster
  • Scilog externe URL, öffnet sich in einem neuen Fenster
  • en Switch to English

  

Struktur in Problemen des Verstärkungslernens

Structure in Reinforcement Learning

Ronald Ortner (ORCID: 0000-0001-6033-2208)
  • Grant-DOI 10.55776/J3259
  • Förderprogramm Erwin Schrödinger
  • Status beendet
  • Projektbeginn 01.01.2012
  • Projektende 31.10.2012
  • Bewilligungssumme 28.825 €
  • Projekt-Website

Wissenschaftsdisziplinen

Informatik (50%); Mathematik (50%)

Keywords

    Reinforcement Learning, Regret, Markov decision processes, Computational Learning Theory

Abstract

Markov Entscheidungsprozesse (engl. Markov decision processes, MDPs) bieten eine allgemeine Möglichkeit zur Modellierung von stochastischen Problemstellungen und kamen seit ihrer Einführung in den 1950ern durch Richard Bellman in zahlreichen Anwendungen zum Einsatz. In den 1980ern entdeckte die Künstliche Intelligenz Forschung in MDPs ein Werkzeug zur Darstellung von Lernproblemen mit "verzögertem Feedback". Doch obwohl eine Vielzahl an Algorithmen für dieses sogenannte Verstärkungslernen (engl. reinforcement learning) entwickelt wurde, blieb diesen Methoden ein wirklicher Durchbruch bisher verwehrt, trotz einiger erfolgreicher Anwendungen wie etwa Gerald Tesauros Backgammon Algorithmus. Grund dafür ist vor allem, dass in praktischen Anwendungen der Zustandsraum der entsprechenden MDP-Repräsentation meist sehr groß ist, und sowohl Komplexität als auch der Verlust (engl. regret), den ein Algorithmus im Vergleich zu einer optimalen Strategie erleidet, für typische Algorithmen linear oder gar polynomiell mit der Größe des Zustandsraumes wachsen. Die meisten dieser Algorithmen sind allerdings - anders als etwa menschliches Lernen - nicht darauf ausgerichtet, Ähnlichkeits- und andere Strukturen im zugrundeliegenden Problem zu erkennen und auszunutzen. Dieses Projekt beschäftigt sich mit solchen Strukturen in MDPs und der Frage, wie diese durch Lernalgorithmen verwertet werden können. Die Entwicklung entsprechender Methoden würde den Einsatz von Verstärkungslernalgorithmen auch in Bereichen ermöglichen, wo bisher nur Heuristiken verwendet werden bzw. man auf Expertenwissen angewiesen ist. Entsprechende Algorithmen würden also nicht auf typische Bereiche wie etwa Lernen in Spielen beschränkt sein. Vielmehr kämen neue Bereiche wie etwa Robotik oder Logistik als Anwendungsgebiete in Frage. Das beantragte Projekt möchte sich auf folgende zwei Fragestellungen konzentrieren: Erstens sollen (Ähnlichkeits-)Strukturen auf MDPs untersucht werden, die es ermöglichen, den MDP zu vereinfachen, und dadurch in einem weiteren Schritt durch geeignete adaptive Algorithmen effizient zu erlernen. In Design und Analyse dieser Algorithmen sollen Konfidenzintervalle eine Schlüsselrolle spielen. Zweitens sollen diese Techniken auf MDPs mit kontinuierlichem Zustandsraum angewandt werden, ein Bereich, der speziell für potenzielle Anwendungen von großer Bedeutung ist. Das Projekt soll am INRIA Lille durchgeführt werden, das mit der SequeL-Gruppe ein interdisziplinäres Zentrum für Forschung auf dem Gebiet des Verstärkungslernens beherbergt. Die Zusammenarbeit soll aber nicht nur auf die SequeL-Gruppe beschränkt bleiben. Weitere Gruppen am INRIA Lille, die auf relevanten angrenzenden Forschungsgebieten wie Kontrolltheorie, Optimierung und Statistik arbeiten, können zum Erfolg des Projektes beitragen.

Forschungsstätte(n)
  • Inria Lille - Nord Europe - 100%

Research Output

  • 42 Zitationen
  • 2 Publikationen
Publikationen
  • 2012
    Titel Regret Bounds for Restless Markov Bandits
    DOI 10.1007/978-3-642-34106-9_19
    Typ Book Chapter
    Autor Ortner R
    Verlag Springer Nature
    Seiten 214-228
  • 2012
    Titel Adaptive aggregation for reinforcement learning in average reward Markov decision processes
    DOI 10.1007/s10479-012-1064-y
    Typ Journal Article
    Autor Ortner R
    Journal Annals of Operations Research
    Seiten 321-336

Entdecken, 
worauf es
ankommt.

Newsletter

FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

Kontakt

Österreichischer Wissenschaftsfonds FWF
Georg-Coch-Platz 2
(Eingang Wiesingerstraße 4)
1010 Wien

office(at)fwf.ac.at
+43 1 505 67 40

Allgemeines

  • Jobbörse
  • Arbeiten im FWF
  • Presse
  • Philanthropie
  • scilog
  • Geschäftsstelle
  • Social Media Directory
  • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
  • , externe URL, öffnet sich in einem neuen Fenster
  • Facebook, externe URL, öffnet sich in einem neuen Fenster
  • Instagram, externe URL, öffnet sich in einem neuen Fenster
  • YouTube, externe URL, öffnet sich in einem neuen Fenster
  • Cookies
  • Hinweisgeber:innensystem
  • Barrierefreiheitserklärung
  • Datenschutz
  • Impressum
  • IFG-Formular
  • Social Media Directory
  • © Österreichischer Wissenschaftsfonds FWF
© Österreichischer Wissenschaftsfonds FWF