• Zum Inhalt springen (Accesskey 1)
  • Zur Suche springen (Accesskey 7)
FWF — Österreichischer Wissenschaftsfonds
  • Zur Übersichtsseite Entdecken

    • Forschungsradar
      • Historisches Forschungsradar 1974–1994
      • Open API
    • Entdeckungen
      • Emmanuelle Charpentier
      • Adrian Constantin
      • Monika Henzinger
      • Ferenc Krausz
      • Wolfgang Lutz
      • Walter Pohl
      • Christa Schleper
      • Elly Tanaka
      • Anton Zeilinger
    • Impact Stories
      • Verena Gassner
      • Wolfgang Lechner
      • Birgit Mitter
      • Oliver Spadiut
      • Georg Winter
    • scilog-Magazin
    • Austrian Science Awards
      • FWF-Wittgenstein-Preise
      • FWF-ASTRA-Preise
      • FWF-START-Preise
      • Auszeichnungsfeier
    • excellent=austria
      • Clusters of Excellence
      • Emerging Fields
    • Im Fokus
      • 40 Jahre Erwin-Schrödinger-Programm
      • Quantum Austria
      • Spezialforschungsbereiche
    • Dialog und Diskussion
      • think.beyond Summit
      • Am Puls
      • Was die Welt zusammenhält
      • FWF Women’s Circle
      • Science Lectures
    • Wissenstransfer-Events
    • E-Book Library
  • Zur Übersichtsseite Fördern

    • Förderportfolio
      • excellent=austria
        • Clusters of Excellence
        • Emerging Fields
      • Projekte
        • Einzelprojekte
        • Einzelprojekte International
        • Klinische Forschung
        • 1000 Ideen
        • Entwicklung und Erschließung der Künste
        • FWF-Wittgenstein-Preis
      • Karrieren
        • ESPRIT
        • FWF-ASTRA-Preise
        • Erwin Schrödinger
        • doc.funds
        • doc.funds.connect
      • Kooperationen
        • Spezialforschungsgruppen
        • Spezialforschungsbereiche
        • Forschungsgruppen
        • International – Multilaterale Initiativen
        • #ConnectingMinds
      • Kommunikation
        • Top Citizen Science
        • Wissenschaftskommunikation
        • Buchpublikationen
        • Digitale Publikationen
        • Open-Access-Pauschale
      • Themenförderungen
        • Belmont Forum
        • ERA-NET HERA
        • ERA-NET NORFACE
        • ERA-NET QuantERA
        • Ersatzmethoden für Tierversuche
        • Europäische Partnerschaft BE READY
        • Europäische Partnerschaft Biodiversa+
        • Europäische Partnerschaft BrainHealth
        • Europäische Partnerschaft ERA4Health
        • Europäische Partnerschaft ERDERA
        • Europäische Partnerschaft EUPAHW
        • Europäische Partnerschaft FutureFoodS
        • Europäische Partnerschaft OHAMR
        • Europäische Partnerschaft PerMed
        • Europäische Partnerschaft Water4All
        • Gottfried-und-Vera-Weiss-Preis
        • LUKE – Ukraine
        • netidee SCIENCE
        • Projekte der Herzfelder-Stiftung
        • Quantum Austria
        • Rückenwind-Förderbonus
        • WE&ME Award
        • Zero Emissions Award
      • Länderkooperationen
        • Belgien/Flandern
        • Deutschland
        • Frankreich
        • Italien/Südtirol
        • Japan
        • Korea
        • Luxemburg
        • Polen
        • Schweiz
        • Slowenien
        • Taiwan
        • Tirol-Südtirol-Trentino
        • Tschechien
        • Ungarn
    • Schritt für Schritt
      • Förderung finden
      • Antrag einreichen
      • Internationales Peer-Review
      • Förderentscheidung
      • Projekt durchführen
      • Projekt beenden
      • Weitere Informationen
        • Integrität und Ethik
        • Inklusion
        • Antragstellung aus dem Ausland
        • Personalkosten
        • PROFI
        • Projektendberichte
        • Projektendberichtsumfrage
    • FAQ
      • Projektphase PROFI
      • Projektphase Ad personam
      • Auslaufende Programme
        • Elise Richter und Elise Richter PEEK
        • FWF-START-Preise
        • AI Mission Austria
  • Zur Übersichtsseite Über uns

    • Leitbild
    • FWF-Film
    • Werte
    • Zahlen und Daten
    • Jahresbericht
    • Aufgaben und Aktivitäten
      • Forschungsförderung
        • Matching-Funds-Förderungen
      • Internationale Kooperationen
      • Studien und Publikationen
      • Chancengleichheit und Diversität
        • Ziele und Prinzipien
        • Maßnahmen
        • Bias-Sensibilisierung in der Begutachtung
        • Begriffe und Definitionen
        • Karriere in der Spitzenforschung
      • Open Science
        • Open-Access-Policy
          • Open-Access-Policy für begutachtete Publikationen
          • Open-Access-Policy für begutachtete Buchpublikationen
          • Open-Access-Policy für Forschungsdaten
        • Forschungsdatenmanagement
        • Citizen Science
        • Open-Science-Infrastrukturen
        • Open-Science-Förderung
      • Evaluierungen und Qualitätssicherung
      • Wissenschaftliche Integrität
      • Wissenschaftskommunikation
      • Philanthropie
      • Nachhaltigkeit
    • Geschichte
    • Gesetzliche Grundlagen
    • Organisation
      • Gremien
        • Präsidium
        • Aufsichtsrat
        • Delegiertenversammlung
        • Kuratorium
        • Jurys
      • Geschäftsstelle
    • Arbeiten im FWF
  • Zur Übersichtsseite Aktuelles

    • News
    • Presse
      • Logos
    • Eventkalender
      • Veranstaltung eintragen
      • FWF-Infoveranstaltungen
    • Jobbörse
      • Job eintragen
    • Newsletter
  • Entdecken, 
    worauf es
    ankommt.

    FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

    SOCIAL MEDIA

    • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
    • , externe URL, öffnet sich in einem neuen Fenster
    • Facebook, externe URL, öffnet sich in einem neuen Fenster
    • Instagram, externe URL, öffnet sich in einem neuen Fenster
    • YouTube, externe URL, öffnet sich in einem neuen Fenster

    SCILOG

    • Scilog — Das Wissenschaftsmagazin des Österreichischen Wissenschaftsfonds (FWF)
  • elane-Login, externe URL, öffnet sich in einem neuen Fenster
  • Scilog externe URL, öffnet sich in einem neuen Fenster
  • en Switch to English

  

Autonom lernende Systeme in dynamischen Umgebungen

DELTA (Dynamically Evolving Long-Term Autonomy)

Peter Auer (ORCID: 0000-0001-8385-9635)
  • Grant-DOI 10.55776/I3437
  • Bewilligungs­summe International - Multilaterale Initiativen
  • Status beendet
  • Projekt­beginn 01.02.2018
  • Projektende 31.05.2021
  • Bewilligungs­summe 213.790 €
  • Projekt-Website

Wissenschaftsdisziplinen

Informatik (80%); Mathematik (20%)

Keywords

  • Reinforcement learning,
  • Statistical learning theory,
  • Exploration
Abstract Zusammenfassung

In vielen komplexen autonomen Systemen ist es notwendig, wiederholt koordinierte Operationen auszuführen, um bestimmte Zielsetzungen zu erreichen. Der Bereich des Reinforcement Lernens (RL) bietet ein passendes und auch leistungsfähiges Framework für solche Aufgaben: Hier muss ein Lerner optimales Verhalten etwa eine Folge von koordinierten Aktionen, um einen bestimmten Zielzustand zu erreichen erlernen, indem er Feedback der Umgebung auf seine Aktionen beobachtet und auswertet. Obwohl es in letzter Zeit einige eindrucksvolle Anwendungen für RL-Algorithmen gab (etwa menschenähnliche Leistungen im Spielen von einfachen Videospielen oder das Schlagen des Weltmeisters im Brettspiel Go), funktionieren die meisten RL-Algorithmen nur unter der starken Voraussetzung einer unveränderlichen Umgebung mit fixer Zielsetzung. Das vorliegende Projekt möchte neue RL-Algorithmen entwickeln, die nicht mehr von dieser Voraussetzung abhängig sind. Diese Algorithmen sollen nicht nur in sich verändernden Umgebungen einsatzfähig sein, sondern auch mit unterschiedlichen und wechselnden Zielsetzungen umgehen können. Dies ermöglicht lebenslanges Lernen über längere Zeitintervalle, in denen der Lerner mehrere verschiedene Aufgaben zu erfüllen hat. Die zu entwickelnden AlgorithmenmüssenLösungen für folgende drei grundlegenden Problembereiche bieten: Exploration, Planung und Aufteilung von Aufgaben in Teilaufgaben. Exploration beschäftigt sich mit Methoden, wie man auf effiziente Weise ein Modell der Umgebung erlernen kann, ohne dabei unbedingt eine bestimmte Aufgabe zu erfüllen. Planung ist nötig, um in einem gegebenen oder durch Exploration erlernten Modell eine optimale Strategie zu entwerfen. Zu guter Letzt sollen komplexe Aufgaben in einfachere Teilaufgaben aufgeteilt werden, sodass die zusammengesetzten Lösungen der einzelnen Teilaufgaben letztendlich eine Lösung für die ursprüngliche Aufgabe bilden. Die entwickelten Algorithmen sollen in realistischen Problembereichen getestet und evaluiert werden, die sich mit der optimalen Verteilung von Energie in Netzwerken beschäftigen.

Ziel unseres Projektes ist es, Steuerungsstrategien mit lebenslanger Lernfähigkeit zu entwerfen. Solche Steuerungen ermöglichen es Systemen, sich an Veränderungen in ihrer Umgebung anzupassen und eine nahezu optimale Leistung aufrechtzuerhalten. Dieses Projekt beschäftigt sich mit Steuerungen, die in autonomen Systemen implementiert sind, beispielsweise in elektrischen Verteilungsnetzen. Eine solche Steuerung wählt wiederholt und fortlaufend Aktionen aus, um ein bestimmtes Ziel zu erreichen. Ein solches Ziel könnte die Vermeidung eines Blackouts bei gleichzeitig kostengünstiger Bereitstellung von Energie sein. Für ein statisches System - ein System ohne wesentlichen Veränderungen - kann eine nahezu optimale Steuerung berechnet werden. Zum Beispiel ist Reinforcement Learning eine Methode, um auch komplizierte Steuerungen zu berechnen. Jedoch werden Systeme, die über einen langen Zeitraum eingesetzt werden, voraussichtlich mit Veränderungen in ihrer Umgebung konfrontiert sein. Ziel unseres Projektes ist es daher, Steuerungsstrategien mit lebenslanger Lernfähigkeit zu entwerfen, damit Systeme in der Lage sind, sich an Veränderungen in ihrer Umgebung anzupassen und dabei eine nahezu optimale Leistung aufrechtzuerhalten. Ein Beispiel für ein solches System ist die Steuerung eines elektrischen Mikronetzes, das erneuerbare und konventionelle Stromquellen balancieren muss und gleichzeitig mit wechselnder Stromerzeugung und wechselndem Verbraucherverhalten konfrontiert ist. Ein solches Micro-Grid diente als Testumgebung für unsere Verfahren. Der Schwerpunkt unserer Arbeit in diesem Verbundforschungsprojekt liegt auf der Exploration: herauszufinden, welche Aktionen langfristig förderlich sind und welche Aktionen vermieden werden sollten. Exploration in einer sich ändernden Umgebung ist aber eine besondere Herausforderung, da bereits gesammelte Informationen nach einer Veränderung ungültig werden können. Um dieser Herausforderung zu begegnen, erweitern wir Methoden aus dem Reinforcement Learning und entwickeln dabei neue Explorationsstrategien, die Informationen nach einer Veränderung der Umgebung automatisch aktualisieren. Dabei ist wesentlich, dass unsere Methoden Veränderungen automatisch erkennen und die Exploration entsprechend steuern können. Reinforcement Learning beruht auf einem Belohnungsmodell, um Strategien zu trainieren: Die Strategie soll dabei langfristige die Belohnungen maximieren. In unseren Forschungsarbeiten setzen wir diesen Mechanismus auch für die inkrementelle Exploration, beispielsweise durch einen Roboter, ein. Inkrementelle Exploration bedeutet, dass zuerst die unmittelbare Umgebung und dann immer größere Teile der Umgebung erkundet werden. In großen Umgebungen ist eine kompakte und aussagekräftige Darstellung der Umgebung für effizientes Lernen äußerst wichtig: Denken Sie beispielsweise daran, sich sinnvolle Wörter beziehungsweise zufälligen Buchstabenfolgen zu merken. Leider sind für Reinforcement Learning gut geeignete Darstellungen der Umgebung oft nicht bekannt. Daher haben wir einen Algorithmus entwickelt, der automatisch die beste Darstellung für seine Umgebung auswählt.

Forschungsstätte(n)
  • Montanuniversität Leoben - 100%
Internationale Projektbeteiligte
  • Bertrand Cornélusse, Université de Liege - Belgien
  • Michal Valko, Inria Lille - Nord Europe - Frankreich
  • Anders Jonsson, Universitat Pompeu Fabra - Spanien

Research Output

  • 11 Publikationen
Publikationen
  • 2023
    Titel Autonomous Exploration for Navigating in MDPs Using Blackbox RL Algorithms
    DOI 10.24963/ijcai.2023/413
    Typ Conference Proceeding Abstract
    Autor Auer P
    Seiten 3714-3722
    Link Publikation
  • 2018
    Titel Efficient Bias-Span-Constrained Exploration-Exploitation in Reinforcement Learning
    DOI 10.48550/arxiv.1802.04020
    Typ Preprint
    Autor Fruit R
    Link Publikation
  • 2020
    Titel Regret Bounds for Reinforcement Learning via Markov Chain Concentration
    Typ Journal Article
    Autor Ortner Ronald
    Journal JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH
    Seiten 115-128
  • 2022
    Titel Adaptive Algorithms for Meta-Induction
    DOI 10.1007/s10838-021-09590-2
    Typ Journal Article
    Autor Ortner R
    Journal Journal for General Philosophy of Science
    Seiten 433-450
    Link Publikation
  • 2021
    Titel Gambler Bandits and the Regret of Being Ruined. 20th Int. Conf. on Autonomous Agents and Multiagent Systems
    Typ Conference Proceeding Abstract
    Autor Perotto Fs
    Konferenz 20th Int. Conf. on Autonomous Agents and Multiagent Systems (AAMAS 2021)
    Link Publikation
  • 2020
    Titel Regret Bounds for Reinforcement Learning via Markov Chain Concentration
    DOI 10.1613/jair.1.11316
    Typ Journal Article
    Autor Ortner R
    Journal Journal of Artificial Intelligence Research
  • 2019
    Titel Autonomous exploration for navigating in non-stationary CMPs
    Typ Other
    Autor Gajane P
    Link Publikation
  • 2019
    Titel Regret Bounds for Learning State Representations in Reinforcement Learning
    Typ Conference Proceeding Abstract
    Autor Ortner R
    Konferenz 33rd Conf. on Neural Processing Systems (NeurIPS 2019)
    Link Publikation
  • 2019
    Titel Achieving Optimal Dynamic Regret for Non-stationary Bandits without Prior Information
    Typ Conference Proceeding Abstract
    Autor Auer P
    Konferenz 32nd Ann. Conf. on Learning Theory (COLT 2019)
    Link Publikation
  • 2019
    Titel Adaptively Tracking the Best Bandit Arm with an Unknown Number of Distribution Changes
    Typ Conference Proceeding Abstract
    Autor Auer P
    Konferenz 32nd Ann. Conf. on Learning Theory (COLT 2019)
    Link Publikation
  • 2019
    Titel Variational Regret Bounds for Reinforcement Learning
    Typ Conference Proceeding Abstract
    Autor Gajane P
    Konferenz Conf. on Uncertainty in Artificial Intelligence (UAI 2019)
    Link Publikation

Entdecken, 
worauf es
ankommt.

Newsletter

FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

Kontakt

Österreichischer Wissenschaftsfonds FWF
Georg-Coch-Platz 2
(Eingang Wiesingerstraße 4)
1010 Wien

office(at)fwf.ac.at
+43 1 505 67 40

Allgemeines

  • Jobbörse
  • Arbeiten im FWF
  • Presse
  • Philanthropie
  • scilog
  • Geschäftsstelle
  • Social Media Directory
  • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
  • , externe URL, öffnet sich in einem neuen Fenster
  • Facebook, externe URL, öffnet sich in einem neuen Fenster
  • Instagram, externe URL, öffnet sich in einem neuen Fenster
  • YouTube, externe URL, öffnet sich in einem neuen Fenster
  • Cookies
  • Hinweisgeber:innensystem
  • Barrierefreiheitserklärung
  • Datenschutz
  • IFG-Formular
  • Impressum
  • © Österreichischer Wissenschaftsfonds FWF
© Österreichischer Wissenschaftsfonds FWF