LSTM für gleichmäßige Erfolgszuweisung an Deep Networks
LSTM for Uniform Credit Assignment to Deep Networks
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
-
Long Short-Term Memory,
LSTM,
Neural Networks,
Recurrent Neural Networks,
Machine Learning,
Deep Learning
Bei LSTM-Netzwerken (Long Short-Term Memory) handelt es sich um lernende Systeme, nämlich rekurrente künstliche neuronale Netze. LSTM-Netze zeichnen sich durch Speicherzellen und spezielle Gatter aus, die Lese- und Schreibzugriffe auf Speicherzellen regeln. Sequenzen von Eingaben (z.B. Text oder biologische Sequenzen) werden schrittweise abgearbeitet und das Netzwerk lernt dabei automatisch, relevante Eingaben oder Muster von Eingaben zu erkennen und abzuspeichern. In letzter Zeit haben sich LSTM-Netzwerke als die führende Methode in der Sprachverarbeitung etabliert. Aktuelle Konferenzen in diesem Bereich, wie etwa die bekannte ICASSP-Konferenz, waren von LSTM-basierten Ansätzen dominiert. Alle aktuellen Rekorde in der Sprachverarbeitung wurden mit LSTM erzielt, zumeist von großen IT- Konzernen wie Google, IBM, Microsoft oder Baidu. Der Erfolg von LSTM ist vor allem darin begründet, dass es in der Lage ist, alle Eingaben im Lernprozess auf gleicher Ebene zu behandeln. Wenn beispielsweise in der Sprachverarbeitung ein Satz abgearbeitet wird, kann das erste Wort gleich wichtig für den Lernprozess sein wie das letzte Wort. Das wird üblicherweise im Machine Learning als Uniform Credit Assignment bezeichnet. Uniform Credit Assignment verarbeitet alle eingehenden Informationen gleich, egal wo sie in der Eingabesequenz vorkommen. Wenn der Lernprozess im Gegensatz dazu den zuletzt beobachteten Eingaben mehr Einfluss zugesteht, wird nur suboptimal gelernt. Gegenwärtig ermöglicht LSTM Uniform Credit Assignment nur für einfache, unstrukturierte Inputs wie Einzelwörter. Dieses Projekt hat zum Ziel, LSTM so weiterzuentwickeln, dass Uniform Credit Assisgnment auch für komplexe, strukturierte Daten wie Bildern, Sprache oder chemische Strukturformeln, die mit Hilfe sogenannter Deep Networks vorverarbeitet werden, möglich wird. Solche Architekturen können beispielsweise für die Klassifizierung von Aktionen in Videos verwendet werden. Das schließt auch die Verarbeitung von Bildserien mit ein, die das gleiche Objekt aus verschiedenen Blickwinkeln zeigen, um Merkmale zu erkennen, die aus Einzelbildern nicht identifiziert werden können. Das sogenannte High- Content Screening in der Medikamentenentwicklung stellt eine weitere Anwendung dar. Dabei sind die Bilder zu groß, um sie auf einmal zu verarbeiten. LSTM erlaubt, die Bilder in Teilbilder zu zerlegen und diese nacheinander dem Netzwerk zu präsentieren. Eine weitere Anwendung ist die Vorhersage der Giftigkeit von Gemischen chemischer Substanzen (z.B. aus einer Bodenprobe). Dabei wird eine nicht vorab festgelegte Anzahl von chemischen Strukturen vom Netzwerk nacheinander verarbeitet. Die neuen Architekturen zum LSTM-basierten Uniform Credit Assignment für Deep Networks werden für die folgenden Aufgabenstellungen angewendet und auf entsprechenden Datensätzen ausgewertet: 1) Erkennung und Beschreibung von Aktivitäten in Videos; 2) Klassifizierung großer Bilder, die in Teilbilder zerlegt wurden; 3) Klassifizierung von Mischungen einer unbekannten Anzahl von chemischen Komponenten, die vom LSTM-Netzwerk nacheinander verarbeitet werden.
Reinforcement learning (RL) oder auch "Verstärkendes Lernen" ist ein Gebiet des maschinellen Lernens, in dem ein Agent lernen muss mit einem Environment zu interagieren, um ein Ziel zu erreichen. Dieser Agent kann z.B. ein tiefes künstliches neuronales Netzwerk sein, welches lernen muss seinen Score in einem Computerspiel zu verbessern. RL genießt seit kurzem großes öffentliches Interesse, u.a. durch Erfolgsgeschichten wie AlphaGo, einem RL-Programm von DeepMind/Google, das die Weltmeister des Brettspiels GO besiegen konnte, oder OpenAI-Five, einem RL-Programm, welches mittlerweile zu den besten Spielern des Multiplayer-Online-Battle-Arena Computerspiels Dota2 zählt. Trotz dieser Erfolge haben RL-Methoden Probleme bei Echt-Welt Aufgaben und komplexeren Strategie-Spielen, wie z.B. Starcraft-II. In diesem Projekt ist es gelungen, eine der fundamentalen Einschränkungen von derzeitigen RL-Methoden aufzuzeigen und eine Lösung für diese Einschränkungen zu finden. In unsere Publikation "RUDDER: Return Decomposition for Delayed Rewards", zeigen wir, dass derzeitige RL-Methoden große Probleme haben Aufgabenstellungen mit "verspäteten Belohnungen" zu lösen. Bei Aufgaben mit verspäteten Belohnungen gibt es eine, u.U. große, Verzögerung zwischen einer Aktion und einer resultierenden positiven oder negativen Belohnung. Echt-Welt Aufgaben und Strategie-Spiele beinhalten typischerweise derartige verspätete Belohnungen. Nach eingehender Analyse der derzeitigen RL-Methoden und deren Einschränkungen bei verspäteten Belohnungen, war es uns möglich eine neue Methode, "RUDDER", zu entwickeln, welche die Verzögerungen der Belohnungen mittels Überwachtem Lernen entfernt. Um dies zu erreichen, trainieren wir ein künstliches neuronales Netz, welches den Ausgang einer Spiel-Sequenz vorhersagen soll. Das künstliche neuronale Netz muss folglich die akkumulierten Belohnungen anhand der gesamten Abfolge von Spielzuständen und Aktionen vorhersagen. Dabei handelt es sich um eine typische Aufgabe aus dem Bereich des Überwachten Lernens, welcher z.B. mit Long Short-Term Memory Netzwerken gelöst werden kann. Das Modell lernt somit welche Aktionen welche Belohnung zur Folge haben. Des Weiteren verwenden wir "contribution analysis" Methoden, um dieses trainierte Modell zu analysieren und die Beiträge der einzelnen Aktionen zur Vorhersage des Modells zu erhalten. Wenn das Modell in der Lage ist die akkumulierten Belohnungen anhand der Aktionen richtig vorherzusagen, bedeutet dies, dass die Beiträge der Aktionen zu der Vorhersage des Modells die Beiträge der Aktionen zu den akkumulierten Belohnungen sind. Folglich können wir die originalen Belohnungen, welche z.B. verzögert am Spielende gegeben werden, direkt zu den Aktionen verteilen, die diese Belohnung ausgelöst haben. Diese Belohnungen ohne Verzögerungen können dann verwendet werden, um einen RL-Agenten zu trainieren. Dies resultiert in exponentiell schnellerem Training. Als intuitives Beispiel betrachten wir eine Schülerin die Klavierunterricht nimmt. Derzeitige RL-Methoden würden der Schülerin erst am Ende des Stückes sagen, wie gut sie gespielt hat. RUDDER jedoch würde diese Rückmeldung direkt zu den Momenten im Stück verschieben, an denen die Schülerin gerade gut oder schlecht gespielt hat. Diese sofortigen Rückmeldungen erleichtern der Schülerin das Lernen.
- Universität Linz - 100%
Research Output
- 1815 Zitationen
- 18 Publikationen
- 3 Datasets & Models
- 1 Software
-
2021
Titel A note on leveraging synergy in multiple meteorological data sets with deep learning for rainfall–runoff modeling DOI 10.5194/hess-25-2685-2021 Typ Journal Article Autor Kratzert F Journal Hydrology and Earth System Sciences Seiten 2685-2703 Link Publikation -
2020
Titel Additional file 1 of Industry-scale application and evaluation of deep learning for drug target prediction DOI 10.6084/m9.figshare.12154023 Typ Other Autor Mayr A Link Publikation -
2020
Titel Additional file 1 of Industry-scale application and evaluation of deep learning for drug target prediction DOI 10.6084/m9.figshare.12154023.v1 Typ Other Autor Mayr A Link Publikation -
2019
Titel Toward Improved Predictions in Ungauged Basins: Exploiting the Power of Machine Learning DOI 10.1029/2019wr026065 Typ Journal Article Autor Kratzert F Journal Water Resources Research Seiten 11344-11354 Link Publikation -
2019
Titel Visual Scene Understanding for Autonomous Driving Using Semantic Segmentation DOI 10.1007/978-3-030-28954-6_15 Typ Book Chapter Autor Hofmarcher M Verlag Springer Nature Seiten 285-296 -
2021
Titel Quantum Optical Experiments Modeled by Long Short-Term Memory DOI 10.3390/photonics8120535 Typ Journal Article Autor Adler T Journal Photonics Seiten 535 Link Publikation -
2019
Titel Benchmarking a Catchment-Aware Long Short-Term Memory Network (LSTM) for Large-Scale Hydrological Modeling DOI 10.5194/hess-2019-368 Typ Preprint Autor Kratzert F Seiten 1-32 Link Publikation -
2019
Titel Towards Learning Universal, Regional, and Local Hydrological Behaviors via Machine-Learning Applied to Large-Sample Datasets DOI 10.48550/arxiv.1907.08456 Typ Preprint Autor Kratzert F -
2019
Titel A GAN based solver of black-box inverse problems Typ Conference Proceeding Abstract Autor Gillhofer M Konferenz NeurIPS 2019 Workshop on Solving Inverse Problems with Deep Networks Link Publikation -
2019
Titel RUDDER: Return Decomposition for Delayed Rewards Typ Conference Proceeding Abstract Autor Arjona-Medina J Konferenz Advances in Neural Information Processing Systems 32 (NIPS 2019) Link Publikation -
2019
Titel Quantum Optical Experiments Modeled by Long Short-Term Memory DOI 10.48550/arxiv.1910.13804 Typ Preprint Autor Adler T -
2019
Titel Towards learning universal, regional, and local hydrological behaviors via machine learning applied to large-sample datasets DOI 10.5194/hess-23-5089-2019 Typ Journal Article Autor Kratzert F Journal Hydrology and Earth System Sciences Seiten 5089-5110 Link Publikation -
2019
Titel Benchmarking a Catchment-Aware Long Short-Term Memory Network (LSTM) for Large-Scale Hydrological Modeling DOI 10.13140/rg.2.2.18385.48487 Typ Other Autor Klotz D Link Publikation -
2019
Titel Detecting cutaneous basal cell carcinomas in ultra-high resolution and weakly labelled histopathological images DOI 10.48550/arxiv.1911.06616 Typ Preprint Autor Kimeswenger S -
2017
Titel GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium DOI 10.48550/arxiv.1706.08500 Typ Preprint Autor Heusel M -
2020
Titel Industry-scale application and evaluation of deep learning for drug target prediction DOI 10.1186/s13321-020-00428-5 Typ Journal Article Autor Sturm N Journal Journal of Cheminformatics Seiten 26 Link Publikation -
2018
Titel Large-scale comparison of machine learning methods for drug target prediction on ChEMBL DOI 10.1039/c8sc00148k Typ Journal Article Autor Mayr A Journal Chemical Science Seiten 5441-5451 Link Publikation -
2018
Titel RUDDER: Return Decomposition for Delayed Rewards DOI 10.48550/arxiv.1806.07857 Typ Preprint Autor Arjona-Medina J
-
2019
Link
Titel Industry-scale Application and Evaluation of Deep Learning for Drug Target Prediction DOI 10.5281/zenodo.3559987 Typ Database/Collection of data Öffentlich zugänglich Link Link -
2019
Link
Titel Industry-scale Application and Evaluation of Deep Learning for Drug Target Prediction DOI 10.5281/zenodo.3239499 Typ Database/Collection of data Öffentlich zugänglich Link Link -
2019
Link
Titel Industry-scale Application and Evaluation of Deep Learning for Drug Target Prediction DOI 10.5281/zenodo.3239498 Typ Database/Collection of data Öffentlich zugänglich Link Link