Regularisierung durch Schwung und adaptive Schrittweiten
The implicit bias of momentum and adaptive step sizes
Wissenschaftsdisziplinen
Informatik (10%); Mathematik (90%)
Keywords
- Acceleration,
- Supervised Learning,
- First-Order Methods,
- Implicit Bias,
- Adaptive Step Sizes
Beim Training moderner maschineller Lernmodelle übersteigt die Anzahl der Parameter häufig die Anzahl der Beobachtungen. In solchen Szenarien legt die klassische statistische Theorie nahe, dass das resultierende Modell aufgrund von Überanpassung möglicherweise schlecht abschneidet. Möglicherweise existieren viele Lösungen für das Optimierungsproblem, und nicht alle davon generalisieren gut auf ungesehene Daten. In der Praxis beobachten wir jedoch, dass beim trainieren dieser Modelle mithilfe von Optimierungsmethoden auf der Grundlage von Gradienteninformationen keine Überanpassung auftritt und die Modelle tendenziell gut abschneiden. Dieses Phänomen wird gemeinhin als implizite Regularisierung bezeichnet. Wir beabsichtigen, die Auswirkungen zweier häufig verwendeter Optimierungstechniken auf die erhaltene Lösung zu untersuchen. Bei den beiden betreffenden Techniken handelt es sich um Momentum, das sich auf die Verwendung nicht nur der aktuellen, sondern auch vergangener Gradienten bezieht, und adaptive Schrittweiten, was bedeutet, dass der Schrittweitenparameter (oder die Lernrate) nicht extern bereitgestellt wird, sondern vom Algorithmus selbst berechnet wird.
- Universität Wien - 100%
- Yurii Malitskyi, Universität Wien , Mentor:in