Wissenschaftsdisziplinen
Informatik (10%); Mathematik (90%)
Keywords
Acceleration,
Supervised Learning,
First-Order Methods,
Implicit Bias,
Adaptive Step Sizes
Abstract
Beim Training moderner maschineller Lernmodelle übersteigt die Anzahl der Parameter häufig die
Anzahl der Beobachtungen. In solchen Szenarien legt die klassische statistische Theorie nahe, dass
das resultierende Modell aufgrund von Überanpassung möglicherweise schlecht abschneidet.
Möglicherweise existieren viele Lösungen für das Optimierungsproblem, und nicht alle davon
generalisieren gut auf ungesehene Daten. In der Praxis beobachten wir jedoch, dass beim trainieren
dieser Modelle mithilfe von Optimierungsmethoden auf der Grundlage von
Gradienteninformationen keine Überanpassung auftritt und die Modelle tendenziell gut
abschneiden. Dieses Phänomen wird gemeinhin als implizite Regularisierung bezeichnet. Wir
beabsichtigen, die Auswirkungen zweier häufig verwendeter Optimierungstechniken auf die
erhaltene Lösung zu untersuchen. Bei den beiden betreffenden Techniken handelt es sich um
Momentum, das sich auf die Verwendung nicht nur der aktuellen, sondern auch vergangener
Gradienten bezieht, und adaptive Schrittweiten, was bedeutet, dass der Schrittweitenparameter
(oder die Lernrate) nicht extern bereitgestellt wird, sondern vom Algorithmus selbst berechnet wird.