Superglatte Funktionale Daten und PCA-Preprocessing
Supersmooth functional data analysis and PCA-preprocessing
DFG-Forschungsgruppen
Wissenschaftsdisziplinen
Informatik (20%); Mathematik (80%)
Keywords
-
PCA,
Preprocessing,
Robustness,
Dependence,
Statistical efficiency
In den letzten Jahrzehnten haben die Datenmenge und Möglichkeiten, diese zu verarbeiten, massiv zugenommen. Insbesondere Methoden, die hochdimensionale oder sogar unendlichdimensionale Objekte behandeln können, sind mittlerweile prominent und werden vielfach genutzt. Auf der anderen Seite gibt es in der statistischen Analyse von Daten eine lange Erfolgsgeschichte von klassischen Ideen und Konzepten, eine Schlüsselmethode hier ist die sogenannte Regressionsanalyse. Bei einer gegebenen Eingabe X und einer Ausgabe Y versucht die Regressionsanalyse, die `einfachsten` und `einflussreichsten` Verbindungen zwischen X und Y zu finden. Das Ziel dieses Projekts ist es, die prinzipielle Idee der Regression auf hochdimensionale oder sogar unendlichdimensionale Objekte zu übertragen. Das führt allerdings zu einigen konzeptionellen und mathematisch anspruchsvollen Problemen: Es ist überhaupt nicht klar, wie man die Begriffe einfach und einflussreich in diesem Zusammenhang definiert und umsetzt. Darüber hinaus sind die optimalen Lösungen - im mathematisch-theoretischen Sinne - in der Praxis möglicherweise unter realistischen Zeitvorgaben nicht berechenbar. Daher wird in einem ersten Schritt die Komplexität analysiert und versucht, dieses Problem aus einer sogenannten informationstheoretischen Perspektive zu lösen. Einfacher ausgedrückt bedeutet dies, dass unter der theoretischen Annahme von idealen Szenarien und unbegrenzten Rechenressourcen versucht wird, ein optimales Verfahren zu ermitteln. In der zweiten Phase dieses Projekts suchen wir nach praktikablen, machbaren Lösungen, die den theoretischen Ergebnissen unter realistischen Annahmen möglichst nahekommen und daher am besten entsprechen. Machbarkeit und realistische Annahmen entsprechen hier zum Beispiel vernünftige Rechenzeitvorgaben aber auch Eigenschaften, die reale Daten in der Praxis typischerweise aufweisen: Es kann Ausreißer oder Datenkontaminationen geben (das bedeutet, Teile der Daten sind anders und verhalten sich auch nicht wie erwartet) oder es gibt zusätzliche Abhängigkeitsbeziehungen, die berücksichtigt werden müssen. Unser ultimatives Hauptziel ist ein rechnerisch durchführbares Verfahren, das sich automatisch an all diese Gegebenheiten und Probleme anpassen kann, und das rein durch Daten getrieben wird. Mit anderen Worten, ein benutzerfreundliches Statistikwerkzeug, bei dem der Benutzer sich um keinerlei Abstimmungsprobleme kümmern muss und keine zusätzlichen, externen Quellen oder Kenntnisse erforderlich sind.
- Universität Wien - 100%
- Aurore Delaigle, The University of Melbourne - Australien
- Martin Wahl, Humboldt-Universität zu Berlin - Deutschland
- Alexander Meister, Universität Rostock - Deutschland
- Wei-Biao Wu, University of Chicago - Vereinigte Staaten von Amerika
Research Output
- 12 Zitationen
- 4 Publikationen
-
2025
Titel Weak dependence and optimal quantitative self-normalized central limit theorems DOI 10.4171/jems/1573 Typ Journal Article Autor Jirak M Journal Journal of the European Mathematical Society Link Publikation -
2025
Titel Robust signal recovery in Hadamard spaces DOI 10.1016/j.jmva.2025.105469 Typ Journal Article Autor Köstenberger G Journal Journal of Multivariate Analysis Seiten 105469 Link Publikation -
2024
Titel Quantitative limit theorems and bootstrap approximations for empirical spectral projectors DOI 10.1007/s00440-024-01290-4 Typ Journal Article Autor Jirak M Journal Probability Theory and Related Fields Seiten 119-177 Link Publikation -
2023
Titel Relative perturbation bounds with applications to empirical covariance operators DOI 10.1016/j.aim.2022.108808 Typ Journal Article Autor Jirak M Journal Advances in Mathematics Seiten 108808