Modellwahl und statistische Inferenz mittels einfacher Modelle in Situationen komplexer und hochdimensionaler Daten
Model selection and inference with sparse models when the true model need not be sparse
Wissenschaftsdisziplinen
Mathematik (100%)
Keywords
-
Sparse Modeling,
Predictive Inference Post Model Selction,
Misspecification,
Large Dimension,
Model Selection,
Small Sample Size
Eine der größten Herausforderungen in der modernen angewandten Statistik besteht in der Analyse von Daten, die eine sehr große Anzahl von möglicherweise einflussreichen Faktoren oder Variablen aufweisen, während die vorliegende Stichprobengröße vergleichsweise gering ist. Beispiele für solch hochdimensionale Probleme der Datenanalyse finden sich etwa in den Bereichen Genomforschung, Proteomik, Massenspektrometrieoder den Finanzwissenschaften.Motiviert durch derartige Datenprobleme wurden in der Vergangenheit Verfahren der statistischen Modellwahl entwickelt, die es erlauben, aus der Vielzahl von möglicherweise einflussreichen Faktoren oder Variablen eine kleine Menge von relevanten Faktoren auszuwählen. Eines der in dieser Hinsicht prominentesten und erfolgreichsten Verfahren ist die sogenannte LASSO Methode mit ihren Varianten. Gegenwärtig werden auch Methoden zur statistischen Inferenz basierend auf dem LASSO-Schätzer entwickelt. Die meisten theoretischen Untersuchungen des LASSO Verfahrens und verwandter Methoden beruhen auf einer sogenannten sparsity Annahme, die besagt, dass die überwiegende Mehrheit der vorhandenen Variablen entweder gänzlich irrelevant ist, oder, dass ihr Einfluss zumindest vernachlässigbar gering ist. Falls diese sparsity Annahme verletzt ist, so ist die Funktionsweise und Leistungsfähigkeit des LASSO oft gänzlich unbekannt. Aus der Anwenderperspektive ist das höchst problematisch, da es in der Praxis meist unmöglich ist, die sparsity Annahme zu überprüfen. Das Ziel des Forschungsprojektes ist es, Methoden der Modellwahl und der anschließenden statistischen Inferenz zu entwickeln, deren Erfolg nicht an eine sparsity Annahme gebunden ist.
Das Projekt hat im Bereich der prädiktiven Inferenz mit Shrinkage-Schätzern Neuland beschritten. Vor allem wurde gezeigt, dass diese Methoden außerordentlich gut funktionieren können, insbesondere in Situationen, wo das zu modellierende System sehr komplex ist, und wo gleichzeitig relativ wenige Trainingsdaten zur Verfügung stehen. Solche Situationen kommen vor allem in einigen Big-Data Anwendungen sehr häufig vor. Für solche Szenarien wurden neue Prognosemethoden und neue Techniken zur prädiktiven Inferenz entwickelt.
- Universität Wien - 100%
Research Output
- 33 Zitationen
- 4 Publikationen
-
2021
Titel STATISTICAL INFERENCE WITH F-STATISTICS WHEN FITTING SIMPLE MODELS TO HIGH-DIMENSIONAL DATA DOI 10.1017/s026646662100044x Typ Journal Article Autor Leeb H Journal Econometric Theory Seiten 1249-1272 Link Publikation -
2023
Titel Conditional predictive inference for stable algorithms DOI 10.1214/22-aos2250 Typ Journal Article Autor Steinberger L Journal The Annals of Statistics -
2016
Titel Admissibility of the Usual Confidence Set for the Mean of a Univariate or Bivariate Normal Population: The Unknown Variance Case DOI 10.1111/rssb.12186 Typ Journal Article Autor Leeb H Journal Journal of the Royal Statistical Society Series B: Statistical Methodology Seiten 801-813 Link Publikation -
2017
Titel Testing in the Presence of Nuisance Parameters: Some Comments on Tests Post-Model-Selection and Random Critical Values DOI 10.1007/978-3-319-41573-4_4 Typ Book Chapter Autor Leeb H Verlag Springer Nature Seiten 69-82