Inferenzmethoden für multivariate und hochdimentsionale Daten
Inference methods for multivariate and high-dimensional data
DACH: Österreich - Deutschland - Schweiz
Wissenschaftsdisziplinen
Mathematik (100%)
Keywords
-
Bootstrap,
Factorial designs,
Multiple testing procedure,
Multivariate data,
Nonparametric method,
Semiparametric model
Möglichkeiten und Aufgaben statistischer Datenanalyse umfassen heute, auch angesichts weit entwickelter Computerressourcen, zahlreiche neue Anwendungsgebiete. Dies gilt insbesondere für die Entwicklung von Analysemethoden für Daten mit vielen Messgrößen, die deswegen, oder aufgrund ihrer Struktur, hoch komplex sind. Herausforderungen bei der Entwicklung angemessener Analysemethoden für derartige Daten bestehen insbesondere dann, wenn klassische, oft sehr vereinfachende, Modellvoraussetzungen nicht haltbar sind. Hier setzt das eingereichte Projekt an, bei dem es darum geht, Methoden zur Analyse komplexer, hochdimensionaler Daten zu entwickeln, die in allgemeinen Situationen einsetzbar sind und auch dann valide Ergebnisse liefern, wenn die Verwendung derzeit existierender Verfahren nicht angemessen ist. Konkret geht es hierbei unter anderem um Daten, 1. die sich nicht durch eine Normalverteilung beschreiben lassen, 2. deren Zielgrößen sich möglicherweise nicht metrisch messen, sondern nur durch größer-kleiner Relationen beschreiben lassen (ordinale Daten), 3. bei denen die Anzahl erhobener Messwerte pro Person größer ist als die Anzahl der Personen (hochdimensionale Daten), oder 4. bei denen nicht jede Person lange genug beobachtet werden konnte, um eine exakte Messung, z.B. der Zeit bis zu einem Ereignis, zu erhalten (zensierte Daten). Unter Verwendung von Methoden aus der mathematischen Statistik sollen in dem Projekt Prozeduren entwickelt werden, die die genannten Kriterien erfüllen. Dabei werden rangbasierte Verfahren genauso berücksichtigt wie sogenannte Resampling-Techniken. Die Validität einzelner Verfahren wird durch theoretische Überlegungen zum Verhalten der resultierenden Tests bei größer werdenden Stichproben überprüft. Ergänzt werden diese Betrachtungen durch aufwändige Computersimulationen in verschiedenen Szenarios. Schließlich werden positiv evaluierte Verfahren der Allgemeinheit in Form statistischer Programmpakete in der kostenlosen Software- Umgebung R zur Verfügung gestellt. Besonderheit und Innovation des Projektes bestehen darin, dass es für komplexe Datensätze mit vielen Messgrößen derzeit keine allgemein validen Methoden zur schließenden Analyse gibt. In der Praxis wird entweder auf stark vereinfachende Methoden zurückgegriffen, oder es werden Prozeduren verwendet, die aufgrund ihrer Voraussetzungen nicht angemessen sind und daher nicht haltbare Forschungsergebnisse liefern. Das Projekt hat zum Ziel, hier Abhilfe zu schaffen und eine effektive Methodik zur Analyse komplexer Daten zur Verfügung zu stellen. Die zu erwartenden Resultate haben breite Anwendungsmöglichkeiten und erweitern die Rolle statistischer Datenanalyse, indem neue Problemstellungen mit sinnvollen und leistungsstarken Methoden behandelt werden können. Insgesamt erwarten wir einen signifikanten und nachhaltigen Einfluss auf moderne Data Science durch die aus dem Projekt resultierenden Methoden.
Heutzutage werden mit immer geringerem technologischem Aufwand immer größere Datensätze erzeugt. Wie zieht man Schlüsse aus diesen Daten? Klassische statistische Verfahren sind gewöhnlich nur anwendbar, wenn bestimmte restriktive Annahmen gelten. Viele der Standard-Verfahren sind nicht valide, wenn z.B. die Daten hochdimensional sind, wenn die gemessen Werte nicht in Zahlen darstellbar sind, wenn die Beobachtungen in verschiedenen Gruppen unterschiedliche Variabilität aufweisen oder wenn sie unvollständig beobachtet sind. Wir haben statistische Methoden entwickelt und validiert, die in zahlreichen herausfordernden Situationen von "big data" oder "messy data" immer noch sinnvoll angewandt werden können. Um es anderen Forschern zu erleichtern, diese neuen Methoden auch wirklich einzusetzen, haben wir auch entsprechende kostenlose Open Source Softwarepakete entwickelt und der Öffentlichkeit zur Verfügung gestellt.
- Universität Salzburg - 100%
- Edgar Brunner, Georg-August-Universität Göttingen - Deutschland
- Jan Beyersmann, Universität Ulm - Deutschland
- Mark Pauly, École polytechnique fédérale de Lausanne - Schweiz
Research Output
- 257 Zitationen
- 18 Publikationen
- 2 Datasets & Models
- 1 Disseminationen
- 2 Wissenschaftliche Auszeichnungen
- 2 Weitere Förderungen
-
2021
Titel Testing for equality of distributions using the concept of (niche) overlap DOI 10.1007/s00362-021-01239-y Typ Journal Article Autor Parkinson-Schwarz J Journal Statistical Papers Seiten 225-242 Link Publikation -
2022
Titel Testing hypotheses about covariance matrices in general MANOVA designs DOI 10.1016/j.jspi.2021.12.001 Typ Journal Article Autor Sattler P Journal Journal of Statistical Planning and Inference Seiten 134-146 Link Publikation -
2019
Titel Testing Hypotheses about Covariance Matrices in General MANOVA Designs DOI 10.48550/arxiv.1909.06205 Typ Preprint Autor Sattler P -
2019
Titel Photon-number parity of heralded single photons from a Bragg-reflection waveguide reconstructed loss-tolerantly via moment generating function DOI 10.1088/1367-2630/ab42ae Typ Journal Article Autor Laiho K Journal New Journal of Physics Seiten 103025 Link Publikation -
2019
Titel Sample sizes and statistical methods in interventional studies on individuals with spinal cord injury: A systematic review DOI 10.1111/jebm.12356 Typ Journal Article Autor Zimmermann G Journal Journal of Evidence-Based Medicine Seiten 200-208 Link Publikation -
2019
Titel Sample size calculation and blinded recalculation for analysis of covariance models with multiple random covariates DOI 10.1080/10543406.2019.1632871 Typ Journal Article Autor Zimmermann G Journal Journal of Biopharmaceutical Statistics Seiten 143-159 Link Publikation -
2019
Titel Combined multiple testing of multivariate survival times by censored empirical likelihood DOI 10.1111/sjos.12423 Typ Journal Article Autor Parkinson J Journal Scandinavian Journal of Statistics Seiten 757-786 Link Publikation -
2019
Titel Small-sample performance and underlying assumptions of a bootstrap-based inference method for a general analysis of covariance model with possibly heteroskedastic and nonnormal errors DOI 10.1177/0962280218817796 Typ Journal Article Autor Zimmermann G Journal Statistical Methods in Medical Research Seiten 3808-3821 Link Publikation -
2018
Titel HRM: An R Package for Analysing High-dimensional Multi-factor Repeated Measures DOI 10.32614/rj-2018-032 Typ Journal Article Autor Happ M Journal The R Journal Seiten 534 Link Publikation -
2018
Titel Optimal sample size planning for the Wilcoxon-Mann-Whitney test DOI 10.1002/sim.7983 Typ Journal Article Autor Happ M Journal Statistics in Medicine Seiten 363-375 Link Publikation -
2020
Titel Pseudo-Ranks: How to Calculate Them Efficiently in R DOI 10.18637/jss.v095.c01 Typ Journal Article Autor Happ M Journal Journal of Statistical Software Link Publikation -
2020
Titel Multivariate analysis of covariance with potentially singular covariance matrices and non-normal responses DOI 10.1016/j.jmva.2020.104594 Typ Journal Article Autor Zimmermann G Journal Journal of Multivariate Analysis Seiten 104594 Link Publikation -
2018
Titel A Fast and Robust Way to Estimate Overlap of Niches, and Draw Inference DOI 10.1515/ijb-2017-0028 Typ Journal Article Autor Parkinson J Journal The International Journal of Biostatistics Seiten 20170028 Link Publikation -
2018
Titel Testing Mean Differences among Groups: Multivariate and Repeated Measures Analysis with Minimal Assumptions DOI 10.1080/00273171.2018.1446320 Typ Journal Article Autor Bathke A Journal Multivariate Behavioral Research Seiten 348-359 Link Publikation -
2018
Titel Optimal Sample Size Planning for the Wilcoxon-Mann-Whitney-Test DOI 10.48550/arxiv.1805.12249 Typ Preprint Autor Happ M -
2017
Titel High-dimensional repeated measures DOI 10.1080/15598608.2017.1307792 Typ Journal Article Autor Happ M Journal Journal of Statistical Theory and Practice Seiten 468-477 Link Publikation -
2017
Titel Combining SPECT and Quantitative EEG Analysis for the Automated Differential Diagnosis of Disorders with Amnestic Symptoms DOI 10.3389/fnagi.2017.00290 Typ Journal Article Autor Höller Y Journal Frontiers in Aging Neuroscience Seiten 290 Link Publikation -
2017
Titel Reliability of EEG Measures of Interaction: A Paradigm Shift Is Needed to Fight the Reproducibility Crisis DOI 10.3389/fnhum.2017.00441 Typ Journal Article Autor Höller Y Journal Frontiers in Human Neuroscience Seiten 441 Link Publikation
-
2017
Titel Taught at Summer School Strobl 2017 Typ Participation in an activity, workshop or similar
-
2019
Titel President of the Austrian-Swiss Region of the International Biometric Society Typ Prestigious/honorary/advisory position to an external body Bekanntheitsgrad Continental/International -
2019
Titel Appointed Editor-in-Chief of Biometrical Journal (jointly with Matthias Schmid from Bonn) Typ Appointed as the editor/advisor to a journal or book series Bekanntheitsgrad Continental/International
-
2018
Titel Marshall Plan Scholarship Typ Fellowship Förderbeginn 2018 Geldgeber Austrian Marshall Plan Foundation -
2019
Titel Ecology and Statistics Typ Research grant (including intramural programme) Förderbeginn 2019