Generalisierte relative Daten und Robustheit in Bayes Räumen
Generalized relative data and robustness in Bayes spaces
Weave: Österreich - Belgien - Deutschland - Luxemburg - Polen - Schweiz - Slowenien - Tschechien
Wissenschaftsdisziplinen
Geowissenschaften (10%); Mathematik (90%)
Keywords
-
Compositional Data,
Compositional Tables,
Probability Density Functions,
Functional Data,
Robust Statistics
Kompositionelle Daten sind auch als relative Daten bekannt, bei denen die wesentliche Information die (log-)Verhältnisse zwischen den Variablen, auch kompositionelle Anteile genannt, ausmacht. Diese Art der Information benötigt eine entsprechende Datenbearbeitung, und das führt zur Thematik der Analyse von Kompositionsdaten (CoDa). Es gibt viele Beispiele, bei denen CoDa sehr erfolgreich dabei war, tiefere Einsichten in eine Problemstellung zu erhalten, so wie bei der Analyse von Konzentrationsdaten (z.B. Elementkonzentrationen von geochemischen oder archäologischen Messungen), Infektionsraten in der Virologie, Ausgaben in unterschiedlichen Sektoren, Identifikation von relevanten Biomarkern, usw. Die Theorie von CoDa bietet eine Vielzahl von Ansätzen für eine geeignete Behandlung von Kompositionsdaten in Klassifikations- und Regressionsproblemen, und für statistische Aufgabenstellungen im Allgemeinen. Ziel dieses Projektes ist es, CoDa Methoden auf allgemeinere Datenstrukturen, wie sie heute häufig in der Praxis vorkommen, zu erweitern: Messungen können in Form von kontinuierlichen Funktionen auftreten, für die die gesamte Summe oder das Integral über die einzelnen Beiträge begrenzt ist, so wie für Wahrscheinlichkeitsverteilungen. Oder sie treten in Form von kompositionellen Tabellen oder Objekten höherer Ordnung auf, weil die zugrunde liegende Information nach Faktoren wie Alter, Geschlecht, etc., gruppiert ist. Im kontinuierlichen Fall würde das verallgemeinern auf kompositionelle Dichten, die bivariat oder auch von höherer Ordnung sein können. Kompositionsdaten von höherer Komplexität werden hier als verallgemeinerte relative Daten bezeichnet. Im Rahmen dieses Projektes wird die sogenannte Bayes space Technologie als mathematischer Rahmen verwendet, der eine Gewichtung von Variablen, Beobachtungen, und einzelnen Zellen des Datenfeldes ermöglicht. Besonders im hochdimensionalen Fall kann eine Gewichtung von Variablen sehr nützlich sein, um den relativen Effekt einer Variable auf die anderen zu adjustieren. Andererseits kontrolliert das Gewichten von Beobachtungen und Zellen deren Einfluss auf einen resultierenden Schätzer. Das ist sehr nützlich, wenn Beobachtungen oder einzelne Zellen Ausreißer darstellen, und daher öffnet die Gewichtung die Tür zur Entwicklung von robusten Versionen von CoDa Methoden.
Dieses Projekt widmete sich der Entwicklung einer Methodik für eine robuste Analyse relativer funktionaler Daten, also zufälliger Funktionen im Bayes-Raum, wie beispielsweise Dichtefunktionen. Eine wichtige Aufgabe in der robusten Statistik ist die Erkennung von Ausreißern, d. h. die Identifizierung von Funktionen, die vom Hauptmuster abweichen, beispielsweise aufgrund ihrer Form oder aufgrund von einzelnen Spitzen. Ein gängiges Werkzeug zur Erkennung von Ausreißern in der multivariaten Statistik ist die Mahalanobis-Distanz, die eine robuste Schätzung des Mittels und der Kovarianz erfordert. Eine besondere Herausforderung war die unendliche Dimension der funktionalen Daten und die Notwendigkeit einer geeigneten Regularisierung. Im Rahmen dieses Projektes haben wir einen einheitlichen Rahmen auf der Grundlage einer bestehenden funktional regularisierten Mahalanobis-Distanz entwickelt, indem wir sie erweitert und an funktionale Daten angepasst haben. Ein wichtiger Beitrag war die Entwicklung eines robusten Kovarianzschätzers, der für die Erkennung von Ausreißern in univariaten funktionalen Daten verwendet wird. Die daraus resultierende Methode, der "Minimum Regularized Covariance Trace Estimator", wurde in Technometrics, einer der renommiertesten Fachzeitschriften für Statistik, veröffentlicht (DOI: 10.1080/00401706.2024.2336542). Dieser Abstand wurde auf den Bayes-Raum erweitert, wobei die in Dichtefunktionen enthaltenen Einschränkungen berücksichtigt wurden. Auf der Grundlage dieser Erweiterung haben wir eine robuste FPCA für relative Daten (RDPCA) als neuartigen Ansatz für die genaue Schätzung von Hauptkomponenten bei Vorhandensein von Ausreißern entwickelt. Die Leistungsfähigkeit von RDPCA wurde im Rahmen von Simulationsstudien und anhand von Beispielen mit realen Daten bewertet. Diese zeigen, dass die Methode im Vergleich zu herkömmlichen Methoden die Kovarianzschätzung und PCA verbessern kann. Dies war eine gemeinsame Arbeit mit unserem Partner aus der Tschechischen Republik (Karel Hron) und einer weiteren internationalen Kooperationspartnerin (Alessandra Menafoglio, Politecnico di Milano). Der Artikel wird derzeit in der Fachzeitschrift Technometrics begutachtet. Schließlich wurde unsere regularisierte funktionale Mahalanobis-Distanz auf multivariate funktionale Prozesse verallgemeinert. Solche Prozesse stellen aufgrund der hohen Dimensionalität der Kovarianzstrukturen oft eine Herausforderung dar, insbesondere in räumlich-zeitlichen Modellen. Hier skaliert die Kovarianzmatrix quadratisch mit der Anzahl der räumlichen und zeitlichen Beobachtungen, was erhebliche Daten- und Rechenressourcen erfordert. Um dieses Problem anzugehen, konzentrierte sich unsere Forschung auf eine robuste Parameterschätzung unter der Annahme einer separierbaren Kovarianzstruktur. In dieser Zusammenarbeit mit Tomas Masak (WU Wien) konnten wir Mahalanobis-Distanzen für multivariate Prozesse mit jenen für univariaten Prozessen verbinden. Die Anpassung dieses Konzepts an das Clustering-Framework hat im Vergleich zu anderen Methoden eine hervorragende Leistung gezeigt. Diese Arbeit wird in naher Zukunft eingereicht werden. Wir konnten auch weitere Artikel zu unseren Kerninnovationen veröffentlichen, und vor allem führte die Arbeit zu einer Doktorarbeit von Jeremy Oguamalam, die im Oktober 2025 erfolgreich verteidigt wurde. Es wurden mehrere Vorträge auf internationalen Workshops und Konferenzen gehalten, darunter auch eingeladene Vorträge von Una Radojičić.
- Technische Universität Wien - 100%
- Alessandra Menafoglio, Polytechnic University of Milan - Italien
- Johanna Neslehova, McGill University, Montreal - Kanada
- Matthias Templ, Zürcher Hochschule für Angewandte Wissenschaften - Schweiz
- Tomas Matys Grygar, Academy of Sciences of the Czech Republic - Tschechien
- Karel Hron, Palacky University Olomouc - Tschechien
Research Output
- 4 Zitationen
- 13 Publikationen
- 1 Datasets & Models
-
2024
Titel Exploratory functional data analysis of multivariate densities for the identification of agricultural soil contamination by risk elements DOI 10.1016/j.gexplo.2024.107416 Typ Journal Article Autor Grygar T Journal Journal of Geochemical Exploration -
2024
Titel Minimum Regularized Covariance Trace Estimator and Outlier Detection for Functional Data DOI 10.1080/00401706.2024.2336542 Typ Journal Article Autor Oguamalam J Journal Technometrics -
2025
Titel Identifying Important Pairwise Logratios in Compositional Data with Sparse Principal Component Analysis. DOI 10.1007/s11004-024-10159-0 Typ Journal Article Autor Nesrstová V Journal Mathematical geosciences Seiten 333-358 -
2025
Titel Robust Covariance Estimation and Explainable Outlier Detection for Matrix-Valued Data DOI 10.1080/00401706.2025.2475781 Typ Journal Article Autor Mayrhofer M Journal Technometrics -
2025
Titel Correspondence Analysis From the Viewpoint of Compositional Tables DOI 10.1002/sam.70023 Typ Journal Article Autor Fačevicová K Journal Statistical Analysis and Data Mining: An ASA Data Science Journal -
2025
Titel Regularized Mahalanobis Distance for Functional Data Typ PhD Thesis Autor Oguamalam, Jeremy -
2023
Titel Exploratory functional data analysis of multivariate densities for the identification of agricultural soil contamination by risk elements DOI 10.48550/arxiv.2310.13761 Typ Preprint Autor Grygar T Link Publikation -
2023
Titel Principal balances of compositional data for regression and classification using partial least squares DOI 10.1002/cem.3518 Typ Journal Article Autor Nesrstová V Journal Journal of Chemometrics -
2023
Titel Identifying Important Pairwise Logratios in Compositional Data with Sparse Principal Component Analysis DOI 10.48550/arxiv.2311.13911 Typ Preprint Autor Nesrstová V Link Publikation -
2023
Titel Minimum regularized covariance trace estimator and outlier detection for functional data DOI 10.48550/arxiv.2307.13509 Typ Other Autor Oguamalam J Link Publikation -
2022
Titel Compositional cubes: a new concept for multi-factorial compositions DOI 10.1007/s00362-022-01350-8 Typ Journal Article Autor Facevicová K Journal Statistical Papers Seiten 955-985 Link Publikation -
2022
Titel Compositional Cubes: A New Concept for Multi-factorial Compositions DOI 10.48550/arxiv.2201.10321 Typ Preprint Autor Facevicová K -
2022
Titel Principal Balances of Compositional Data for Regression and Classification using Partial Least Squares DOI 10.48550/arxiv.2211.01686 Typ Preprint Autor Nesrstová V
-
2024
Link
Titel Minimum Regularized Covariance Trace Estimator and Outlier Detection for Functional Data DOI 10.6084/m9.figshare.25766304 Typ Database/Collection of data Öffentlich zugänglich Link Link