Neue methodische Entwicklungen für GAMs und VGAMs
New Methodological Developments for GAMs and VGAMs
Wissenschaftsdisziplinen
Informatik (10%); Mathematik (90%)
Keywords
-
Additive models,
Outliers,
Robust statistics,
VGAM,
GAM
Additive und Verallgemeinerte Additive Modelle werden häufig bei nichtparametrischer Regressionsanalyse verwendet, weil sie Überanpassung aufgrund einer Penalisierung der Glättungssplines vermeiden. Die zugrunde liegende Annahme ist, dass das wahre Signal glatt ist. In der Praxis ist jedoch diese Annahme oft unrealistisch, weil Ausreißer in der zu erklärenden Variable auftreten können, das Signal lokal stark variieren kann, oder Sprünge auftreten können. Verletzungen der Modellannahmen können zu ungenauen Ergebnissen führen, und es ist daher notwendig, die Annahmen abzuschwächen. In diesem Projekt begegnen wir diesen Problemen, indem die Definition der Glättungssplines in unterschiedlicher Weise robustifiziert wird. Die Modifikationen werden so vorgenommen, dass die Berechnungen noch machbar sind. Die resultierenden nichtparametrischen Schätzungen lassen rasche lokale Änderungen im Signal zu, während die allgemeine Glättungseigenschaft erhalten bleiben. Die neu entwickelte Methodik wird somit ein flexibles und leistungsfähiges System ergeben, das gewährleistet, dass Daten, die multivariat in den abhängigen bzw. unabhängigen Variablen sind, entsprechend analysiert werden können. Die entwickelten Methoden werden im bekannten VGAM Paket der Softwareumgebung R implementiert.
Viele in der Natur beobachtete Phänomene folgen einer zugrunde liegenden nichtlinearen Beziehung. Ein Beispiel sind Konzentrationen von chemischen Elementen gemessen im Boden eines bestimmten Gebietes. Bei einer Lokation, die für die Exploration von Mineralien von Interesse ist, würden wir einen Anstieg gewisser Konzentrationswerte in der Nähe dieser Lokation erwarten, und die Steigerung könnte einem nichtlinearen Trend folgen. Andererseits könnte es unterschiedlichste Gründe für Fehler geben, die ein gewisses Rauschen im Signal bewirken, was wiederum Probleme bei der Schätzung des zugrunde liegenden Signals verursachen kann. Ein Projektziel war die Entwicklung neuer nichtlinearer Glättungsmethoden, die weniger empfindlich auf Rauschen in den Messungen sind, die aber noch immer genügend Sensitivität aufweisen, um relevante Anstiege im Signal zu erkennen. Nachdem diese Methoden weniger sensitiv gegenüber Zacken oder anderer Artefakte sind, können sie als robust gegenüber Ausreißern bezeichnet werden. Robuste Glättungsmethoden wurden auch für andere Modelle betrachtet, die allgemeiner sind als nur einfache Glättungsmethoden. Wenn die Signale einmal robust geglättet sind, kann es noch immer vorkommen, dass Signale von bestimmten Beobachtungen untypisch sind. Beispielsweise können Covid Infektionsdaten über die Zeit gemessen, von unterschiedlichen Ländern sehr heterogen sein, aufgrund unterschiedlicher Strategien der Länder im Umgang mit der Pandemie. Auch nach dem Glätten sind solche Unterschiede in den Signalen sichtbar. Wenn der Fokus nicht nur auf einem Signal, sondern auf mehreren Messungen liegt, wie z.B. Covid Infektionszahlen, Hospitalisierungen, Todesanzahlen, etc., ist es nicht mehr so einfach, gemeinsame Unterschiede der Messungen in den Ländern visuell zu untersuchen. Zusätzlich sollte der Grad der Heterogenität nicht anhand der absoluten Zahlen beurteilt werden, da diese hauptsächlich von der Populationsgröße bestimmt werden. In der Statistik gibt es eine Möglichkeit, relative Information zu untersuchen, und das wird als Analyse von Kompositionsdaten bezeichnet. Wir haben einen neuen Ansatz entwickelt, um Ausreißer (Länder) in geglätteten mehrdimensionalen Signalen zu identifizieren. Die Signale werden dabei als Funktionen über die Zeit behandelt, die aber als Kompositionen betrachtet werden. Weitere Arbeit wurde der Erkennung von zusammen wirkenden Variablengruppen in multivariaten Daten gewidmet. Beispielsweise ist es bekannt, dass bei metabolomischen Daten in der Bioinformatik manche Metaboliten gemeinsam als Gruppe interagieren, und dass mehrere solcher Gruppen ein zugrunde liegendes Phänomen wie eine bestimmte Erkrankung erklären können. Gleichzeitig sind aber viele andere Metaboliten zur Identifikation dieser Erkrankung völlig irrelevant. Viele Methoden zu dieser Problemstellung wurden in der Literatur publiziert, aber diese können nicht geeignet mit Komposition umgehen, wo nur relative Information von Relevanz ist. Ein Beispiel sind metabolomische Daten, bei denen die gemessenen Werte von externen Rahmenbedingungen abhängen, und eine Modifikation zu einem Anstieg oder zu einer Reduktion der Werte um einen gewissen Faktor führen kann. Wir haben die Methodik zur Analyse von Kompositionsdaten verbunden mit der Indentifikation von Netzwerken oder Graphenstrukturen in Variablen, was zu wesentlich einfacher interpretierbaren Modellergebnissen führt.
- Technische Universität Wien - 100%
- Neyko Neykov, Bulgarian Academy of Sciences - Bulgarien
- Salibian-Barrera Matias, University of British Columbia - Kanada
- Thomas William Yee, University of Auckland - Neuseeland
- Simon Wood, University of Bristol - Vereinigtes Königreich
Research Output
- 8 Zitationen
- 10 Publikationen
-
2021
Titel Outlier Detection for Pandemic-Related Data Using Compositional Functional Data Analysis DOI 10.1007/978-3-030-78334-1_12 Typ Book Chapter Autor Rieser C Verlag Springer Nature Seiten 251-266 Link Publikation -
2022
Titel Spatial dependence, trends, functional outliers and sparsity in Compositional Data Analysis Typ Other Autor Rieser C Link Publikation -
2021
Titel Identification of Mineralization in Geochemistry for Grid Sampling Using Generalized Additive Models DOI 10.1007/s11004-021-09929-x Typ Journal Article Autor Mikšová D Journal Mathematical Geosciences Seiten 1861-1880 -
2023
Titel Extending compositional data analysis from a graph signal processing perspective DOI 10.1016/j.jmva.2023.105209 Typ Journal Article Autor Rieser C Journal Journal of Multivariate Analysis Seiten 105209 Link Publikation -
2023
Titel Edgewise Outliers of Network Indexed Signals DOI 10.1109/tsp.2023.3347646 Typ Journal Article Autor Rieser C Journal IEEE Transactions on Signal Processing Seiten 762-773 -
2023
Titel Edgewise outliers of network indexed signals DOI 10.48550/arxiv.2307.11239 Typ Preprint Autor Rieser C -
2022
Titel Extending compositional data analysis from a graph signal processing perspective DOI 10.48550/arxiv.2201.10610 Typ Preprint Autor Rieser C -
2020
Titel A Method to Identify Geochemical Mineralization on Linear Transects DOI 10.17713/ajs.v49i4.1133 Typ Journal Article Autor Mikšová D Journal Austrian Journal of Statistics Seiten 89-98 Link Publikation -
2021
Titel Identification of Mineralization in Geochemistry Along a Transect Based on the Spatial Curvature of Log-Ratios DOI 10.1007/s11004-021-09930-4 Typ Journal Article Autor Mikšová D Journal Mathematical Geosciences Seiten 1513-1533 Link Publikation -
2021
Titel Compositional trend filtering DOI 10.33039/ami.2021.02.004 Typ Journal Article Autor Rieser C Journal Annales Mathematicae et Informaticae Seiten 257-270 Link Publikation