Projektdetail

Grant-DOI 10.55776/P32819
Förderprogramm Einzelprojekte
Status beendet
Projektbeginn 01.01.2020
Projektende 31.01.2023
Bewilligungssumme 129.664 €
Projekt-Website

Wissenschaftsdisziplinen

Informatik (10%); Mathematik (90%)

Keywords

Additive models, Outliers, Robust statistics, VGAM, GAM

Abstract

Endbericht

Additive und Verallgemeinerte Additive Modelle werden häufig bei nichtparametrischer Regressionsanalyse verwendet, weil sie Überanpassung aufgrund einer Penalisierung der Glättungssplines vermeiden. Die zugrunde liegende Annahme ist, dass das wahre Signal glatt ist. In der Praxis ist jedoch diese Annahme oft unrealistisch, weil Ausreißer in der zu erklärenden Variable auftreten können, das Signal lokal stark variieren kann, oder Sprünge auftreten können. Verletzungen der Modellannahmen können zu ungenauen Ergebnissen führen, und es ist daher notwendig, die Annahmen abzuschwächen. In diesem Projekt begegnen wir diesen Problemen, indem die Definition der Glättungssplines in unterschiedlicher Weise robustifiziert wird. Die Modifikationen werden so vorgenommen, dass die Berechnungen noch machbar sind. Die resultierenden nichtparametrischen Schätzungen lassen rasche lokale Änderungen im Signal zu, während die allgemeine Glättungseigenschaft erhalten bleiben. Die neu entwickelte Methodik wird somit ein flexibles und leistungsfähiges System ergeben, das gewährleistet, dass Daten, die multivariat in den abhängigen bzw. unabhängigen Variablen sind, entsprechend analysiert werden können. Die entwickelten Methoden werden im bekannten VGAM Paket der Softwareumgebung R implementiert.

Viele in der Natur beobachtete Phänomene folgen einer zugrunde liegenden nichtlinearen Beziehung. Ein Beispiel sind Konzentrationen von chemischen Elementen gemessen im Boden eines bestimmten Gebietes. Bei einer Lokation, die für die Exploration von Mineralien von Interesse ist, würden wir einen Anstieg gewisser Konzentrationswerte in der Nähe dieser Lokation erwarten, und die Steigerung könnte einem nichtlinearen Trend folgen. Andererseits könnte es unterschiedlichste Gründe für Fehler geben, die ein gewisses Rauschen im Signal bewirken, was wiederum Probleme bei der Schätzung des zugrunde liegenden Signals verursachen kann. Ein Projektziel war die Entwicklung neuer nichtlinearer Glättungsmethoden, die weniger empfindlich auf Rauschen in den Messungen sind, die aber noch immer genügend Sensitivität aufweisen, um relevante Anstiege im Signal zu erkennen. Nachdem diese Methoden weniger sensitiv gegenüber Zacken oder anderer Artefakte sind, können sie als robust gegenüber Ausreißern bezeichnet werden. Robuste Glättungsmethoden wurden auch für andere Modelle betrachtet, die allgemeiner sind als nur einfache Glättungsmethoden. Wenn die Signale einmal robust geglättet sind, kann es noch immer vorkommen, dass Signale von bestimmten Beobachtungen untypisch sind. Beispielsweise können Covid Infektionsdaten über die Zeit gemessen, von unterschiedlichen Ländern sehr heterogen sein, aufgrund unterschiedlicher Strategien der Länder im Umgang mit der Pandemie. Auch nach dem Glätten sind solche Unterschiede in den Signalen sichtbar. Wenn der Fokus nicht nur auf einem Signal, sondern auf mehreren Messungen liegt, wie z.B. Covid Infektionszahlen, Hospitalisierungen, Todesanzahlen, etc., ist es nicht mehr so einfach, gemeinsame Unterschiede der Messungen in den Ländern visuell zu untersuchen. Zusätzlich sollte der Grad der Heterogenität nicht anhand der absoluten Zahlen beurteilt werden, da diese hauptsächlich von der Populationsgröße bestimmt werden. In der Statistik gibt es eine Möglichkeit, relative Information zu untersuchen, und das wird als Analyse von Kompositionsdaten bezeichnet. Wir haben einen neuen Ansatz entwickelt, um Ausreißer (Länder) in geglätteten mehrdimensionalen Signalen zu identifizieren. Die Signale werden dabei als Funktionen über die Zeit behandelt, die aber als Kompositionen betrachtet werden. Weitere Arbeit wurde der Erkennung von zusammen wirkenden Variablengruppen in multivariaten Daten gewidmet. Beispielsweise ist es bekannt, dass bei metabolomischen Daten in der Bioinformatik manche Metaboliten gemeinsam als Gruppe interagieren, und dass mehrere solcher Gruppen ein zugrunde liegendes Phänomen wie eine bestimmte Erkrankung erklären können. Gleichzeitig sind aber viele andere Metaboliten zur Identifikation dieser Erkrankung völlig irrelevant. Viele Methoden zu dieser Problemstellung wurden in der Literatur publiziert, aber diese können nicht geeignet mit Komposition umgehen, wo nur relative Information von Relevanz ist. Ein Beispiel sind metabolomische Daten, bei denen die gemessenen Werte von externen Rahmenbedingungen abhängen, und eine Modifikation zu einem Anstieg oder zu einer Reduktion der Werte um einen gewissen Faktor führen kann. Wir haben die Methodik zur Analyse von Kompositionsdaten verbunden mit der Indentifikation von Netzwerken oder Graphenstrukturen in Variablen, was zu wesentlich einfacher interpretierbaren Modellergebnissen führt.

Forschungsstätte(n)

Technische Universität Wien - 100%

Internationale Projektbeteiligte

Neyko Neykov, Bulgarian Academy of Sciences - Bulgarien
Salibian-Barrera Matias, University of British Columbia - Kanada
Thomas William Yee, University of Auckland - Neuseeland
Simon Wood, University of Bristol - Vereinigtes Königreich

Research Output

8 Zitationen
10 Publikationen

Publikationen

Titel	Extending compositional data analysis from a graph signal processing perspective
DOI	10.1016/j.jmva.2023.105209
Typ	Journal Article
Autor	Rieser C
Journal	Journal of Multivariate Analysis
Seiten	105209
Link	Publikation

Titel	Edgewise Outliers of Network Indexed Signals
DOI	10.1109/tsp.2023.3347646
Typ	Journal Article
Autor	Rieser C
Journal	IEEE Transactions on Signal Processing
Seiten	762-773

Titel	Edgewise outliers of network indexed signals
DOI	10.48550/arxiv.2307.11239
Typ	Preprint
Autor	Rieser C

Titel	Identification of Mineralization in Geochemistry for Grid Sampling Using Generalized Additive Models
DOI	10.1007/s11004-021-09929-x
Typ	Journal Article
Autor	Mikšová D
Journal	Mathematical Geosciences
Seiten	1861-1880

Titel	Identification of Mineralization in Geochemistry Along a Transect Based on the Spatial Curvature of Log-Ratios
DOI	10.1007/s11004-021-09930-4
Typ	Journal Article
Autor	Mikšová D
Journal	Mathematical Geosciences
Seiten	1513-1533
Link	Publikation

Titel	Compositional trend filtering
DOI	10.33039/ami.2021.02.004
Typ	Journal Article
Autor	Rieser C
Journal	Annales Mathematicae et Informaticae
Seiten	257-270
Link	Publikation

Titel	A Method to Identify Geochemical Mineralization on Linear Transects
DOI	10.17713/ajs.v49i4.1133
Typ	Journal Article
Autor	Mikšová D
Journal	Austrian Journal of Statistics
Seiten	89-98
Link	Publikation

Titel	Spatial dependence, trends, functional outliers and sparsity in Compositional Data Analysis
Typ	Other
Autor	Rieser C
Link	Publikation

Titel	Extending compositional data analysis from a graph signal processing perspective
DOI	10.48550/arxiv.2201.10610
Typ	Preprint
Autor	Rieser C

Titel	Outlier Detection for Pandemic-Related Data Using Compositional Functional Data Analysis
DOI	10.1007/978-3-030-78334-1_12
Typ	Book Chapter
Autor	Rieser C
Verlag	Springer Nature
Seiten	251-266
Link	Publikation

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Neue methodische Entwicklungen für GAMs und VGAMs

New Methodological Developments for GAMs and VGAMs

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Neue methodische Entwicklungen für GAMs und VGAMs

New Methodological Developments for GAMs and VGAMs

Wissenschaftsdisziplinen

Keywords

Research Output