Probabilistisches Maschinelles Lernen
Probabilistic Machine Learning
Wissenschaftsdisziplinen
Mathematik (70%); Wirtschaftswissenschaften (30%)
Keywords
-
Machine learning,
Probabilistic,
Big Data,
Malnutrition
Assoz. Prof. Dr. Nikolaus Umlauf, Principal Investigator Mag. Johannes Seiler, PhD, Co-Investigator Univ.-Prof. Dr. Stefan Lang, Co-Investigator in collaboration with Dr. Kenneth Harttgen Dieses Projekt zielt darauf ab, die Probleme der Unterernahrung von Kindern in Landern mit niedrigem und mittlerem Einkommen durch probabilistisches maschinelles Lernen besser zu erklaren und zur Uberwachung der Ziele der nachhaltigen Entwicklung (Sustainable Development Goals, SGD) beizu- tragen, die auf der Konferenz der Vereinten Nationen uber nachhaltige Entwicklung in Rio de Janeiro 2012 vorgeschlagen wurden. Die neuere Literatur betont die hohe Heterogenitat sowohl auf nationaler als auch auf subnationaler Ebene und konzentriert sich auf die Identifizierung von Treibern der Unterernahrung mit flexiblen Re- gressionsmodellen. Obwohl die angewandten Methoden komplexe Modellierungsansatze beinhalten, reichen sie nicht aus, um alle wichtigen Wechselwirkungen zu berucksichtigen, d.h. bestimmte Faktoren bleiben unentdeckt, die einen wesentlichen Beitrag zur Gesamtsituation leisten konnten. Wir streben eine deutliche Verbesserung des Monitorings durch: (a) eine verbesserte Datenbasis und (b) die En- twicklung neuer Algorithmen fur Nicht-Standardinteraktionen, die in den Rahmen vollstandig probabilis- tischer Verteilungsregressionsmodelle eingebettet werden. Die neuen Algorithmen werden auf Ideen aus dem maschinellen Lernen basieren, wie z.B. Decision Trees (und Random Forests) und Algorithmen wie Stochastic Gradient Descent (SGD), die fur sehr große Datensatze geeignet sind. Die vorgestellten Methoden konnen fur eine Vielzahl von Anwendungen eingesetzt werden. Der Model- lierungsansatz konzentriert sich auf die Zerlegung in Haupteffekte und (moglicherweise) komplexe, aber interpretierbare Interaktionen. Die neuen Algorithmen sind ausserst speichereffizient (einschliesslich der Variablenauswahl) und konnen auf praktisch jede Anzahl von Beobachtungen auf einem herkommlichen Computer angewendet werden. Mit den bisher entwickelten Methoden ist es nicht moglich, so große probabilistische Modelle zu berechnen. Daher sind die Methoden auch fur andere Anwendungen, z.B. im Bereich der Meteorologie, Immobilienbewertung, Okologie, Medizin usw., sehr nutzlich. 1
Probabilistic Machine Learning Weltweit sind viele Millionen Kinder von Mangelernährung betroffen, besonders in Ländern mit begrenztem Zugang zu Gesundheitsversorgung, sauberem Wasser oder ausreichend Nahrung. Eine häufige Folge ist Anämie, also Blutarmut. Um das Ausmaß des Problems richtig zu verstehen und gezielt handeln zu können, braucht es verlässliche und aussagekräftige Daten. Im Rahmen unseres FWF-geförderten Forschungsprojekts haben wir einen völlig neuen statistischen Algorithmus entwickelt, mit dem sich komplexe Gesundheitsdaten auf ganz neue Weise auswerten lassen. Unser Verfahren ist in der Lage, gleichzeitig Millionen von Datenpunkten aus Gesundheitsumfragen, Satellitendaten, Klima- und Umweltinformationen sowie sozioökonomischen Variablen zu verarbeiten, und erkennt dabei automatisch, welche dieser Einflussgrößen tatsächlich relevant sind. Das Besondere: Unsere Modelle sagen nicht nur einen Durchschnittswert (z.B. das mittlere Anämierisiko) vorher, sondern liefern eine vollständige Verteilungsprognose. Das heißt: Für jede Region lässt sich nicht nur abschätzen, wie wahrscheinlich Anämie ist, sondern auch, wie groß die Unsicherheit dabei ist, oder wie hoch z.B. das Risiko für besonders starke Belastung ist. Damit lassen sich gezielt auch Regionen identifizieren, in denen die gesundheitliche Lage besonders unsicher oder instabil ist. Ein zentrales Ergebnis unseres Projekts ist die Erstellung hochauflösender Karten für über 50 Länder. Sie zeigen erstmals kleinräumig, oft bis auf Dorfebene, wie stark Kinder von Anämie betroffen sind. Besonders deutlich wurde: Die Unterschiede innerhalb einzelner Länder sind oft größer als zwischen den Ländern selbst. Diese Erkenntnisse helfen dabei, Hilfsmaßnahmen genauer und gerechter zu planen. Mit unserem neuen Algorithmus lassen sich Zusammenhänge nachvollziehbar erklären, etwa wie sich Armut, klimatische Extreme und mangelnde Gesundheitsinfrastruktur gegenseitig verstärken. Unsere Methoden sind offen verfügbar, wurden in führenden internationalen Fachzeitschriften veröffentlicht und stehen anderen Forschungsgruppen zur freien Nutzung zur Verfügung. Unser Projekt zeigt: Mit modernen statistischen Verfahren lassen sich versteckte Muster in großen Datenmengen sichtbar machen, und damit fundierte Grundlagen für bessere Entscheidungen schaffen.
- Universität Innsbruck - 100%
- Kenneth Harttgen, ETH Zürich - Schweiz
Research Output
- 101 Zitationen
- 16 Publikationen
-
2023
Titel Amplification of annual and diurnal cycles of alpine lightning DOI 10.1007/s00382-023-06786-8 Typ Journal Article Autor Simon T Journal Climate Dynamics Seiten 4125-4137 Link Publikation -
2023
Titel A multilevel analysis of real estate valuation using distributional and quantile regression DOI 10.1177/1471082x231157205 Typ Journal Article Autor Razen A Journal Statistical Modelling Seiten 525-539 Link Publikation -
2023
Titel Scalable Estimation for Structured Additive Distributional Regression DOI 10.48550/arxiv.2301.05593 Typ Preprint Autor Umlauf N -
2023
Titel Functional thresholds alter the relationship of plant resistance and recovery to drought DOI 10.1002/ecy.3907 Typ Journal Article Autor Ingrisch J Journal Ecology Link Publikation -
2024
Titel Cholesky-based multivariate Gaussian regression DOI 10.1016/j.ecosta.2022.03.001 Typ Journal Article Autor Muschinski T Journal Econometrics and Statistics Seiten 261-281 Link Publikation -
2022
Titel Amplification of annual and diurnal cycles of alpine lightning over the past four decades DOI 10.5194/egusphere-egu22-1314 Typ Journal Article Autor Simon T -
2025
Titel Distributional Regression for High-Dimensional and Big Data: Methods and Applications Typ PhD Thesis Autor Mattias Wetscher -
2025
Titel Leveraging remote observations for calibrating surface energy- and mass balance models: a case study on Hintereisferner DOI 10.5194/egusphere-egu25-10390 Typ Journal Article Autor Richter N -
2025
Titel High-resolution spatial prediction of anemia risk among children aged 6 to 59 months in low- and middle-income countries DOI 10.1038/s43856-025-00765-2 Typ Journal Article Autor Seiler J Journal Communications Medicine Seiten 57 Link Publikation -
2021
Titel Bayesian Gaussian distributional regression models for more efficient norm estimation. DOI 10.1111/bmsp.12206 Typ Journal Article Autor Kneib T Journal The British journal of mathematical and statistical psychology Seiten 99-117 -
2022
Titel An index of access to essential infrastructure to identify where physical distancing is impossible DOI 10.1038/s41467-022-30812-8 Typ Journal Article Autor Günther I Journal Nature Communications Seiten 3355 Link Publikation -
2022
Titel Distributional Adaptive Soft Regression Trees DOI 10.48550/arxiv.2210.10389 Typ Preprint Autor Klein N Link Publikation -
2021
Titel bamlss: A Lego Toolbox for Flexible Bayesian Regression (and Beyond) DOI 10.18637/jss.v100.i04 Typ Journal Article Autor Umlauf N Journal Journal of Statistical Software Seiten 1-53 Link Publikation -
2021
Titel Functional thresholds of plant resistance and recovery to drought DOI 10.5194/egusphere-egu21-8333 Typ Other Autor Ingrisch J -
2022
Titel Pedestrian exposure to black carbon and PM2.5 emissions in urban hot spots: new findings using mobile measurement techniques and flexible Bayesian regression models. DOI 10.1038/s41370-021-00379-5 Typ Journal Article Autor Alas Hd Journal Journal of exposure science & environmental epidemiology Seiten 604-614 -
2022
Titel Climatic legacy effects on the drought response of the Amazon rainforest. DOI 10.1111/gcb.16336 Typ Journal Article Autor Van Passel J Journal Global change biology Seiten 5808-5819