• Zum Inhalt springen (Accesskey 1)
  • Zur Suche springen (Accesskey 7)
FWF — Österreichischer Wissenschaftsfonds
  • Zur Übersichtsseite Entdecken

    • Forschungsradar
      • Historisches Forschungsradar 1974–1994
    • Entdeckungen
      • Emmanuelle Charpentier
      • Adrian Constantin
      • Monika Henzinger
      • Ferenc Krausz
      • Wolfgang Lutz
      • Walter Pohl
      • Christa Schleper
      • Elly Tanaka
      • Anton Zeilinger
    • Impact Stories
      • Verena Gassner
      • Wolfgang Lechner
      • Georg Winter
    • scilog-Magazin
    • Austrian Science Awards
      • FWF-Wittgenstein-Preise
      • FWF-ASTRA-Preise
      • FWF-START-Preise
      • Auszeichnungsfeier
    • excellent=austria
      • Clusters of Excellence
      • Emerging Fields
    • Im Fokus
      • 40 Jahre Erwin-Schrödinger-Programm
      • Quantum Austria
      • Spezialforschungsbereiche
    • Dialog und Diskussion
      • think.beyond Summit
      • Am Puls
      • Was die Welt zusammenhält
      • FWF Women’s Circle
      • Science Lectures
    • Wissenstransfer-Events
    • E-Book Library
  • Zur Übersichtsseite Fördern

    • Förderportfolio
      • excellent=austria
        • Clusters of Excellence
        • Emerging Fields
      • Projekte
        • Einzelprojekte
        • Einzelprojekte International
        • Klinische Forschung
        • 1000 Ideen
        • Entwicklung und Erschließung der Künste
        • FWF-Wittgenstein-Preis
      • Karrieren
        • ESPRIT
        • FWF-ASTRA-Preise
        • Erwin Schrödinger
        • doc.funds
        • doc.funds.connect
      • Kooperationen
        • Spezialforschungsgruppen
        • Spezialforschungsbereiche
        • Forschungsgruppen
        • International – Multilaterale Initiativen
        • #ConnectingMinds
      • Kommunikation
        • Top Citizen Science
        • Wissenschaftskommunikation
        • Buchpublikationen
        • Digitale Publikationen
        • Open-Access-Pauschale
      • Themenförderungen
        • AI Mission Austria
        • Belmont Forum
        • ERA-NET HERA
        • ERA-NET NORFACE
        • ERA-NET QuantERA
        • ERA-NET TRANSCAN
        • Ersatzmethoden für Tierversuche
        • Europäische Partnerschaft Biodiversa+
        • Europäische Partnerschaft ERA4Health
        • Europäische Partnerschaft ERDERA
        • Europäische Partnerschaft EUPAHW
        • Europäische Partnerschaft FutureFoodS
        • Europäische Partnerschaft OHAMR
        • Europäische Partnerschaft PerMed
        • Europäische Partnerschaft Water4All
        • Gottfried-und-Vera-Weiss-Preis
        • netidee SCIENCE
        • Projekte der Herzfelder-Stiftung
        • Quantum Austria
        • Rückenwind-Förderbonus
        • WE&ME Award
        • Zero Emissions Award
      • Länderkooperationen
        • Belgien/Flandern
        • Deutschland
        • Frankreich
        • Italien/Südtirol
        • Japan
        • Luxemburg
        • Polen
        • Schweiz
        • Slowenien
        • Taiwan
        • Tirol–Südtirol–Trentino
        • Tschechien
        • Ungarn
    • Schritt für Schritt
      • Förderung finden
      • Antrag einreichen
      • Internationales Peer-Review
      • Förderentscheidung
      • Projekt durchführen
      • Projekt beenden
      • Weitere Informationen
        • Integrität und Ethik
        • Inklusion
        • Antragstellung aus dem Ausland
        • Personalkosten
        • PROFI
        • Projektendberichte
        • Projektendberichtsumfrage
    • FAQ
      • Projektphase PROFI
      • Projektphase Ad personam
      • Auslaufende Programme
        • Elise Richter und Elise Richter PEEK
        • FWF-START-Preise
  • Zur Übersichtsseite Über uns

    • Leitbild
    • FWF-Film
    • Werte
    • Zahlen und Daten
    • Jahresbericht
    • Aufgaben und Aktivitäten
      • Forschungsförderung
        • Matching-Funds-Förderungen
      • Internationale Kooperationen
      • Studien und Publikationen
      • Chancengleichheit und Diversität
        • Ziele und Prinzipien
        • Maßnahmen
        • Bias-Sensibilisierung in der Begutachtung
        • Begriffe und Definitionen
        • Karriere in der Spitzenforschung
      • Open Science
        • Open-Access-Policy
          • Open-Access-Policy für begutachtete Publikationen
          • Open-Access-Policy für begutachtete Buchpublikationen
          • Open-Access-Policy für Forschungsdaten
        • Forschungsdatenmanagement
        • Citizen Science
        • Open-Science-Infrastrukturen
        • Open-Science-Förderung
      • Evaluierungen und Qualitätssicherung
      • Wissenschaftliche Integrität
      • Wissenschaftskommunikation
      • Philanthropie
      • Nachhaltigkeit
    • Geschichte
    • Gesetzliche Grundlagen
    • Organisation
      • Gremien
        • Präsidium
        • Aufsichtsrat
        • Delegiertenversammlung
        • Kuratorium
        • Jurys
      • Geschäftsstelle
    • Arbeiten im FWF
  • Zur Übersichtsseite Aktuelles

    • News
    • Presse
      • Logos
    • Eventkalender
      • Veranstaltung eintragen
      • FWF-Infoveranstaltungen
    • Jobbörse
      • Job eintragen
    • Newsletter
  • Entdecken, 
    worauf es
    ankommt.

    FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

    SOCIAL MEDIA

    • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
    • , externe URL, öffnet sich in einem neuen Fenster
    • Facebook, externe URL, öffnet sich in einem neuen Fenster
    • Instagram, externe URL, öffnet sich in einem neuen Fenster
    • YouTube, externe URL, öffnet sich in einem neuen Fenster

    SCILOG

    • Scilog — Das Wissenschaftsmagazin des Österreichischen Wissenschaftsfonds (FWF)
  • elane-Login, externe URL, öffnet sich in einem neuen Fenster
  • Scilog externe URL, öffnet sich in einem neuen Fenster
  • en Switch to English

  

Klassifikation - Vorverarbeitete und hochdimensionale Daten

Classification – Preprocessed and high-dimensional data sets

Lukas Steinberger (ORCID: 0000-0002-2376-114X)
  • Grant-DOI 10.55776/I5484
  • Förderprogramm International - Multilaterale Initiativen
  • Status beendet
  • Projektbeginn 01.09.2021
  • Projektende 31.08.2025
  • Bewilligungssumme 167.076 €

DFG-Forschungsgruppen

Wissenschaftsdisziplinen

Informatik (50%); Mathematik (50%)

Keywords

    Classification, Differential Privacy, High-Dimensional Data, Imbalanced Data

Abstract Endbericht

In diesem Projekt sollen sogenannte Klassifikationsverfahren" entwickelt und mathematisch untersucht werden, welche verschiedenen neuen Herausforderungen in der modernen Datenverarbeitung gerecht werden. Ein Klassifikationsverfahren ist ein genau definierter Algorithmus der ein Objekt, aufgrund von dessen Eigenschaften, einer von mehreren möglichen Klassen zuordnet. Diese Objekte können beispielsweise Personen sein, die aufgrund der Ergebnisse von medizinischen Untersuchungen entweder der Klasse gesund oder der Klasse krank zugeordnet werden. Ein weiteres Beispiel wäre etwa die automatische Zuordnung von Musikstücken in Klassen wie Rock, Country, Klassik, etc. Für derartige Klassifikationsprobleme existieren natürlich heutzutage zahlreiche statistische Methoden, die in ihrem jeweiligen Anwendungsbereich auch sehr gute, bzw. sogar in einem gewissen Sinne optimale, Resultate liefern. Jedoch stellen viele moderne Klassifikationsprobleme, wie etwa die oben genannten, besondere Herausforderungen für die Datenanalyse dar, denen traditionelle Verfahren oft nicht mehr gerecht werden. Das Projekt beschäftigt sich speziell mit zwei dieser neuen Herausforderungen. Zum einen sollen Klassifikationsverfahren entwickelt werden, für die, aufgrund von Datenschutzüberlegungen, nicht die Originaldaten zur Verfügung stehen, sondern lediglich geeignet anonymisierte Daten. Die Originaldaten zum Beispiel sensible Patientendaten im medizinischen Bereich müssen also zuerst vorverarbeitet werden um die Anonymität der Patienten sicherzustellen. Das im Anschluss zur Anwendung kommende diagnostische Klassifikationsverfahren muss diesen Anonymisierungsschritt dann in geeigneter Weise berücksichtigen um die zu erwartende Anzahl möglicher Fehlklassifikationen zu minimieren. Eine weitere Herausforderung bei modernen Klassifikationsproblemen ist die große Menge an vorhandenen Daten. Zwar gilt der Grundsatz je mehr Informationen über das zu klassifizierende Objekt vorhanden sind, desto besser, aber es ist keinesfalls immer klar wie aus der vorhandenen Flut von Daten diejenigen Informationen extrahiert werden sollen, die eine sichere Zuordnung zu einer der möglichen Klassen gewährleisten. Dies wird etwa an dem genannten Beispiel der Klassifikation von Musikstücken deutlich, wo die vorhandene Information aus Sicht des Computers als Millionen von Nullen und Einsen gegeben ist. Klassifikationsverfahren für derartig große Datenmengen sind zusätzlich mit dem Problem konfrontiert, dass die Verarbeitung der Daten mit beträchtlichem Zeitaufwand verbunden ist. Herkömmliche Verfahren würden also zu viel Zeit benötigen um eine Klassifikation zu erzeugen, weshalb in diesem Projekt rechentechnisch effizientere, approximative Verfahren entwickelt und untersucht werden sollen.

Ziel dieses Projektes war es, sogenannte "Klassifikationsverfahren" zu entwickelt und mathematisch zu untersuchen, welche verschiedenen neuen Herausforderungen in der modernen Datenverarbeitung gerecht werden. Dabei ist ein "Klassifikationsverfahren" ein genau definierter Algorithmus der ein Objekt, aufgrund von dessen Eigenschaften, einer von mehreren möglichen Klassen zuordnet. Diese Objekte können beispielsweise Personen sein, die aufgrund der Ergebnisse von medizinischen Untersuchungen entweder der Klasse "gesund" oder der Klasse "krank" zugeordnet werden. Ein weiteres Beispiel wäre etwa die automatische Zuordnung von Musikstücken in Klassen wie "Rock", "Country", "Klassik", etc. Zwei dieser Herausforderungen in der Klassifikation, die heutzutage von großem Interesse sind, betreffen einerseits den Schutz der Privatsphäre der Dateneigentümer (wie im Beispiel der Patientendaten) und andererseits den enormen Zeitaufwand bei der Berechnung der Klassifikationsentscheidung aufgrund der Komplexität und hohen Dimensionalität der Daten (wie im Bespiel der Musikstücke). Im Projektverlauf stellte sich jedoch bald heraus, dass für die Entwicklung von geeigneten Klassifikationsmethoden der mathematisch einfacherer Fall von Regressionsmethoden zuerst behandelt werden muss, da es auch auf diesem Gebiet noch keine für unsere Ziele hinreichenden Vorarbeiten gab. Daher konzentrierte sich die eigentlich Projektarbeit auf die Entwicklung von Regressionsmethoden unter Berücksichtigung der Preobleme von Datenschutz und Berechenbarkeit bei hoher Dimensionalität. Für das Problem der Datenverarbeitung unter Schutz der Privatsphäre gelang es uns, unter Verwendung des zunehmend populären Konzeptes von Differential Privacy, eine umfassende statistische Theorie optimaler Schätzverfahren zu entwickeln, und auch numerische Methoden für deren praktische Berechnung mitzuliefern. Die Idee von Differential Privacy ist es, anstatt möglicherweise sensiblen Originaldaten weiterzugeben oder zu veröffentlich, diese Daten zuerst durch einen geeigneten Zufallsmechanismus so abzuändern, dass sie zwar die Aussagekraft über den betreffenden Dateneigentümer verlieren, aber in ihrer Gesamtheit noch Rückschlüsse über die Population erlauben. Hier gelang es uns, den nach dem starken Kriterium der statistischen Effizienz optimalen Zufallsmechanismus zu identifizieren und einen Algorithmus für dessen praktische Ausführung zu entwickeln. Für das Problem der zeitaufwändigen Berechnung von Regressionsmethoden bei hoher Datendimension gelang es uns, durch geringfügige Abänderung des populären Gradientenverfahrens, einen Algorithmus zu entwickeln, von dem sich mathematisch zeigen lässt, dass er nicht nur schneller ausführbar ist als die bekannten Standardverfahren der Statistik, sondern auch in einem starken Sinn die bestmöglichen Vorhersagen liefert. In einem Folgeprojekt sollen die gewonnen Erkenntnisse und entwickelten Methoden dann auf den Klassifikationsfall erweitert werden.

Forschungsstätte(n)
  • Universität Wien - 100%
Internationale Projektbeteiligte
  • Angelika Rohde, Universität Freiburg - Deutschland
  • Cristina Butucea, ENSAE - Frankreich

Research Output

  • 11 Zitationen
  • 8 Publikationen
Publikationen
  • 2025
    Titel Comparing regularisation paths of (conjugate) gradient estimators in ridge regression
    DOI 10.48550/arxiv.2503.05542
    Typ Preprint
    Autor Hucker L
    Link Publikation
  • 2025
    Titel Implicit vs. explicit regularization for high-dimensional gradient descent
    DOI 10.48550/arxiv.2502.10578
    Typ Preprint
    Autor Stark T
    Link Publikation
  • 2025
    Titel Robust signal recovery in Hadamard spaces
    DOI 10.1016/j.jmva.2025.105469
    Typ Journal Article
    Autor Köstenberger G
    Journal Journal of Multivariate Analysis
    Seiten 105469
    Link Publikation
  • 2023
    Titel Uncertainty quantification via cross-validation and its variants under algorithmic stability
    DOI 10.48550/arxiv.2312.14596
    Typ Preprint
    Autor Amann N
    Link Publikation
  • 2023
    Titel Interactive versus noninteractive locally differentially private estimation: Two elbows for the quadratic functional
    DOI 10.1214/22-aos2254
    Typ Journal Article
    Autor Butucea C
    Journal The Annals of Statistics
  • 2024
    Titel Efficiency in local differential privacy
    DOI 10.1214/24-aos2425
    Typ Journal Article
    Autor Steinberger L
    Journal The Annals of Statistics
  • 2024
    Titel Efficient Estimation of a Gaussian Mean with Local Differential Privacy
    DOI 10.48550/arxiv.2402.04840
    Typ Preprint
    Autor Kalinin N
    Link Publikation
  • 2023
    Titel Conditional predictive inference for stable algorithms
    DOI 10.1214/22-aos2250
    Typ Journal Article
    Autor Steinberger L
    Journal The Annals of Statistics

Entdecken, 
worauf es
ankommt.

Newsletter

FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

Kontakt

Österreichischer Wissenschaftsfonds FWF
Georg-Coch-Platz 2
(Eingang Wiesingerstraße 4)
1010 Wien

office(at)fwf.ac.at
+43 1 505 67 40

Allgemeines

  • Jobbörse
  • Arbeiten im FWF
  • Presse
  • Philanthropie
  • scilog
  • Geschäftsstelle
  • Social Media Directory
  • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
  • , externe URL, öffnet sich in einem neuen Fenster
  • Facebook, externe URL, öffnet sich in einem neuen Fenster
  • Instagram, externe URL, öffnet sich in einem neuen Fenster
  • YouTube, externe URL, öffnet sich in einem neuen Fenster
  • Cookies
  • Hinweisgeber:innensystem
  • Barrierefreiheitserklärung
  • Datenschutz
  • Impressum
  • IFG-Formular
  • Social Media Directory
  • © Österreichischer Wissenschaftsfonds FWF
© Österreichischer Wissenschaftsfonds FWF