Klassifikation - Vorverarbeitete und hochdimensionale Daten
Classification – Preprocessed and high-dimensional data sets
DFG-Forschungsgruppen
Wissenschaftsdisziplinen
Informatik (50%); Mathematik (50%)
Keywords
-
Classification,
Differential Privacy,
High-Dimensional Data,
Imbalanced Data
In diesem Projekt sollen sogenannte Klassifikationsverfahren" entwickelt und mathematisch untersucht werden, welche verschiedenen neuen Herausforderungen in der modernen Datenverarbeitung gerecht werden. Ein Klassifikationsverfahren ist ein genau definierter Algorithmus der ein Objekt, aufgrund von dessen Eigenschaften, einer von mehreren möglichen Klassen zuordnet. Diese Objekte können beispielsweise Personen sein, die aufgrund der Ergebnisse von medizinischen Untersuchungen entweder der Klasse gesund oder der Klasse krank zugeordnet werden. Ein weiteres Beispiel wäre etwa die automatische Zuordnung von Musikstücken in Klassen wie Rock, Country, Klassik, etc. Für derartige Klassifikationsprobleme existieren natürlich heutzutage zahlreiche statistische Methoden, die in ihrem jeweiligen Anwendungsbereich auch sehr gute, bzw. sogar in einem gewissen Sinne optimale, Resultate liefern. Jedoch stellen viele moderne Klassifikationsprobleme, wie etwa die oben genannten, besondere Herausforderungen für die Datenanalyse dar, denen traditionelle Verfahren oft nicht mehr gerecht werden. Das Projekt beschäftigt sich speziell mit zwei dieser neuen Herausforderungen. Zum einen sollen Klassifikationsverfahren entwickelt werden, für die, aufgrund von Datenschutzüberlegungen, nicht die Originaldaten zur Verfügung stehen, sondern lediglich geeignet anonymisierte Daten. Die Originaldaten zum Beispiel sensible Patientendaten im medizinischen Bereich müssen also zuerst vorverarbeitet werden um die Anonymität der Patienten sicherzustellen. Das im Anschluss zur Anwendung kommende diagnostische Klassifikationsverfahren muss diesen Anonymisierungsschritt dann in geeigneter Weise berücksichtigen um die zu erwartende Anzahl möglicher Fehlklassifikationen zu minimieren. Eine weitere Herausforderung bei modernen Klassifikationsproblemen ist die große Menge an vorhandenen Daten. Zwar gilt der Grundsatz je mehr Informationen über das zu klassifizierende Objekt vorhanden sind, desto besser, aber es ist keinesfalls immer klar wie aus der vorhandenen Flut von Daten diejenigen Informationen extrahiert werden sollen, die eine sichere Zuordnung zu einer der möglichen Klassen gewährleisten. Dies wird etwa an dem genannten Beispiel der Klassifikation von Musikstücken deutlich, wo die vorhandene Information aus Sicht des Computers als Millionen von Nullen und Einsen gegeben ist. Klassifikationsverfahren für derartig große Datenmengen sind zusätzlich mit dem Problem konfrontiert, dass die Verarbeitung der Daten mit beträchtlichem Zeitaufwand verbunden ist. Herkömmliche Verfahren würden also zu viel Zeit benötigen um eine Klassifikation zu erzeugen, weshalb in diesem Projekt rechentechnisch effizientere, approximative Verfahren entwickelt und untersucht werden sollen.
Ziel dieses Projektes war es, sogenannte "Klassifikationsverfahren" zu entwickelt und mathematisch zu untersuchen, welche verschiedenen neuen Herausforderungen in der modernen Datenverarbeitung gerecht werden. Dabei ist ein "Klassifikationsverfahren" ein genau definierter Algorithmus der ein Objekt, aufgrund von dessen Eigenschaften, einer von mehreren möglichen Klassen zuordnet. Diese Objekte können beispielsweise Personen sein, die aufgrund der Ergebnisse von medizinischen Untersuchungen entweder der Klasse "gesund" oder der Klasse "krank" zugeordnet werden. Ein weiteres Beispiel wäre etwa die automatische Zuordnung von Musikstücken in Klassen wie "Rock", "Country", "Klassik", etc. Zwei dieser Herausforderungen in der Klassifikation, die heutzutage von großem Interesse sind, betreffen einerseits den Schutz der Privatsphäre der Dateneigentümer (wie im Beispiel der Patientendaten) und andererseits den enormen Zeitaufwand bei der Berechnung der Klassifikationsentscheidung aufgrund der Komplexität und hohen Dimensionalität der Daten (wie im Bespiel der Musikstücke). Im Projektverlauf stellte sich jedoch bald heraus, dass für die Entwicklung von geeigneten Klassifikationsmethoden der mathematisch einfacherer Fall von Regressionsmethoden zuerst behandelt werden muss, da es auch auf diesem Gebiet noch keine für unsere Ziele hinreichenden Vorarbeiten gab. Daher konzentrierte sich die eigentlich Projektarbeit auf die Entwicklung von Regressionsmethoden unter Berücksichtigung der Preobleme von Datenschutz und Berechenbarkeit bei hoher Dimensionalität. Für das Problem der Datenverarbeitung unter Schutz der Privatsphäre gelang es uns, unter Verwendung des zunehmend populären Konzeptes von Differential Privacy, eine umfassende statistische Theorie optimaler Schätzverfahren zu entwickeln, und auch numerische Methoden für deren praktische Berechnung mitzuliefern. Die Idee von Differential Privacy ist es, anstatt möglicherweise sensiblen Originaldaten weiterzugeben oder zu veröffentlich, diese Daten zuerst durch einen geeigneten Zufallsmechanismus so abzuändern, dass sie zwar die Aussagekraft über den betreffenden Dateneigentümer verlieren, aber in ihrer Gesamtheit noch Rückschlüsse über die Population erlauben. Hier gelang es uns, den nach dem starken Kriterium der statistischen Effizienz optimalen Zufallsmechanismus zu identifizieren und einen Algorithmus für dessen praktische Ausführung zu entwickeln. Für das Problem der zeitaufwändigen Berechnung von Regressionsmethoden bei hoher Datendimension gelang es uns, durch geringfügige Abänderung des populären Gradientenverfahrens, einen Algorithmus zu entwickeln, von dem sich mathematisch zeigen lässt, dass er nicht nur schneller ausführbar ist als die bekannten Standardverfahren der Statistik, sondern auch in einem starken Sinn die bestmöglichen Vorhersagen liefert. In einem Folgeprojekt sollen die gewonnen Erkenntnisse und entwickelten Methoden dann auf den Klassifikationsfall erweitert werden.
- Universität Wien - 100%
- Angelika Rohde, Universität Freiburg - Deutschland
- Cristina Butucea, ENSAE - Frankreich
Research Output
- 11 Zitationen
- 8 Publikationen
-
2025
Titel Comparing regularisation paths of (conjugate) gradient estimators in ridge regression DOI 10.48550/arxiv.2503.05542 Typ Preprint Autor Hucker L Link Publikation -
2025
Titel Implicit vs. explicit regularization for high-dimensional gradient descent DOI 10.48550/arxiv.2502.10578 Typ Preprint Autor Stark T Link Publikation -
2025
Titel Robust signal recovery in Hadamard spaces DOI 10.1016/j.jmva.2025.105469 Typ Journal Article Autor Köstenberger G Journal Journal of Multivariate Analysis Seiten 105469 Link Publikation -
2023
Titel Uncertainty quantification via cross-validation and its variants under algorithmic stability DOI 10.48550/arxiv.2312.14596 Typ Preprint Autor Amann N Link Publikation -
2023
Titel Interactive versus noninteractive locally differentially private estimation: Two elbows for the quadratic functional DOI 10.1214/22-aos2254 Typ Journal Article Autor Butucea C Journal The Annals of Statistics -
2024
Titel Efficiency in local differential privacy DOI 10.1214/24-aos2425 Typ Journal Article Autor Steinberger L Journal The Annals of Statistics -
2024
Titel Efficient Estimation of a Gaussian Mean with Local Differential Privacy DOI 10.48550/arxiv.2402.04840 Typ Preprint Autor Kalinin N Link Publikation -
2023
Titel Conditional predictive inference for stable algorithms DOI 10.1214/22-aos2250 Typ Journal Article Autor Steinberger L Journal The Annals of Statistics