Hochdimensionale Daten in der Diskriminanzanalyse
High-dimensional data sets in discriminant analysis
DFG-Forschungsgruppen
Wissenschaftsdisziplinen
Informatik (20%); Mathematik (80%)
Keywords
- Discriminant Analysis,
- High-Dimension,
- Regularization,
- Gradient Descent
Trotz des beispiellosen Erfolges moderner künstlicher Intelligenz sind die genauen Gründe für die Effektivität dieser komplexen Verfahren bei weitem nicht vollständig geklärt. Angesichts der starken Verbreitung und Anwendung von KI ist ein systematisches Verständnis der Stärken, Schwächen und der Sicherheit dieser Technologien jedoch von großem gesellschaftlichem Interesse. Ziel dieses Projektes ist es, einen bestimmten Typ von KI, nämlich die sogenannten Klassifikationsalgorithmen, hinsichtlich ihrer statistischen Zuverlässigkeit und ihrer rechentechnischen Umsetzbarkeit mathematisch exakt zu beschreiben und zu analysieren. Zusätzlich sollen statistische Methoden entwickelt werden, die den Schutz der individuellen Privatsphäre bei Anwendung derartiger Algorithmen sicherstellen. Ein Klassifikationsalgorithmus ist ein Berechnungsverfahren, das in der Lage ist, digitalisierte Beobachtungseinheiten (z.B. Patienten eines Krankenhauses, Texte, Videos, etc.) einer geeigneten Klasse (z.B. Gesund oder Krank, Spam oder Email, Filmgenre, etc.) zuzuordnen. Moderne Klassifikationsprobleme sind dabei vor allem durch ihre hohe Dimensionalität gekennzeichnet. Das bedeutet, dass die Beobachtungseinheiten sehr komplexe digitale Objekte wie eben Bilder oder Videos, sein können und, dass die zur Anwendung kommenden Algorithmen selbst durch eine Vielzahl von freien Parametern charakterisiert sind. Diese enorme Komplexität ist sehr schwer mathematisch exakt abzubilden und zu analysieren, weshalb wir uns in diesem Projekt zunächst auf eine spezielle Form von hochdimensionalem Klassifikationsalgorithmus konzentrieren, nämlich auf die sogenannte lineare Diskriminanzanalyse. Wird die Dimension jedoch zu hoch, so tritt das Problem der Interpolation auf, in dem jeder vorhandene Datenpunkt fehlerlos seiner Klasse zugeordnet wird. Wir interessieren uns für die Prognosequalität eines interpolierenden Klassifikators. Die klassische statistische Theorie besagt, dass diese eher unzureichend sein wird und empfiehlt stattdessen den Ansatz der sogenannten l2-Regularisierung zur Stabilisierung. Ob dieser Ansatz jedoch auch im hochdimensionalen Fall effektiv ist und wie die rechentechnische Umsetzung effizient gestaltet werden kann ist weitestgehend unbekannt. Hierfür sollen methodisch neue Ansätze basierend auf dem sogenannten Gradientenverfahren entwickelt und auf ihre statistische Genauigkeit hin untersucht werden. Für das eingangs erwähnte Problem des Datenschutzes ist vor allem das viel diskutierte statistische Paradigma von Differential Privacy (DP) in Betracht zu ziehen. Speziell die jüngste Entwicklung von f-DP liefert intuitiv interpretierbare Aussagen zur Art des Schutzes, der gewährleistet werden kann. Jedoch ist weitestgehend unklar, wie man aus der gewaltigen Vielzahl von möglichen Randomisierungsstrategien eine geeignete auswählt. In diesem Projekt soll untersucht werden, inwiefern sich bestehende Methoden auf höhere Dimensionen und auf f-DP erweitern lassen.
- Universität Wien - 100%
- Angelika Rohde, Universität Freiburg - Deutschland, Projektpartner:in