Visuelle Analyse Heterogener Daten mit Semantischen Subsets
Visual Analysis of Heterogeneous Data using Semantic Subsets
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
-
Visualization,
Visual Analytics,
Human Computer Interaction,
Human Computer Interaction,
Genetics,
Information Visualization
Die Analyse sehr großer und heterogener Datensätze ist ein fundamentales Problem dem Forscher in vielen wissenschaftlichen Domänen gegenüberstehen. In Bereichen wie zum Beispiel Astronomie, Physik und Biologie müssen Datensätze von nie dagewesener Größe und Komplexität untersucht werden. Obwohl die Analyse solcher Datensätze herausfordernd ist, haben sie auch das Potential unser Wissen über die zugrundeliegenden Prozesse zu revolutionieren. Um jedoch dieses Potential nutzen zu können bedarf es neuartiger Ansätze in allen Bereichen der Datenanalyse. In diesem Antrag für ein Erwin Schrödinger Stipendium führe ich Semantic Subsets als neue Technik für die visuelle Analyse von mehreren großen und heterogenen Datensätzen ein. Ich schlage vor, unter anderem durch den Einsatz von maschinellem Lernen und Statistik, Datensätze zunächst in sinnvolle Teilmengen zu zerlegen, um danach Visualisierungsmethoden zu nutzen um Experten bei der Auswahl der für die Aufgabe relevanter Subsets zu unterstützen. Diese Subsets, sowie die Beziehungen zwischen den Subsets werden dann visualisiert, was eine offene, explorative Analyse ermöglicht. Die zentralen Forschungsfragen die in diesem Antrag behandelt werden beschäftigen sich mit Methoden um effizient und effektiv passende Subsets zu finden, sie zu verwalten und die Beziehungen zwischen ihnen darzustellen. Ich behaupte, dass dieser Ansatz geeignet ist die Herausforderungen, welche die Analyse mehrerer großer Datensätze mit sich bringt, zu adressieren, da der Ansatz einerseits gut skaliert und andererseits auf natürliche Art mehrere Datensätze integriert. Ich plane Prototypen, die das Semantic Subsets Konzept umsetzen, für die Analyse biomolekularer Daten im Zuge von Design Studien zu entwickeln. Diese Prototypen werden aus einem benutzerzentrierten Entwicklungsprozess heraus entstehen, was enge Zusammenarbeit mit Fachexperten notwendig macht. Die Anwendungen werden auf die Datenanalyseprobleme der Experten zugeschnitten sein und sie im wissenschaftlichen Erkenntnisprozess unterstützen. Die formale Evaluierung der Anwendbarkeit der Methode wird mithilfe von Fallstudien, die auf langfristigen Beobachtungen der entwickelten Applikationen basieren, vorgenommen. Außerdem werden kontrollierte Benutzerstudien durchgeführt. Ich plane, diese Forschung in der Visual Computing Group an der Harvard University, welche von Professor Hanspeter Pfister geleitet wird, durchzuführen. Professor Pfister und seine Arbeitsgruppe haben weitreichende Erfahrung mit der Entwicklung von Visualisierungsmethoden für die molekulare Biologie. Zusätzlich bietet Boston und Umgebung Zugang zu zahlreichen hochkarätigen Forschungseinrichtungen im Bereich der molekularen Biologie, wie zum Beispiel der Harvard Medical School und dem Broad Institute of MIT and Harvard, zu welchen Professor Pfister und ich Beziehungen pflegen. Diese Umgebung ist daher besonders geeignet für die vorgeschlagene Art der Forschung. Im Zuge der geplanten Rückkehrphase am Institut für Maschinelles Sehen und Darstellen an der Technischen Universität Graz werde ich nicht nur die Möglichkeit haben mein gewonnenes Wissen meinen Kollegen und Studenten weiterzugeben, sondern auch Professor Schmalstieg dabei unterstützen können seine Forschungsgruppe im Bereich der Visualisierung auszubauen, um damit den Forschungsschwerpunkt Visualisierung in Österreich zu stärken.
In diesem Projekt untersuchten wir wie das Semantic Subsets Konzept auf große und komplexe Daten angewandt werden kann. Semantic Subsets sind eine Methode die kleinere Teilmengen eines größeren Datensatzes visualisiert, anstatt eine globale Übersicht über alle Daten zu bieten. Der Vorteil dieses Ansatzes ist, dass er auch für große und komplexe Datensätze anwendbar ist. Die Herausforderung ist die initiale Identifizierung von interessanten Teilmengen und die Auswahl von relevanten Teilmengen in deren Kontext. Um diesen Herausforderungen zu begegnen, entwickelten wir Methoden die Benutzer auf eine intelligente Führung durch den Datensatz schicken. Methoden zur Identifizierung interessanter Subsets. Wir entwickelten zwei Techniken um Subsets zu definieren und zu reihen. Zunächst entwarfen wir eine Methode um Ranglisten aus multivariate Datensätzen abzuleiten. Reihungen sind ein Ansatz um komplexe Entitäten nach Wichtigkeit zu sortieren. Die komplexe Natur der Entitäten macht es jedoch unmöglich eine generelle und objektive Reihungsfunktion zu entwickeln. Unser Ansatz basiert daher auf dynamischen Eingaben der Benutzer um die Gewichte einzelner Attribute festzulegen. Eine weitere Technik beschäftigt sich mit dem definieren von Subsets basieren auf Setattributen. Komplexe Attributkombinationen können dabei verwendet werden um einen Datensatz beliebig zu zerschneiden. Methoden zur Visualisierung und Exploration von Subsets. Im Zuge des Projekts haben wir verschiedene Techniken zur gemeinsamen Visualisierung multipler Subsets entwickelt. Wir unterscheiden Techniken für zwei fundamentalen Datentypen: Tabellen und Graphen. Für Tabellen entwickelten wir Methoden die Nutzer Subsets dynamisch auswählen und auf dem Bildschirm platzieren lassen. Zusätzlich können Nutzer passende Visualisierungstechniken dynamisch definieren und die Visualisierung der Beziehung zwischen Subsets beeinflussen. Wir führten eine formale Klassifizierung von Beziehungen zwischen Subsets ein die auf inhärenten Beziehungen zwischen Subsets und einer gewünschten Stärke der Beziehung basiert. Eine Realisierung dieses Konzepts wird zum Beispiel nun in der Analyse von Krebssubtypen angewandt. Fuer Graphen entwickelten wir Methoden die einen Focus+Context Ansatz verfolgen. Ein Subset des Graphen ist im Fokus und das System sucht automatisch andere relevante Subsets. Weiters werden für ausgewählte Pfade in den Graphen multivariate Daten angezeigt. Diese Techniken werden nun, zum Beispiel, in der Analyse von Zelllinien eingesetzt um zu verstehen warum bestimmte Zelllinien auf ein Medikament reagieren und andere nicht.
- Harvard University - 100%
Research Output
- 2353 Zitationen
- 14 Publikationen
-
2013
Titel LineUp: Visual Analysis of Multi-Attribute Rankings DOI 10.1109/tvcg.2013.173 Typ Journal Article Autor Gratzl S Journal IEEE Transactions on Visualization and Computer Graphics Seiten 2277-2286 Link Publikation -
2013
Titel Entourage: Visualizing Relationships between Biological Pathways using Contextual Subsets DOI 10.1109/tvcg.2013.154 Typ Journal Article Autor Lex A Journal IEEE Transactions on Visualization and Computer Graphics Seiten 2536-2545 Link Publikation -
2015
Titel Vials: Visualizing Alternative Splicing of Genes DOI 10.1109/tvcg.2015.2467911 Typ Journal Article Autor Strobelt H Journal IEEE Transactions on Visualization and Computer Graphics Seiten 399-408 Link Publikation -
2014
Titel Show me the invisible DOI 10.1145/2556288.2557032 Typ Conference Proceeding Abstract Autor Geymayer T Seiten 3705-3714 Link Publikation -
2013
Titel enRoute: dynamic path extraction from biological pathway maps for exploring heterogeneous experimental datasets DOI 10.1186/1471-2105-14-s19-s3 Typ Journal Article Autor Partl C Journal BMC Bioinformatics Link Publikation -
2014
Titel Domino: Extracting, Comparing, and Manipulating Subsets Across Multiple Tabular Datasets DOI 10.1109/tvcg.2014.2346260 Typ Journal Article Autor Gratzl S Journal IEEE Transactions on Visualization and Computer Graphics Seiten 2023-2032 Link Publikation -
2014
Titel Show me the invisible: visualizing hidden Content. CHI '14 Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. Typ Conference Proceeding Abstract Autor Geymayer T Konferenz CHI 2014 -
2014
Titel Guided visual exploration of genomic stratifications in cancer DOI 10.1038/nmeth.3088 Typ Journal Article Autor Streit M Journal Nature Methods Seiten 884-885 Link Publikation -
2014
Titel ConTour: Data-Driven Exploration of Multi-Relational Datasets for Drug Discovery DOI 10.1109/tvcg.2014.2346752 Typ Journal Article Autor Partl C Journal IEEE Transactions on Visualization and Computer Graphics Seiten 1883-1892 Link Publikation -
2015
Titel OceanPaths: Visualizing Multivariate Oceanography Data. Typ Conference Proceeding Abstract Autor Lex A Konferenz Proceedings of the Eurographics Conference on Visualization (EuroVis '15) -
2014
Titel Characterizing Cancer Subtypes Using Dual Analysis in Caleydo StratomeX DOI 10.1109/mcg.2014.1 Typ Journal Article Autor Turkay C Journal IEEE Computer Graphics and Applications Seiten 38-47 Link Publikation -
2014
Titel Sets and intersections DOI 10.1038/nmeth.3033 Typ Journal Article Autor Lex A Journal Nature Methods Seiten 779-779 Link Publikation -
2014
Titel UpSet: Visualization of Intersecting Sets DOI 10.1109/tvcg.2014.2346248 Typ Journal Article Autor Lex A Journal IEEE Transactions on Visualization and Computer Graphics Seiten 1983-1992 Link Publikation -
2014
Titel Mu-8: visualizing differences between proteins and their families DOI 10.1186/1753-6561-8-s2-s5 Typ Journal Article Autor Mercer J Journal BMC Proceedings Link Publikation