Hochdimensionale Datenanalyse im Music Information Retrieval
On High Dimensional Data Analysis in Music Information Retrieval
Wissenschaftsdisziplinen
Informatik (85%); Kunstwissenschaften (15%)
Keywords
-
Music Information Retrieval,
Artificial Intelligence,
Machine Learning,
Multimedia,
Hubness,
High Dimensional Data Analysis
Für das Lernen in hochdimensionalen Räumen existieren eine Reihe von Herausforderungen die unter dem Begriff curse of dimensionality zusammen gefasst werden. Das Music Information Retrieval (MIR), als die interdisziplinäre Wissenschaft der Informationsberechnung in Musik, arbeitet sehr oft mit hochdimensionalen Repräsentationen und Modellen. Ein neuer Aspekt des curse of dimensionality, die sogenannte Hubness, wurde zuerst im MIR dokumentiert und etabliert als ein Problem der Berechnung von Musikähnlichkeit. Hub-Musikstücke sind, entsprechend der Musikähnlichkeitsfunktion, ähnlich zu sehr vielen anderen Musikstücken und erscheinen daher in sehr vielen Empfehlungslisten und halten andere Musikstücke davon ab, selbst empfohlen zu werden. Das Phänomen der Hubness ist seitdem als generelles Problem des maschinellen Lernens in hochdimensionalen Räumen erkannt worden. Es ist eine Folge der Distanzkonzentration die bewirkt das alle Punkte in einem hochdimensionalen Raum fast gleich weit von allen anderen Punkten entfernt sind. Unsere bisherigen Forschungen haben sich auf die Auswirkungen der Distanzkonzentration und der Hubness auf Musikempfehlungen und Genreklassifikation basierend auf nearest neighbor-Methoden konzentriert. Als Resultat haben wir eine allgemeine Methode zur Vorverarbeitung und Reskalierung von Distanzräumen entwickelt, die die Hubness und ihre negativen Auswirkungen in Musikdatenbanken und allgemeinen Datensätzen entscheidend verringert. Unseren eigenen Forschungen und die anderer Teams haben es klar gemacht, dass Konzentration und Hubness Auswirkungen auf viele weitere, in hochdimensionaler Datenanalyse verwendete, distanzbasierte Methoden haben. Das hier vorgeschlagene Projekt wird existierende und noch zu entwickelnde Problemlösungsansätze erforschen indem eine grosse Anzahl von Methoden im MIR, Multimedia und maschinellem Lernen untersucht werden. Im Speziellen planen wir (i) die Untersuchung und Vereinheitlichung von Reskalierungsmethoden zur Vermeidung der Distanzkonzentration, (ii) die Erforschung der Rolle von Hubness im unüberwachten (Clustern, Visualisierung) und überwachten Lernen (Klassifikation) in hochdimensionalen Räumen. Der Fokus dieses Projektes ist auf MIR da in diesem Bereich die meisten Resultate hinsichtlich Hubness und Konzentration existieren. Aber die Evaluiering unserer Ergebnisse im grösseren Kontext von Multimedia und maschinellem Lernen wird sicherstellen, dass unsere Forschung nicht nur das Potential hat ein wichtiges Problem im Bereich des MIR sondern ein generelles Problem des Lernens in hochdimensionalen Räumen zu lösen.
Für das Lernen in hochdimensionalen Räumen existieren eine Reihe von Herausforderungen die unter dem Begriff curse of dimensionality zusammengefasst werden. Das Music Information Retrieval (MIR) ist die interdisziplinäre Wissenschaft der Informationsberechnung in Musik und arbeitet sehr oft mit hochdimensionalen Repräsentationen und Modellen. Ein neuer Aspekt des curse of dimensionality, die sogenannte Hubness, wurde zuerst im MIR dokumentiert und etabliert als ein Problem der Berechnungvon Musikähnlichkeit.Hub-Musikstücke sind, entsprechend der Musikähnlichkeitsfunktion, ähnlich zu sehr vielen anderen Musikstücken und erscheinen daher in sehr vielen Empfehlungslisten und halten andere Musikstücke davon ab, selbst empfohlen zu werden. Das Phänomen der Hubness ist seitdem als generelles Problem des Maschinenlernens in hochdimensionalen Räumen erkannt worden. Es ist eine Folge der Distanzkonzentration die bewirkt das alle Punkte in einem hochdimensionalen Raum fast gleich weit von allen anderen Punkten entfernt sind. In diesem Projekt haben wir eine Reihe von Methoden zur Vermeidung von Hubness entwickelt, studiert und vereinheitlicht. Im Wesentlichen sind das Reskalierung, Zentrierung und Verwendung alternativer Distanznormen. In einer groß angelegten Evaluierung haben wir alle zwölf vorhandenen Methoden zur Hubness Vermeidung auf fünfzig Datensätzen verglichen. Darauf basierend haben wir einen Arbeitsfluss für die praktische Hubnessanalyse entwickelt, der dabei hilft die richtige Methode zur Vermeidung von Hubness füür ein spezifisches Problem zu finden. Es weiteren haben wir die negativen Auswirkungen von Hubness auf Maschinenlernen (Clustern, Visualisierung, Erkennen von Ausreißern, Klassifikation) in hochdimensionalen Räumen untersucht. All diese distanz-basierten Algorithmen werden durch Hubness beeinträchtigt, was mittels Methoden zur Vermeidung von Hubness entscheidend verbessert werden kann. Zusammenfassend kann man sagen, dass wir im Zuge dieses Projekts neue Methoden der Hubnessreduktion entwickelt haben, geklärt haben welche dieser Methoden unter welchen Bedingungen am besten funktioniert und den Einfluss von Hubness auf die gesamte Bandbreite des Maschinenlernens dokumentiert haben. Dadurch konnten wir ein wichtiges Problem im MIR und gleichzeitig ein generelles Problem im Maschinenlernen in hochdimensionalen Räumen lösen.
- Emmanuel Vincent, INRIA Rennes - Frankreich
- Nenad Tomasev, Jozef Stefan Institute - Slowenien
Research Output
- 146 Zitationen
- 9 Publikationen
-
2018
Titel Hubness as a case of technical algorithmic bias in music recommendation DOI 10.1109/icdmw.2018.00154 Typ Conference Proceeding Abstract Autor Flexer A Seiten 1062-1069 -
2018
Titel A comprehensive empirical comparison of hubness reduction in high-dimensional spaces DOI 10.1007/s10115-018-1205-y Typ Journal Article Autor Feldbauer R Journal Knowledge and Information Systems Seiten 137-166 Link Publikation -
2015
Titel Choosing lp norms in high-dimensional spaces based on hub analysis DOI 10.1016/j.neucom.2014.11.084 Typ Journal Article Autor Flexer A Journal Neurocomputing Seiten 281-287 Link Publikation -
2017
Titel Mutual proximity graphs for improved reachability in music recommendation DOI 10.1080/09298215.2017.1354891 Typ Journal Article Autor Flexer A Journal Journal of New Music Research Seiten 17-28 Link Publikation -
2018
Titel Fast Approximate Hubness Reduction for Large High-Dimensional Data DOI 10.1109/icbk.2018.00055 Typ Conference Proceeding Abstract Autor Feldbauer* R Seiten 358-367 -
2016
Titel The Problem of Limited Inter-rater Agreement in Modelling Music Similarity DOI 10.1080/09298215.2016.1200631 Typ Journal Article Autor Flexer A Journal Journal of New Music Research Seiten 239-251 Link Publikation -
2016
Titel An Empirical Analysis of Hubness in Unsupervised Distance-Based Outlier Detection DOI 10.1109/icdmw.2016.0106 Typ Conference Proceeding Abstract Autor Flexer A Seiten 716-723 -
2016
Titel Centering Versus Scaling for Hubness Reduction DOI 10.1007/978-3-319-44778-0_21 Typ Book Chapter Autor Feldbauer R Verlag Springer Nature Seiten 175-183 -
2015
Titel The Unbalancing Effect of Hubs on K-Medoids Clustering in High-Dimensional Spaces DOI 10.1109/ijcnn.2015.7280303 Typ Conference Proceeding Abstract Autor Schnitzer D Seiten 1-8