Die Vermeidung von Hubness in Music Information Retrieval
Preventing Hubness in Music Information Retrieval
Wissenschaftsdisziplinen
Informatik (85%); Kunstwissenschaften (15%)
Keywords
-
Music Information Retrieval,
Artificial Intelligence,
Machine Learing,
Music,
Audio Signal Processing,
Information Retrieval
In einer Reihe von Veröffentlichungen ist unlängst das sogenannte "Hubness" Phänomen als ein generelles Problem des maschinellen Lernens in hochdimensionalen Datenräumen beschrieben worden. Hubs (in etwa "Drehkreuz") sind Datenpunkte die unerwünscht oft in den Nachbarschaftslisten sehr vieler anderer Datenpunkte auftreten. Dieser Effekt ist insbesondere für Algorithmen zur Ähnlichkeitssuche problematisch, da dieselben "ähnlichen" Objekte immer und immer wieder gefunden werden. Aber es gibt auch nachteilige Auswirkungen für die vielen Algorithmen des maschinellen Lernens die sich auf die Verwendung von Distanzinformation stützen. Es konnte gezeigt werden, dass dieser Effekt eine natürliche Konsequenz der hohen Dimensionalität ist und als solches ein weiterer Aspekt des sogenannten "Fluch der Dimensionen". Das Hub-Problem hat vor allem im Bereich des "Music Information Rterieval" (MIR) Aufmerksamkeit erregt. MIR ist eine interdisziplinäre Forschungsrichtung die sich mit Extraktion von Information aus Musik beschäftigt. In MIR wird das Hub-Problem vor allem im Zusammenhang mit automatischer Musikempfehlung basierend auf der Modellierung von Audioähnlichkeit studiert. Musikstücke, die als Hubs wirken, erscheinen als ähnlich zu sehr vielen anderen Musikstücken und verhindern dadurch die Empfehlung eines signifikanten Anteils des gesamten Audiokatalogs. Da aber die geeignete Modellierung von Audioähnlichkeit die zentrale Frage im bereich des MIR ist, stellt das Hub-Problem, das diesem Bemühen ja entscheidend zuwider läuft, eine wesentliche Herausforderung dar. Ähnliche Effekte existieren auch für andere Bereiche des Multimedia Retrieval und Empfehlung. Das wesentliche Ziel dieses Projekts ist die Durchführung einer umfassenden Studie des Hub-Problems im Kontext von MIR mit dem Ziel die nachteiligen Effekte zu vermeiden oder zumindest zu verbessern. Unsere Forschungen werden sich auf die folgenden drei Ansätze konzentrieren: - das Finden von Parametrisierungen der Audioähnlichkeit die nicht so anfällig sind für Hubness - die Transformation von Audioähnlichkeitsräumen zur Vermeidung von Asymmetrien die zu Hubness führen können - die Betrachtung von Audioähnlichkeitsräumen als "Nearest Neighbor"-Graphen und die Verwendung graphentheoretischer Resultate um Hub-Knoten zu vermeiden Obwohl der Schwerpunkt dieses Projekts im Bereich des MIR liegt, sind Ergebnisse in Bezug auf die Vermeidung von Hubs auch für das allgemeinere Feld des maschinellen Lernens von Interesse und Anwendbarkeit. Solche zusätzlichen Auswirkungen werden von uns in dem Projekt berücksichtigt werden und sicherstellen, dass unsere Forschungen das Potential haben ein wichtiges Problem im Bereich des MIR aber auch im gesamten Bereich des Multimedia Retrieval und des maschinellen Lernens zu lösen.
Das sogenannte Hubness Phänomen ist ein generelles Problem des maschinellen Lernens in hochdimensionalen Datenräumen. Hubs (in etwa Drehkreuz) sind Datenpunkte die unerwünscht oft in den Nachbarschaftslisten sehr vieler anderer Datenpunkte auftreten. Dieser Effekt ist insbesondere für Algorithmen zur Ähnlichkeitssuche problematisch, da dieselben ähnlichen Objekte immer und immer wieder gefunden werden. Aber es gibt auch nachteilige Auswirkungen für die vielen Algorithmen des maschinellen Lernens die sich auf die Verwendung von Distanzinformation stützen. Es konnte gezeigt werden, dass dieser Effekt eine natürliche Konsequenz der hohen Dimensionalität ist und als solches ein weiterer Aspekt des sogenannten Fluch der Dimensionen.Das Hub-Problem hat vor allem im Bereich des Music Information Retrieval (MIR) Aufmerksamkeit erregt. MIR ist eine interdisziplinäre Forschungsrichtung die sich mit Extraktion von Information aus Musik beschäftigt. In MIR wird das Hub-Problem vor allem im Zusammenhang mit automatischer Musikempfehlung basierend auf der Modellierung von Audioähnlichkeit studiert. Musikstücke, die als Hubs wirken, erscheinen als ähnlich zu sehr vielen anderen Musikstücken und verhindern dadurch die Empfehlung eines signifikanten Anteils des gesamten Audiokatalogs. Das wesentliche Ziel dieses Projekts war die Durchführung einer umfassenden Studie des Hub-Problems im Kontext von MIR. Wir haben drei Verfahren entwickelt, die die negativen Auswirkungen des Hub-Problems entscheidend reduzieren. Zwei Methoden reskalieren die problematischen hochdimensionalen Distanzräume entweder lokal oder global und resultieren in einem neuen transformierten Distanzraum, der die problematischen Auswirkungen des Hub-Problems nicht aufweist. Die dritte Methode wählt ein anderes Distanzmaß als die häufig verwendete Euklidische Distanz basierend auf einer Hubness-Analyse. In all diesen neuen Distanzräumen dominieren Musikstücke, die zuvor als Hubs gewirkt haben, nicht mehr die gesamten Empfehlungslisten und der komplette Audiokatalog ist wieder erreichbar. Diese Methoden wurden auch auf Standarddatensätzen des maschinellen Lernens und im Kontext von Text- und Bildretrieval, kollaborativem Filtern, Sprecher- und Spracherkennung evaluiert. In all diesen Anwendungsgebieten konnte die Hubness deutlich verringert werden und Performanzmaße wie z.B. Klassifikationsraten gesteigert werden. Durch die Ergebnisse dieses Projekts konnte nicht nur ein wichtiges Problem im Bereich des MIR sondern ein generelles Problem des Lernens in hochdimensionalen Räumen gelöst werden.
Research Output
- 187 Zitationen
- 14 Publikationen
-
2012
Titel A MIREX meta-analysis of hubness in audio music similarity. Typ Conference Proceeding Abstract Autor Flexer A Konferenz Proceedings of the 13th International Society for Music Information Retrieval Conference (ISMIR'12), Porto, Portugal, October 8th-12th -
2013
Titel Using mutual proximity for novelty detection in audio music similarity. Typ Conference Proceeding Abstract Autor Flexer A -
2014
Titel A Case for Hubness Removal in High–Dimensional Multimedia Retrieval DOI 10.1007/978-3-319-06028-6_77 Typ Book Chapter Autor Schnitzer D Verlag Springer Nature Seiten 687-692 -
2014
Titel Choosing the Metric in High-Dimensional Spaces Based on Hub Analysis. Typ Conference Proceeding Abstract Autor Flexer A Konferenz Proceedings of the 22nd European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning, 2014 -
2013
Titel Can Shared Nearest Neighbors Reduce Hubness in High-Dimensional Spaces? Typ Conference Proceeding Abstract Autor Flexer A -
2013
Titel Can Shared Nearest Neighbors Reduce Hubness in High-Dimensional Spaces? DOI 10.1109/icdmw.2013.101 Typ Conference Proceeding Abstract Autor Flexer A Seiten 460-467 -
2014
Titel Location-Aware Music Artist Recommendation DOI 10.1007/978-3-319-04117-9_19 Typ Book Chapter Autor Schedl M Verlag Springer Nature Seiten 205-213 -
2014
Titel Improving Neighborhood-Based Collaborative Filtering by Reducing Hubness DOI 10.1145/2578726.2578747 Typ Conference Proceeding Abstract Autor Knees P Seiten 161-168 -
2013
Titel The Relation of Hubs to the Doddington Zoo in Speaker Verification. Typ Conference Proceeding Abstract Autor Schlüter J Et Al Konferenz Proceedings of the 21st European Signal Processing Conference (EUSIPCO'2013), September 9-13, Marrakech, Morocco, 2013 -
2013
Titel Hybrid retrieval approaches to geospatial music recommendation DOI 10.1145/2484028.2484146 Typ Conference Proceeding Abstract Autor Schedl M Seiten 793-796 Link Publikation -
2013
Titel The neglected user in music information retrieval research DOI 10.1007/s10844-013-0247-6 Typ Journal Article Autor Schedl M Journal Journal of Intelligent Information Systems Seiten 523-539 Link Publikation -
2012
Titel Putting the User in the Center of Music Information Retrieval. Typ Conference Proceeding Abstract Autor Flexer A Konferenz Proceedings of the 13th International Society for Music Information Retrieval Conference (ISMIR'12), Porto, Portugal, October 8th-12th -
2014
Titel An investigation of likelihood normalization for robust ASR DOI 10.21437/interspeech.2014-149 Typ Conference Proceeding Abstract Autor Vincent E Seiten 621-625 Link Publikation -
2014
Titel An investigation of likelihood normalization for robust ASR. Typ Conference Proceeding Abstract Autor Flexer A Et Al