Über valide und zuverlässige Experimente im Musik IR
On Valid and Reliable Experiments in Music IR
Wissenschaftsdisziplinen
Andere Geisteswissenschaften (15%); Informatik (70%); Kunstwissenschaften (15%)
Keywords
-
Algorithmic Fairness,
Annotation,
Music Information Retrieval,
Evaluation,
Machine Learning,
Hubness
Jede experimentelle Wissenschaft basiert auf validen und zuverlässigen Experimenten, d.h. auf Experimenten die tatsächlich messen, was untersucht werden soll und auf Experimenten die wiederholbar sind. Music Information Retrieval (MIR), als interdisziplinäre Wissenschaft der Informationsgewinnung aus Musik, führt Experimente durch mit Hilfe von Methoden des maschinellen Lernens, der Statistik, der Signalverarbeitung, der Artificial Intelligence, usw. Es baut auf die korrekte Evaluierung all dieser Methoden um den Erfolg neuer Algorithmen zu messen oder, allgemeiner gesprochen, um den Fortschritt des gesamten Feldes zu verfolgen. Die prinzipielle Rolle von Computerexperimenten und ihre statistische Evaluierung ist bereits weithin akzeptiert im Bereich des MIR, aber die fundamentaleren Begriffe der Validität und der Reliabilität wurden bis jetzt kaum diskutiert. Dieser Mangel an Bewusstsein für valide und zuverlässige Experimente im MIR ist ursächlich verantwortlich für eine Reihe überraschender Phänomene in der jüngsten MIR Forschung. Unmerkbar veränderte Daten, so genannte ``gegnerische Beispiele, sind in der Lage den Erfolg von MIR Systemen auf dem letzten Stand der Technik wesentlich zu beeinträchtigen. In diesem Zusammenhang wird sogar davon gesprochen, dass solche leicht zu verwirrenden Systeme augenscheinlich gar kein musikalisches Wissen verwenden. Des weiteren wurde erkannt, dass ein Mangel der Übereinstimmung von Annotatoren beim Kennzeichnen von Musikdaten es bedingt, dass der Erfolg von MIR Systemen einen bestimmten Grad nie überschreiten kann, da es nicht sinnvoll ist wenn ein Algorithmus lediglich einen bestimmten Annotator modelliert. Durch Probleme des Lernens in hoch dimensionalen Räumen bekommen Algorithmen eine Befangenheit, die sich dadurch bemerkbar macht, dass bestimmte Datenobjekte künstlich nahe zu sehr vielen anderen erscheinen. Das ist ein wesentliches Problem für die automatische Musikempfehlung, da deswegen manche Musikstücke immer wieder empfohlen werden, egal ob sie passen oder nicht. Dieses Projekt soll dazu beitragen, dass all diese Probleme als das erkannt werden was sie in Wirklichkeit sind: Probleme der Validität und der Reliabilität in MIR Experimenten. Wir werden daher eine Theorie für valide und zuverlässige Experimente im MIR erstellen und, darauf basierend, den Stand der Technik im Hinblick auf ``gegnerische Beispiele, der Übereinstimmung von Annotatoren und hinsichtlich algorithmischer Befangenheit verbessern.
Über valide und zuverlässige Experimente im Music Information Retrieval (MIR) Jede experimentelle Wissenschaft basiert auf der Vorstellung valider und zuverlässiger Experimente. Validität ist der Wahrheitswert einer Schlussfolgerung, der aus Beweisen, wie z. B. in einem Experiment gesammelten Daten, gezogen wird, während zuverlässige Experimente Experimente sind, die wiederholbare Ergebnisse liefern. MIR, als interdisziplinäre Wissenschaft zur Gewinnung von Informationen aus Musik, führt Experimente mit einer Vielzahl von Methoden aus maschinellem Lernen, Statistik, Signalverarbeitung, künstlicher Intelligenz usw. durch. Um den Erfolg neuer Algorithmen zu messen, oder, allgemeiner ausgedrückt, um den Fortschritt des gesamten MIR-Bereichs darzustellen, ist die ordnungsgemäße Bewertung all dieser Methoden erforderlich. Zu Beginn dieses Projekts war die wichtige Rolle von Computerexperimenten innerhalb von MIR bereits allgemein akzeptiert und verstanden, aber die grundlegenderen Vorstellungen von Validität und Zuverlässigkeit in MIR-Experimenten bedurften noch einer gründlichen Diskussion und Klärung. Dies wurde deutlich, als wir eine Reihe scheinbar rätselhafter Phänomene in der MIR-Forschung untersuchten und ihre wahre Natur verstanden - es handelt sich um Probleme der Validität und Zuverlässigkeit: (i) geringfügig und unmerklich veränderte Daten, sogenannte kontradiktorische Beispiele, können die Leistung modernster MIR-Systeme drastisch reduzieren (mangelnde Konstruktvalidität und Zuverlässigkeit); (ii) aufgrund der geringen Interrater-Übereinstimmung bei der Annotation von Ground-Truth-Trainingsdaten für MIR-Systeme kann die Leistung bei vielen MIR-Aufgaben niemals eine bestimmte gläserne Decke überschreiten, da eine perfekte Leistung nur für einzelne Annotatoren und niemals für eine Gruppe von Benutzern erreicht werden kann die uneinig sind (mangelnde externe Validität und Zuverlässigkeit); (iii) ein wichtiges Problem der algorithmischen Befangenheit ("Bias") sind Lernschwierigkeiten in hochdimensionalen Räumen, in denen einige Datenobjekte als "Hubs" fungieren und sich ungewöhnlich nahe an vielen anderen Datenobjekten befinden, was zu unfairen Musikempfehlungen führt, da Hub-Songs immer wieder empfohlen werden (fehlende interne Validität). In unserem Projekt konnten wir den Stand der Technik in Bezug auf kontradiktorische Beispiele, Interrater-Übereinstimmung und algorithmische Befangenheit vorantreiben, indem wir beispielhaft valide und zuverlässige MIR-Experimente durchführten. Unser wichtigstes Hauptergebnis ist ein Bericht und ein theoretischer Rahmen, in dem erörtert wird, was ein valides und zuverlässiges MIR-Experiment überhaupt ist. Um dies zu erreichen, haben wir vier Haupttypen der Validität veranschaulicht und die Bedrohungen, die während der Experimente auftreten, für jeden Typ erörtert. Unsere Diskussion basierte auf einem prototypischen MIR-Experiment zur Musikklassifizierung. Wir haben MIR-Praktikern auch konkrete Anleitungen gegeben, wie sie aus den in ihren Experimenten gesammelten Daten valide Schlussfolgerungen ziehen können. All dies zusammen zielte darauf ab, für den Bereich von MIR zu klären, was Validität bedeutet, warum sie wichtig ist und wie sie bedroht werden kann.
- Universität Linz - 100%
- Julián Urbano, Delft University of Technology - Niederlande
- Bob L. Sturm, KTH Royal Institute of Technology - Schweden
Research Output
- 66 Zitationen
- 31 Publikationen
- 3 Disseminationen
- 1 Weitere Förderungen
-
2020
Titel End-to-End Adversarial White Box Attacks on Music Instrument Classification Typ Other Autor Flexer A. Link Publikation -
2020
Titel The Impact of Label Noise on a Music Tagger Typ Conference Proceeding Abstract Autor Flexer A. Konferenz Proceedings of the 13th International Workshop on Machine Learning and Music Link Publikation -
2022
Titel Concept-Based Techniques for "Musicologist-Friendly" Explanations in Deep Music Classifiers DOI 10.5281/zenodo.7316804 Typ Conference Proceeding Abstract Autor Foscarin F Link Publikation -
2022
Titel Concept-Based Techniques for "Musicologist-Friendly" Explanations in Deep Music Classifiers DOI 10.5281/zenodo.7316803 Typ Conference Proceeding Abstract Autor Foscarin F Link Publikation -
2022
Titel Defending a Music Recommender Against Hubness-Based Adversarial Attacks DOI 10.5281/zenodo.6573391 Typ Conference Proceeding Abstract Autor Flexer A Link Publikation -
2022
Titel Defending a Music Recommender Against Hubness-Based Adversarial Attacks DOI 10.5281/zenodo.6798200 Typ Conference Proceeding Abstract Autor Flexer A Link Publikation -
2022
Titel Concept-Based Techniques for "Musicologist-friendly" Explanations in a Deep Music Classifier Typ Conference Proceeding Abstract Autor Foscarin F. Konferenz Proceedings of the 23rd International Society for Music Information Retrieval Conference Link Publikation -
2022
Titel Defending a Music Recommender Against Hubness-Based Adversarial Attacks Typ Conference Proceeding Abstract Autor Flexer A. Konferenz Proceedings of the 19th Sound and Music Computing Conference Link Publikation -
2021
Titel On the Veracity of Local, Model-agnostic Explanations in Audio Classification: Targeted Investigations with Adversarial Examples DOI 10.5281/zenodo.5624470 Typ Conference Proceeding Abstract Autor Praher V Link Publikation -
2021
Titel On the Veracity of Local, Model-agnostic Explanations in Audio Classification: Targeted Investigations with Adversarial Examples DOI 10.5281/zenodo.5624471 Typ Conference Proceeding Abstract Autor Praher V Link Publikation -
2021
Titel On the Veracity of Local, Model-agnostic Explanations in Audio Classification: Targeted Investigations with Adversarial Examples Typ Conference Proceeding Abstract Autor Praher V. Konferenz Proceedings of the 22nd International Society for Music Information Retrieval Conference Link Publikation -
2020
Titel DeepNOG: fast and accurate protein orthologous group assignment DOI 10.1093/bioinformatics/btaa1051 Typ Journal Article Autor Feldbauer R Journal Bioinformatics Seiten 5304-5312 Link Publikation -
2019
Titel scikit-hubness: Hubness Reduction and Approximate Neighbor Search DOI 10.48550/arxiv.1912.00706 Typ Preprint Autor Feldbauer R -
2023
Titel Validity in Music Information Research Experiments Typ Other Autor Flexer A. Link Publikation -
2022
Titel Defending a Music Recommender Against Hubness-Based Adversarial Attacks DOI 10.5281/zenodo.6573390 Typ Conference Proceeding Abstract Autor Flexer A Link Publikation -
2023
Titel A Review of Validity and its Relationship to Music Information Research Typ Conference Proceeding Abstract Autor Flexer A Konferenz 24th International Society for Music Information Retrieval Conference Link Publikation -
2021
Titel On Evaluation of Inter- and Intra-Rater Agreement in Music Recommendation DOI 10.5334/tismir.107 Typ Journal Article Autor Flexer A Journal Transactions of the International Society for Music Information Retrieval Seiten 182 Link Publikation -
2021
Titel On End-to-End White-Box Adversarial Attacks in Music Information Retrieval DOI 10.5334/tismir.85 Typ Journal Article Autor Prinz K Journal Transactions of the International Society for Music Information Retrieval Seiten 93 Link Publikation -
2021
Titel On the Veracity of Local, Model-agnostic Explanations in Audio Classification: Targeted Investigations with Adversarial Examples DOI 10.48550/arxiv.2107.09045 Typ Preprint Autor Praher V -
2020
Titel scikit-hubness: Hubness Reduction and Approximate Neighbor Search DOI 10.21105/joss.01957 Typ Journal Article Autor Feldbauer R Journal Journal of Open Source Software Seiten 1957 Link Publikation -
2022
Titel Defending a Music Recommender Against Hubness-Based Adversarial Attacks DOI 10.48550/arxiv.2205.12032 Typ Preprint Autor Hoedt K -
2023
Titel A Review of Validity and Its Relationship to Music Information Research DOI 10.5281/zenodo.10265218 Typ Conference Proceeding Abstract Autor Arthur Flexer Link Publikation -
2023
Titel A Review of Validity and Its Relationship to Music Information Research DOI 10.5281/zenodo.10265219 Typ Conference Proceeding Abstract Autor Arthur Flexer Link Publikation -
2023
Titel Validity in Music Information Research Experiments DOI 10.48550/arxiv.2301.01578 Typ Preprint Autor Sturm B -
2019
Titel Weak Multi-Label Audio-Tagging with Class Noise Typ Other Autor Flexer A. Link Publikation -
2019
Titel Audio Tagging With Convolutional Neural Networks Trained With Noisy Data Typ Other Autor Paischer F. Link Publikation -
2019
Titel Can We Increase Inter- and Intra-Rater Agreement in Modeling General Music Similarity? Typ Conference Proceeding Abstract Autor Flexer A. Konferenz Proceedings of 20th International Society for Music Information Retrieval Conference Link Publikation -
2022
Titel Constructing adversarial examples to investigate the plausibility of explanations in deep audio and image classifiers DOI 10.1007/s00521-022-07918-7 Typ Journal Article Autor Hoedt K Journal Neural Computing and Applications Seiten 10011-10029 Link Publikation -
2022
Titel Concept-Based Techniques for "Musicologist-friendly" Explanations in a Deep Music Classifier DOI 10.48550/arxiv.2208.12485 Typ Preprint Autor Foscarin F -
2020
Titel End-to-End Adversarial White Box Attacks on Music Instrument Classification DOI 10.48550/arxiv.2007.14714 Typ Preprint Autor Prinz K -
2020
Titel The Impact of Label Noise on a Music Tagger DOI 10.48550/arxiv.2008.06273 Typ Preprint Autor Prinz K
-
2023
Titel Interview with Austrian radio station Typ A press release, press conference or response to a media enquiry/interview -
2020
Link
Titel Special session on validity of MIR research Typ A formal working group, expert panel or dialogue Link Link -
2020
Link
Titel Research visit and public talk Bob Sturm Typ A talk or presentation Link Link
-
2023
Titel A Music Information Retrieval Approach to Pop Music Culture Typ Research grant (including intramural programme) Förderbeginn 2023