Projektdetail

Grant-DOI 10.55776/P31988
Bewilligungssumme Einzelprojekte
Status Beendet
Projektbeginn 01.05.2019
Projektende 30.04.2023
Bewilligungssumme 347.476 €
Projekt-Website

Wissenschaftsdisziplinen

Andere Geisteswissenschaften (15%); Informatik (70%); Kunstwissenschaften (15%)

Keywords

Algorithmic Fairness,
Annotation,
Music Information Retrieval,
Evaluation,
Machine Learning,
Hubness

Abstract

Zusammenfassung

Jede experimentelle Wissenschaft basiert auf validen und zuverlässigen Experimenten, d.h. auf Experimenten die tatsächlich messen, was untersucht werden soll und auf Experimenten die wiederholbar sind. Music Information Retrieval (MIR), als interdisziplinäre Wissenschaft der Informationsgewinnung aus Musik, führt Experimente durch mit Hilfe von Methoden des maschinellen Lernens, der Statistik, der Signalverarbeitung, der Artificial Intelligence, usw. Es baut auf die korrekte Evaluierung all dieser Methoden um den Erfolg neuer Algorithmen zu messen oder, allgemeiner gesprochen, um den Fortschritt des gesamten Feldes zu verfolgen. Die prinzipielle Rolle von Computerexperimenten und ihre statistische Evaluierung ist bereits weithin akzeptiert im Bereich des MIR, aber die fundamentaleren Begriffe der Validität und der Reliabilität wurden bis jetzt kaum diskutiert. Dieser Mangel an Bewusstsein für valide und zuverlässige Experimente im MIR ist ursächlich verantwortlich für eine Reihe überraschender Phänomene in der jüngsten MIR Forschung. Unmerkbar veränderte Daten, so genannte ``gegnerische Beispiele, sind in der Lage den Erfolg von MIR Systemen auf dem letzten Stand der Technik wesentlich zu beeinträchtigen. In diesem Zusammenhang wird sogar davon gesprochen, dass solche leicht zu verwirrenden Systeme augenscheinlich gar kein musikalisches Wissen verwenden. Des weiteren wurde erkannt, dass ein Mangel der Übereinstimmung von Annotatoren beim Kennzeichnen von Musikdaten es bedingt, dass der Erfolg von MIR Systemen einen bestimmten Grad nie überschreiten kann, da es nicht sinnvoll ist wenn ein Algorithmus lediglich einen bestimmten Annotator modelliert. Durch Probleme des Lernens in hoch dimensionalen Räumen bekommen Algorithmen eine Befangenheit, die sich dadurch bemerkbar macht, dass bestimmte Datenobjekte künstlich nahe zu sehr vielen anderen erscheinen. Das ist ein wesentliches Problem für die automatische Musikempfehlung, da deswegen manche Musikstücke immer wieder empfohlen werden, egal ob sie passen oder nicht. Dieses Projekt soll dazu beitragen, dass all diese Probleme als das erkannt werden was sie in Wirklichkeit sind: Probleme der Validität und der Reliabilität in MIR Experimenten. Wir werden daher eine Theorie für valide und zuverlässige Experimente im MIR erstellen und, darauf basierend, den Stand der Technik im Hinblick auf ``gegnerische Beispiele, der Übereinstimmung von Annotatoren und hinsichtlich algorithmischer Befangenheit verbessern.

Über valide und zuverlässige Experimente im Music Information Retrieval (MIR) Jede experimentelle Wissenschaft basiert auf der Vorstellung valider und zuverlässiger Experimente. Validität ist der Wahrheitswert einer Schlussfolgerung, der aus Beweisen, wie z. B. in einem Experiment gesammelten Daten, gezogen wird, während zuverlässige Experimente Experimente sind, die wiederholbare Ergebnisse liefern. MIR, als interdisziplinäre Wissenschaft zur Gewinnung von Informationen aus Musik, führt Experimente mit einer Vielzahl von Methoden aus maschinellem Lernen, Statistik, Signalverarbeitung, künstlicher Intelligenz usw. durch. Um den Erfolg neuer Algorithmen zu messen, oder, allgemeiner ausgedrückt, um den Fortschritt des gesamten MIR-Bereichs darzustellen, ist die ordnungsgemäße Bewertung all dieser Methoden erforderlich. Zu Beginn dieses Projekts war die wichtige Rolle von Computerexperimenten innerhalb von MIR bereits allgemein akzeptiert und verstanden, aber die grundlegenderen Vorstellungen von Validität und Zuverlässigkeit in MIR-Experimenten bedurften noch einer gründlichen Diskussion und Klärung. Dies wurde deutlich, als wir eine Reihe scheinbar rätselhafter Phänomene in der MIR-Forschung untersuchten und ihre wahre Natur verstanden - es handelt sich um Probleme der Validität und Zuverlässigkeit: (i) geringfügig und unmerklich veränderte Daten, sogenannte kontradiktorische Beispiele, können die Leistung modernster MIR-Systeme drastisch reduzieren (mangelnde Konstruktvalidität und Zuverlässigkeit); (ii) aufgrund der geringen Interrater-Übereinstimmung bei der Annotation von Ground-Truth-Trainingsdaten für MIR-Systeme kann die Leistung bei vielen MIR-Aufgaben niemals eine bestimmte gläserne Decke überschreiten, da eine perfekte Leistung nur für einzelne Annotatoren und niemals für eine Gruppe von Benutzern erreicht werden kann die uneinig sind (mangelnde externe Validität und Zuverlässigkeit); (iii) ein wichtiges Problem der algorithmischen Befangenheit ("Bias") sind Lernschwierigkeiten in hochdimensionalen Räumen, in denen einige Datenobjekte als "Hubs" fungieren und sich ungewöhnlich nahe an vielen anderen Datenobjekten befinden, was zu unfairen Musikempfehlungen führt, da Hub-Songs immer wieder empfohlen werden (fehlende interne Validität). In unserem Projekt konnten wir den Stand der Technik in Bezug auf kontradiktorische Beispiele, Interrater-Übereinstimmung und algorithmische Befangenheit vorantreiben, indem wir beispielhaft valide und zuverlässige MIR-Experimente durchführten. Unser wichtigstes Hauptergebnis ist ein Bericht und ein theoretischer Rahmen, in dem erörtert wird, was ein valides und zuverlässiges MIR-Experiment überhaupt ist. Um dies zu erreichen, haben wir vier Haupttypen der Validität veranschaulicht und die Bedrohungen, die während der Experimente auftreten, für jeden Typ erörtert. Unsere Diskussion basierte auf einem prototypischen MIR-Experiment zur Musikklassifizierung. Wir haben MIR-Praktikern auch konkrete Anleitungen gegeben, wie sie aus den in ihren Experimenten gesammelten Daten valide Schlussfolgerungen ziehen können. All dies zusammen zielte darauf ab, für den Bereich von MIR zu klären, was Validität bedeutet, warum sie wichtig ist und wie sie bedroht werden kann.

Forschungsstätte(n)

Universität Linz - 100%

Internationale Projektbeteiligte

Julián Urbano, Delft University of Technology - Niederlande
Bob L. Sturm, KTH Royal Institute of Technology - Schweden

Research Output

66 Zitationen
31 Publikationen
3 Disseminationen
1 Weitere Förderungen

Publikationen

Titel	Weak Multi-Label Audio-Tagging with Class Noise
Typ	Other
Autor	Prinz K.
Link	Publikation

Titel	Can We Increase Inter- and Intra-Rater Agreement in Modeling General Music Similarity?
Typ	Conference Proceeding Abstract
Autor	Flexer A.
Konferenz	Proceedings of 20th International Society for Music Information Retrieval Conference
Link	Publikation

Titel	Audio Tagging With Convolutional Neural Networks Trained With Noisy Data
Typ	Other
Autor	Paischer F.
Link	Publikation

Titel	Validity in Music Information Research Experiments
DOI	10.48550/arxiv.2301.01578
Typ	Preprint
Autor	Sturm B

Titel	Validity in Music Information Research Experiments
Typ	Other
Autor	Sturm B.
Link	Publikation

Titel	scikit-hubness: Hubness Reduction and Approximate Neighbor Search
DOI	10.21105/joss.01957
Typ	Journal Article
Autor	Feldbauer R
Journal	Journal of Open Source Software
Seiten	1957
Link	Publikation

Titel	The Impact of Label Noise on a Music Tagger
Typ	Conference Proceeding Abstract
Autor	Prinz K.
Konferenz	Proceedings of the 13th International Workshop on Machine Learning and Music
Link	Publikation

Titel	End-to-End Adversarial White Box Attacks on Music Instrument Classification
Typ	Other
Autor	Prinz K.
Link	Publikation

Titel	DeepNOG: fast and accurate protein orthologous group assignment
DOI	10.1093/bioinformatics/btaa1051
Typ	Journal Article
Autor	Feldbauer R
Journal	Bioinformatics
Seiten	5304-5312
Link	Publikation

Titel	The Impact of Label Noise on a Music Tagger
DOI	10.48550/arxiv.2008.06273
Typ	Preprint
Autor	Prinz K

Titel	End-to-End Adversarial White Box Attacks on Music Instrument Classification
DOI	10.48550/arxiv.2007.14714
Typ	Preprint
Autor	Prinz K

Titel	Constructing adversarial examples to investigate the plausibility of explanations in deep audio and image classifiers
DOI	10.1007/s00521-022-07918-7
Typ	Journal Article
Autor	Hoedt K
Journal	Neural Computing and Applications
Seiten	10011-10029
Link	Publikation

Titel	A Review of Validity and Its Relationship to Music Information Research
DOI	10.5281/zenodo.10265219
Typ	Conference Proceeding Abstract
Autor	Bob L. T. Sturm
Link	Publikation

Titel	A Review of Validity and Its Relationship to Music Information Research
DOI	10.5281/zenodo.10265218
Typ	Conference Proceeding Abstract
Autor	Bob L. T. Sturm
Link	Publikation

Titel	A Review of Validity and its Relationship to Music Information Research
Typ	Conference Proceeding Abstract
Autor	Sturm Blt
Konferenz	24th International Society for Music Information Retrieval Conference
Link	Publikation

Titel	Defending a Music Recommender Against Hubness-Based Adversarial Attacks
DOI	10.48550/arxiv.2205.12032
Typ	Preprint
Autor	Hoedt K

Titel	Concept-Based Techniques for "Musicologist-friendly" Explanations in a Deep Music Classifier
DOI	10.48550/arxiv.2208.12485
Typ	Preprint
Autor	Foscarin F

Titel	Concept-Based Techniques for "Musicologist-friendly" Explanations in a Deep Music Classifier
Typ	Conference Proceeding Abstract
Autor	Foscarin F.
Konferenz	Proceedings of the 23rd International Society for Music Information Retrieval Conference
Link	Publikation

Titel	Defending a Music Recommender Against Hubness-Based Adversarial Attacks
Typ	Conference Proceeding Abstract
Autor	Hoedt K.
Konferenz	Proceedings of the 19th Sound and Music Computing Conference
Link	Publikation

Titel	On Evaluation of Inter- and Intra-Rater Agreement in Music Recommendation
DOI	10.5334/tismir.107
Typ	Journal Article
Autor	Flexer A
Journal	Transactions of the International Society for Music Information Retrieval
Seiten	182
Link	Publikation

Titel	scikit-hubness: Hubness Reduction and Approximate Neighbor Search
DOI	10.48550/arxiv.1912.00706
Typ	Preprint
Autor	Feldbauer R

Titel	Defending a Music Recommender Against Hubness-Based Adversarial Attacks
DOI	10.5281/zenodo.6573391
Typ	Conference Proceeding Abstract
Autor	Hoedt K
Link	Publikation

Titel	Defending a Music Recommender Against Hubness-Based Adversarial Attacks
DOI	10.5281/zenodo.6573390
Typ	Conference Proceeding Abstract
Autor	Hoedt K
Link	Publikation

Titel	Defending a Music Recommender Against Hubness-Based Adversarial Attacks
DOI	10.5281/zenodo.6798200
Typ	Conference Proceeding Abstract
Autor	Hoedt K
Link	Publikation

Titel	Concept-Based Techniques for "Musicologist-Friendly" Explanations in Deep Music Classifiers
DOI	10.5281/zenodo.7316803
Typ	Conference Proceeding Abstract
Autor	Foscarin F
Link	Publikation

Titel	Concept-Based Techniques for "Musicologist-Friendly" Explanations in Deep Music Classifiers
DOI	10.5281/zenodo.7316804
Typ	Conference Proceeding Abstract
Autor	Foscarin F
Link	Publikation

Titel	On the Veracity of Local, Model-agnostic Explanations in Audio Classification: Targeted Investigations with Adversarial Examples
DOI	10.48550/arxiv.2107.09045
Typ	Preprint
Autor	Praher V

Titel	On End-to-End White-Box Adversarial Attacks in Music Information Retrieval
DOI	10.5334/tismir.85
Typ	Journal Article
Autor	Prinz K
Journal	Transactions of the International Society for Music Information Retrieval
Seiten	93
Link	Publikation

Titel	On the Veracity of Local, Model-agnostic Explanations in Audio Classification: Targeted Investigations with Adversarial Examples
Typ	Conference Proceeding Abstract
Autor	Praher V.
Konferenz	Proceedings of the 22nd International Society for Music Information Retrieval Conference
Link	Publikation

Titel	On the Veracity of Local, Model-agnostic Explanations in Audio Classification: Targeted Investigations with Adversarial Examples
DOI	10.5281/zenodo.5624470
Typ	Conference Proceeding Abstract
Autor	Praher V
Link	Publikation

Titel	On the Veracity of Local, Model-agnostic Explanations in Audio Classification: Targeted Investigations with Adversarial Examples
DOI	10.5281/zenodo.5624471
Typ	Conference Proceeding Abstract
Autor	Praher V
Link	Publikation

Disseminationen

Titel	Special session on validity of MIR research
Typ	A formal working group, expert panel or dialogue
Link	Link

Titel	Interview with Austrian radio station
Typ	A press release, press conference or response to a media enquiry/interview

Titel	Research visit and public talk Bob Sturm
Typ	A talk or presentation
Link	Link

Weitere Förderungen

Titel	A Music Information Retrieval Approach to Pop Music Culture
Typ	Research grant (including intramural programme)
Förderbeginn	2023
Geldgeber	Austrian Science Fund (FWF)

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Über valide und zuverlässige Experimente im Musik IR

On Valid and Reliable Experiments in Music IR

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Über valide und zuverlässige Experimente im Musik IR

On Valid and Reliable Experiments in Music IR

Wissenschaftsdisziplinen

Keywords

Research Output