Projektdetail

Grant-DOI 10.55776/I4471
Bewilligungssumme Einzelprojekte International
Status beendet
Projektbeginn 01.04.2021
Projektende 31.03.2025
Bewilligungssumme 399.887 €
Projekt-Website

Frankreich

Wissenschaftsdisziplinen

Informatik (80%); Mathematik (20%)

Keywords

Information Retrieval,
Evaluation,
Explainability

Abstract

Zusammenfassung

Bei Branchenkonferenzen für Informationssysteme (z.B. Medizin, Nachrichten, intellektuelles Eigentum) ist es leicht zu beobachten, dass in den letzten 2-3 Jahren eine Zunahme der "semantischen Suchsysteme" zu beobachten ist, die mit Hilfe der "künstlichen Intelligenz" die besten Ergebnisse für eine Vielzahl von Arbeitsaufgaben erzielen, denen eine Suchanwendung zugrunde liegt. Die Endanwender solcher Systeme haben keine Möglichkeit, den Wert dieser Systeme zu schätzen, sondern müssen den Unternehmen die sie anbieten vertrauen. Gleichzeitig haben Unternehmen, die diese suchbasierten Anwendungen entwickeln, keine zuverlässigen Werkzeuge, um die Wirksamkeitsbewertung in ihre Testverfahren zu integrieren. Die Herausforderung besteht darin, dass es in der akademischen Gemeinschaft zwar zahlreiche Benchmarks gibt, aber keine Quantifizierung der Unterschiede zwischen ihnen. Ein solcher Benchmark besteht typischerweise aus einer Reihe von Dokumenten, die von der Suchmaschine zu indexieren sind (die Dokumentsammlung), einer Reihe von Abfragen, die den Bedarf an Benutzerinformationen simulieren (die Abfragesammlung), und einer Reihe von Relevanzurteilen (die "qrel"-Sammlung). Änderungen in einem dieser Bereiche, damit ein Suchsystem eine optimale Leistung erbringen kann, müssen sich in Änderungen der Systemparameter widerspiegeln. Während Veränderungen in der Effektivität und in den Systemparametern in der Regel leicht zu beobachten oder zu messen sind, sind Veränderungen in der Benchmark derzeit schwierig, wenn nicht gar unmöglich zu messen. Aufbauend auf dem neuesten Stand der Technik im Repräsentationslernen untersucht KoDicare Methoden, um Veränderungen in den Benchmarks über die einfache Begriffsstatistik hinaus zu verstehen. Signifikante Änderungen in der Dokumentenerfassung oder im Abfragesatz müssen auf semantischer Ebene quantifiziert werden. Mit einer solchen Quantifizierung, die wir als Wissensdelta bezeichnen, werden wir Ablationsstudien durchführen können - Tests, bei denen wir in einer kontrollierten Umgebung Wissenseinheiten ändern und Unterschiede in der Leistung des Suchsystems beobachten. Die Möglichkeit, dies zu tun, hat erhebliche Auswirkungen sowohl auf die akademische Forschung (die Mittel für kontrolliertere Experimente bei der Informationsbeschaffung bereitstellt) als auch auf die Industrie (die Mittel zur Aktualisierung der Suchmaschine bereitstellt, wenn sich die Umgebung erheblich verändert hat). KoDicare bringt die Research Studios Austria Forschungsgesellschaft, das Laboratoire d`Informatique de Grenoble und Qwant SAS zusammen, um die Grundlagen für die Integration der Wirksamkeitsbewertung in zukünftige (semantische) Suchsysteme zu entwickeln.

Die Bewertung von Suchsystemen erfordert die Einrichtung einer Umgebung: Auswahl eines Paradigmas, von Metriken, eines Datensatzes usw. Die Wahl einer Umgebung ist selten objektiv begründet, und die Auswirkungen ihrer Variationen (Auswahl eines Datensatzes gegenüber einem anderen, Änderung eines Datensatzes) werden selten gemessen. Eine solche Objektivität ergibt sich aus einem quantifizierbaren Verständnis der Unterschiede zwischen Datensätzen, Dokumenten oder Testabfragen. Bei Kodicare bezeichnen wir solche Unterschiede allgemein als "Wissensdelta". Die Bewertung mehrerer Umgebungen unter Berücksichtigung ihrer Wissensdeltas führt zur Messung und Qualifizierung von "Ergebnisdeltas". Online-Systeme erfordern eine kontinuierliche Bewertung in einer stabilen und aussagekräftigen Umgebung, die die Reproduzierbarkeit und Erklärbarkeit der Systemergebnisse gewährleistet. Die Umgebung und die Ergebnisdeltas können eine solche kontinuierliche Bewertung unterstützen und Erklärungen liefern. Die theoretischen Ergebnisse werden mit realen Fällen konfrontiert, die von einem französischen Unternehmen definiert wurden, das eine Web-Suchmaschine (Qwant) einsetzt. Wissenschaftliche und technische Herausforderungen: Nach unserem Kenntnisstand gibt es aufgrund der zahlreichen zu berücksichtigenden Parameter keinen solchen Rahmen, der sich speziell mit der kontinuierlichen Bewertung von Informationsabrufsystemen befasst. Die von Kodicare vorgeschlagenen Deltas sind daher ein sinnvoller Ansatz, um dieses Problem anzugehen. Eine kontinuierliche Bewertung ist nur mit realen Fällen möglich, die ohne die Hilfe von Websuchmaschinen oft schwer zu definieren sind. Die große Beteiligung von Qwant half dem Projekt, nutzbare Szenarien zu definieren und diese zu testen.

Forschungsstätte(n)

Research Studios Austria - 100%

Nationale Projektbeteiligte

Mihai Lupu, Research Studios Austria , ehemalige:r Projektleiter:in

Internationale Projektbeteiligte

Philippe Mulhem, IMAG - Frankreich
Christophe Servan, Qwant Research - Frankreich

Research Output

23 Zitationen
14 Publikationen
7 Datasets & Models

Publikationen

Titel	Benchmark Creation for Narrative Knowledge Delta Extraction Tasks: Can LLMs Help?
DOI	10.1007/978-3-031-88714-7_32
Typ	Book Chapter
Autor	El-Ebshihy A
Verlag	Springer Nature
Seiten	335-344

Titel	LongEval at CLEF 2025: Longitudinal Evaluation of IR Model Performance
DOI	10.1007/978-3-031-88720-8_58
Typ	Book Chapter
Autor	Cancellieri M
Verlag	Springer Nature
Seiten	382-388

Titel	LongEval at CLEF 2025: Longitudinal Evaluation of IR Systems on Web and Scientific Data
DOI	10.1007/978-3-032-04354-2_20
Typ	Book Chapter
Autor	Cancellieri M
Verlag	Springer Nature
Seiten	363-387
Link	Publikation

Titel	LongEval-Retrieval: French-English Dynamic Test Collection for Continuous Web Search Evaluation
DOI	10.48550/arxiv.2303.03229
Typ	Preprint
Autor	Deveaud P
Link	Publikation

Titel	Extended Abstract of LongEval at CLEF 2025: Longitudinal Evaluation of IR Systems on Web and Scientific Data
Typ	Other
Autor	Alaa El-Ebshihy
Konferenz	Conference and Labs of the Evaluation Forum (CLEF 2025)
Link	Publikation

Titel	Extended overview of the CLEF 2024 LongEval Lab on Longitudinal Evaluation of Model Performance
Typ	Other
Autor	Hsuvas Borkakoty
Konferenz	Conference and Labs of the Evaluation Forum (CLEF 2024)
Link	Publikation

Titel	AMATU@ SimpleText2024: are LLMs any good for scientific leaderboard extraction
Typ	Other
Autor	Alaa El-Ebshihy
Konferenz	Conference and Labs of the Evaluation Forum (CLEF 2024)
Link	Publikation

Titel	LongEval: Longitudinal Evaluation of Model Performance at CLEF 2024
DOI	10.1007/978-3-031-56072-9_8
Typ	Book Chapter
Autor	Alkhalifa R
Verlag	Springer Nature
Seiten	60-66
Link	Publikation

Titel	Overview of the CLEF 2024 LongEval Lab on Longitudinal Evaluation of Model Performance
DOI	10.1007/978-3-031-71908-0_10
Typ	Book Chapter
Autor	Alkhalifa R
Verlag	Springer Nature
Seiten	208-230

Titel	Extended Overview of the CLEF-2023 LongEval Lab on Longitudinal Evaluation of Model Performance
Typ	Other
Autor	Alkhalifa R
Konferenz	Conference and Labs of the Evaluation Forum (CLEF 2023)
Link	Publikation

Titel	Towards Result Delta Prediction Based on Knowledge Deltas for Continuous IR Evaluation
Typ	Other
Autor	Alaa El-Ebshihy
Konferenz	Proceedings of the workshop QPP++ 2023: Query Performance Prediction and Its Evaluation in New Tasks, co-located with The 45th European Conference on Information Retrieval (ECIR)
Link	Publikation

Titel	Predicting Retrieval Performance Changes in Evolving Evaluation Environments
DOI	10.1007/978-3-031-42448-9_3
Typ	Book Chapter
Autor	El-Ebshihy A
Verlag	Springer Nature
Seiten	21-33
Link	Publikation

Titel	LongEval: Longitudinal Evaluation of Model Performance at CLEF 2023
DOI	10.1007/978-3-031-28241-6_58
Typ	Book Chapter
Autor	Alkhalifa R
Verlag	Springer Nature
Seiten	499-505
Link	Publikation

Titel	LongEval-Retrieval: French-English Dynamic Test Collection for Continuous Web Search Evaluation
DOI	10.1145/3539618.3591921
Typ	Conference Proceeding Abstract
Autor	Deveaud R
Seiten	3086-3094

Datasets & Models

Öffentlich zugänglich
Titel	LongEval 2025 CORE Retrieval Test Collection
DOI	10.48436/v8phe-g8911
Typ	Database/Collection of data
Link	Link

Öffentlich zugänglich
Titel	LongEval 2025 CORE Retrieval Train Collection
DOI	10.48436/r643n-yc044
Typ	Database/Collection of data
Link	Link

Öffentlich zugänglich
Titel	LongEval 2025 Web Retrieval Collection
DOI	10.48436/th5h0-g5f51
Typ	Database/Collection of data
Link	Link

Öffentlich zugänglich
Titel	LongEval 2024 Train Collection
DOI	10.48436/y60e9-k9b51
Typ	Database/Collection of data
Link	Link

Öffentlich zugänglich
Titel	LongEval Train Collection
Typ	Database/Collection of data
Link	Link

Öffentlich zugänglich
Titel	LongEval 2024 Test Collection
DOI	10.48436/xr350-79683
Typ	Database/Collection of data
Link	Link

Öffentlich zugänglich
Titel	kodicare_framework
Typ	Computer model/algorithm
Link	Link

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Knowledge Delta-basierte kontinuierliche Bewertung

Knowledge Delta based improvement and continuous evaluation

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Knowledge Delta-basierte kontinuierliche Bewertung

Knowledge Delta based improvement and continuous evaluation

Wissenschaftsdisziplinen

Keywords

Research Output