Knowledge Delta-basierte kontinuierliche Bewertung
Knowledge Delta based improvement and continuous evaluation
Bilaterale Ausschreibung: Frankreich
Wissenschaftsdisziplinen
Informatik (80%); Mathematik (20%)
Keywords
-
Information Retrieval,
Evaluation,
Explainability
Bei Branchenkonferenzen für Informationssysteme (z.B. Medizin, Nachrichten, intellektuelles Eigentum) ist es leicht zu beobachten, dass in den letzten 2-3 Jahren eine Zunahme der "semantischen Suchsysteme" zu beobachten ist, die mit Hilfe der "künstlichen Intelligenz" die besten Ergebnisse für eine Vielzahl von Arbeitsaufgaben erzielen, denen eine Suchanwendung zugrunde liegt. Die Endanwender solcher Systeme haben keine Möglichkeit, den Wert dieser Systeme zu schätzen, sondern müssen den Unternehmen die sie anbieten vertrauen. Gleichzeitig haben Unternehmen, die diese suchbasierten Anwendungen entwickeln, keine zuverlässigen Werkzeuge, um die Wirksamkeitsbewertung in ihre Testverfahren zu integrieren. Die Herausforderung besteht darin, dass es in der akademischen Gemeinschaft zwar zahlreiche Benchmarks gibt, aber keine Quantifizierung der Unterschiede zwischen ihnen. Ein solcher Benchmark besteht typischerweise aus einer Reihe von Dokumenten, die von der Suchmaschine zu indexieren sind (die Dokumentsammlung), einer Reihe von Abfragen, die den Bedarf an Benutzerinformationen simulieren (die Abfragesammlung), und einer Reihe von Relevanzurteilen (die "qrel"-Sammlung). Änderungen in einem dieser Bereiche, damit ein Suchsystem eine optimale Leistung erbringen kann, müssen sich in Änderungen der Systemparameter widerspiegeln. Während Veränderungen in der Effektivität und in den Systemparametern in der Regel leicht zu beobachten oder zu messen sind, sind Veränderungen in der Benchmark derzeit schwierig, wenn nicht gar unmöglich zu messen. Aufbauend auf dem neuesten Stand der Technik im Repräsentationslernen untersucht KoDicare Methoden, um Veränderungen in den Benchmarks über die einfache Begriffsstatistik hinaus zu verstehen. Signifikante Änderungen in der Dokumentenerfassung oder im Abfragesatz müssen auf semantischer Ebene quantifiziert werden. Mit einer solchen Quantifizierung, die wir als Wissensdelta bezeichnen, werden wir Ablationsstudien durchführen können - Tests, bei denen wir in einer kontrollierten Umgebung Wissenseinheiten ändern und Unterschiede in der Leistung des Suchsystems beobachten. Die Möglichkeit, dies zu tun, hat erhebliche Auswirkungen sowohl auf die akademische Forschung (die Mittel für kontrolliertere Experimente bei der Informationsbeschaffung bereitstellt) als auch auf die Industrie (die Mittel zur Aktualisierung der Suchmaschine bereitstellt, wenn sich die Umgebung erheblich verändert hat). KoDicare bringt die Research Studios Austria Forschungsgesellschaft, das Laboratoire d`Informatique de Grenoble und Qwant SAS zusammen, um die Grundlagen für die Integration der Wirksamkeitsbewertung in zukünftige (semantische) Suchsysteme zu entwickeln.
Die Bewertung von Suchsystemen erfordert die Einrichtung einer Umgebung: Auswahl eines Paradigmas, von Metriken, eines Datensatzes usw. Die Wahl einer Umgebung ist selten objektiv begründet, und die Auswirkungen ihrer Variationen (Auswahl eines Datensatzes gegenüber einem anderen, Änderung eines Datensatzes) werden selten gemessen. Eine solche Objektivität ergibt sich aus einem quantifizierbaren Verständnis der Unterschiede zwischen Datensätzen, Dokumenten oder Testabfragen. Bei Kodicare bezeichnen wir solche Unterschiede allgemein als "Wissensdelta". Die Bewertung mehrerer Umgebungen unter Berücksichtigung ihrer Wissensdeltas führt zur Messung und Qualifizierung von "Ergebnisdeltas". Online-Systeme erfordern eine kontinuierliche Bewertung in einer stabilen und aussagekräftigen Umgebung, die die Reproduzierbarkeit und Erklärbarkeit der Systemergebnisse gewährleistet. Die Umgebung und die Ergebnisdeltas können eine solche kontinuierliche Bewertung unterstützen und Erklärungen liefern. Die theoretischen Ergebnisse werden mit realen Fällen konfrontiert, die von einem französischen Unternehmen definiert wurden, das eine Web-Suchmaschine (Qwant) einsetzt. Wissenschaftliche und technische Herausforderungen: Nach unserem Kenntnisstand gibt es aufgrund der zahlreichen zu berücksichtigenden Parameter keinen solchen Rahmen, der sich speziell mit der kontinuierlichen Bewertung von Informationsabrufsystemen befasst. Die von Kodicare vorgeschlagenen Deltas sind daher ein sinnvoller Ansatz, um dieses Problem anzugehen. Eine kontinuierliche Bewertung ist nur mit realen Fällen möglich, die ohne die Hilfe von Websuchmaschinen oft schwer zu definieren sind. Die große Beteiligung von Qwant half dem Projekt, nutzbare Szenarien zu definieren und diese zu testen.
- Research Studios Austria - 100%
- Mihai Lupu, Research Studios Austria , ehemalige:r Projektleiter:in
- Philippe Mulhem, IMAG - Frankreich
- Christophe Servan, Qwant Research - Frankreich
Research Output
- 35 Zitationen
- 13 Publikationen
- 7 Datasets & Models
-
2024
Titel LongEval: Longitudinal Evaluation of Model Performance at CLEF 2024 DOI 10.1007/978-3-031-56072-9_8 Typ Book Chapter Autor Alkhalifa R Verlag Springer Nature Seiten 60-66 -
2024
Titel Overview of the CLEF 2024 LongEval Lab on Longitudinal Evaluation of Model Performance DOI 10.1007/978-3-031-71908-0_10 Typ Book Chapter Autor Alkhalifa R Verlag Springer Nature Seiten 208-230 Link Publikation -
2025
Titel LongEval at CLEF 2025: Longitudinal Evaluation of IR Systems on Web and Scientific Data DOI 10.1007/978-3-032-04354-2_20 Typ Book Chapter Autor Cancellieri M Verlag Springer Nature Seiten 363-387 Link Publikation -
2025
Titel Benchmark Creation for Narrative Knowledge Delta Extraction Tasks: Can LLMs Help? DOI 10.1007/978-3-031-88714-7_32 Typ Book Chapter Autor El-Ebshihy A Verlag Springer Nature Seiten 335-344 -
2025
Titel LongEval at CLEF 2025: Longitudinal Evaluation of IR Model Performance DOI 10.1007/978-3-031-88720-8_58 Typ Book Chapter Autor Cancellieri M Verlag Springer Nature Seiten 382-388 -
2025
Titel Extended Abstract of LongEval at CLEF 2025: Longitudinal Evaluation of IR Systems on Web and Scientific Data Typ Other Autor Alaa El-Ebshihy Konferenz Conference and Labs of the Evaluation Forum (CLEF 2025) Link Publikation -
2024
Titel AMATU@ SimpleText2024: are LLMs any good for scientific leaderboard extraction Typ Other Autor Alaa El-Ebshihy Konferenz Conference and Labs of the Evaluation Forum (CLEF 2024) Link Publikation -
2024
Titel Extended overview of the CLEF 2024 LongEval Lab on Longitudinal Evaluation of Model Performance Typ Other Autor Hsuvas Borkakoty Konferenz Conference and Labs of the Evaluation Forum (CLEF 2024) Link Publikation -
2023
Titel Predicting Retrieval Performance Changes in Evolving Evaluation Environments DOI 10.1007/978-3-031-42448-9_3 Typ Book Chapter Autor El-Ebshihy A Verlag Springer Nature Seiten 21-33 Link Publikation -
2023
Titel Extended Overview of the CLEF-2023 LongEval Lab on Longitudinal Evaluation of Model Performance Typ Other Autor Alkhalifa R Konferenz Conference and Labs of the Evaluation Forum (CLEF 2023) Link Publikation -
2023
Titel Towards Result Delta Prediction Based on Knowledge Deltas for Continuous IR Evaluation Typ Other Autor Alaa El-Ebshihy Konferenz Proceedings of the workshop QPP++ 2023: Query Performance Prediction and Its Evaluation in New Tasks, co-located with The 45th European Conference on Information Retrieval (ECIR) Link Publikation -
2023
Titel LongEval: Longitudinal Evaluation of Model Performance at CLEF 2023 DOI 10.1007/978-3-031-28241-6_58 Typ Book Chapter Autor Alkhalifa R Verlag Springer Nature Seiten 499-505 -
2023
Titel LongEval-Retrieval: French-English Dynamic Test Collection for Continuous Web Search Evaluation DOI 10.1145/3539618.3591921 Typ Conference Proceeding Abstract Autor Galuscáková P Seiten 3086-3094
-
2024
Link
Titel LongEval 2024 Test Collection DOI 10.48436/xr350-79683 Typ Database/Collection of data Öffentlich zugänglich Link Link -
2024
Link
Titel LongEval 2024 Train Collection DOI 10.48436/y60e9-k9b51 Typ Database/Collection of data Öffentlich zugänglich Link Link -
2024
Link
Titel LongEval Train Collection Typ Database/Collection of data Öffentlich zugänglich Link Link -
2023
Link
Titel kodicare_framework Typ Computer model/algorithm Öffentlich zugänglich Link Link -
2025
Link
Titel LongEval 2025 Web Retrieval Collection DOI 10.48436/th5h0-g5f51 Typ Database/Collection of data Öffentlich zugänglich Link Link -
2025
Link
Titel LongEval 2025 CORE Retrieval Train Collection DOI 10.48436/r643n-yc044 Typ Database/Collection of data Öffentlich zugänglich Link Link -
2025
Link
Titel LongEval 2025 CORE Retrieval Test Collection DOI 10.48436/v8phe-g8911 Typ Database/Collection of data Öffentlich zugänglich Link Link