Abstraktion von Domänenspezifischen Informationssuche und Evaluierung (ADmIRE)
Abstracting Domain-Specific Information Retrieval and Evaluation (ADmIRE)
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
-
Information Retrieval,
Domain-specific Information Retrieval,
Information Retrieval Evaluation
Suchmaschinen im World Wide Web funktionieren sehr effektiv und effizient. Diese Suchwerkzeuge sind ausdrücklich als Mehrzweckwerkzeuge entworfen worden, die in einer möglichst großen Anzahl an Situationen anwendbar sein sollen. Aber Informationen sind nicht gleich Informationen. Es gibt Gebiete, für die diese Werkzeuge zu allgemein konzipiert sind, um nützlich zu sein: Gesundheits- und biomedizinische Informationen, geistiges Eigentum und Patentrechte, sozialwissenschaftliche Publikationen, Blogs, Pressefotos, etc. Suche in einem dieser Bereiche heißt domänenspezifische Suche. Derartige Suchen unterscheiden sich im Hinblick auf die verwendeten Dokumentensammlungen, die Verfeinerungen der Suchbegriffe, die sich aus den Eigenschaften der Domäne ergeben, den Abdeckungsgrad der Domäne, sowie darin, welche multimodalen Daten (Bilder, chemische Formeln, etc.) in den Dokumenten vorhanden sind, und auch in ihren AnwenderInnen und deren Aufgaben. Obwohl viele Domänen einander in ihren Eigenschaften und Herausforderungen ähneln, gibt es noch kein allgemeines Rahmenwerk für die Entwicklung domänenspezifischer Suchlösungen, und auch noch keine Möglichkeit, Domänen mit Hinblick auf die am besten geeigneten Verfahren und Werkzeuge zu beschreiben. ADmIRE wird Entwicklungen zu folgenden zwei Bereichen beitragen: 1. Domänenspezifische Suchmethoden und 2. Evaluierung von Suchsystemen. Für domänenspezifisches Suchen werden wir ein Rahmenwerk entwickeln, das aus einem Klassifikationsschema für domänenspezifische Fragestellungen und einer Anleitung zur Lösung derselben besteht, welches den besten evidenzbasierten Zugang auf Basis der Domänencharakterisierung liefert. Letzteres wird auf Basis einer ausführlichen Auswertung der einschlägigen Literatur entwickelt werden. In der Tat ist die Erstellung von systematischen Reviews und die Ableitung der sich daraus ergebenden Richtlinien für domänenspezifisches Suchen selbst schon ein (eher schwieriges) domänenspezifisches Suchproblem. Diese Fragestellungen werden wir für ADmIRE als zentrales Szenario bei der Erforschung und Entwicklung von semiautomatischen Werkzeugen für Suchtechnologieforschung nutzen, mit deren Hilfe WissenschaftlerInnen effektiv systematische Reviews erzeugen können werden. Dieses Szenario dient also gleichzeitig als ein Modell eines domänenspezifischen Problems und als Mittel, um die evidenzbasierte Lösung zu finden. Für den Bereich der Evaluierung wird ADmIRE Richtlinien für zukünftige Evaluierungsveranstaltungen und - publikationen im Suchtechnologiebereich entwickeln, welche eine einfachere und effektivere Wiederverwendung von Evaluierungsergebnissen erlauben, um Entscheidungen im Designprozess von domänenspezifischen Suchsystemen zu erleichtern, sowie ein Framework für komponentenbasierte Evaluierung auf Basis des Workflow- Paradigmas entwickeln. Die Erforschung von Suchsystemen (und potenziell auch andere empirische Forschungsfelder der Informatik) hat den Vorteil, dass in der aktuellen Situation experimentelle Studien bereits Grundpfeiler der Forschungsarbeit darstellen. ADmIRE wird die gesamte experimentelle Information zusammenführen und sie so organisieren, dass sie für eine bestimmte Domäne von Nutzen sein kann, was eine sehr herausfordernde, aber auch absolut notwendige Aufgabe für die Weiterentwicklung des Forschungsfeldes ist.
Die Suchresultate und deren Anordnung kann eine wichtige Rolle beim Treffen von Entscheidungen spielen. So könnte es sein, dass ein Doktor welcher nach neuen Behandlungsmethoden für eine bestimmte Krankheit sucht, passenden Suchresultate nicht findet falls diese nicht hoch genug im Suchranking liegen, was zu einer suboptimalen Behandlung eines Patienten führen könnte. Ein Mitarbeiter eines Patentbüros könnte im Rahmen einer Patentsuche bereits angemeldete Patente nicht finden, was zu einer falschen Patentberechtigung und in Folge zu einer juristischen Auseinandersetzung zwischen zwei Unternehmen führen könnte. Zur Vorbeugung solcher Probleme ist es wichtig, dass Suchmaschinen, vor allem solche aus dem professionellen Bereich, keine Bias aufweisen. Im Rahmen des ADmIRE Projektes wurden solche Bias identifiziert und Methoden entwickelt um sie zu überbrücken. Suchmaschinen verwenden unterschiedlichste heuristische Gleichungen um relevante Dokumente bei einer Sucheingabe zurückzuliefern. Dabei kann es sein, dass unabhängig von der Sucheingabe, einige Dokumente nur mit einer sehr geringen Wahrscheinlichkeit zurückgeliefert werden. Dieses Phänomen ist als Findability-Bias bekannt. Nimmt man nun eine hohe Anzahl von Sucheingaben und zeichnet für jede einzelne Eingabe die zurückgelieferten Dokumente auf, ist es experimentell möglich die Findability-Bias zu messen. Dazu beschreiben wir einen analytischen Ansatz zur Messung der Findability-Bias bei welchem der experimentelle Aufwand reduziert wird. Durch die Dokumentlänge kann eine weitere Bias auftreten. Bei Suchmaschinen bei welchen die Überlappung der Wörter der Sucheingabe und der Wörter der Dokumente gezählt wird, werden längere Dokumente bevorzugt. Durch eine Methode, welche auf der Erkennung basiert ob ein langes Dokument auftritt, weil es sich über mehrere Themen streckt, oder weil es ausgiebig ein einzelnes Thema beschreibt (e.g. Lehrbücher), konnten wir die Dokumentenlänge-Bias von gelieferten Suchresultaten reduzieren. Zuletzt wird noch auf die Effektivitäts-Bias von Suchmaschinen eingegangen. Um festzustellen wie effektiv eine Suchmaschine funktioniert, wird diese mit mehreren Sucheingaben getestet. Die zurückgelieferten Ergebnisse werden dann manuell in relevant bzw. irrelevant eingeteilt durch das Wissen welche Dokumente relevant und irrelevant sind, kann nun die Effektivität einer Suchmaschine gemessen werden. Dadurch dass für eine Sucheingabe üblicherweise Millionen von Ergebnissen zurückgeliefert werden, ist eine manuelle Relevanzeinteilung für alle Dokumente nicht durchführbar. Somit ist die Effektivitätsmessung in manchen Situationen biased. Es wurde eine Methode entwickelt durch welche diese Bias stark reduziert wurde. Weiters wurde ein Ansatz vorgestellt durch welchen die Effektivitäts-Bias von Testdaten (Datensätze bestehend aus Sucheingaben, Dokumenten und manuellen Relevanzbeurteilungen) reduziert werden kann. Damit wurde ermöglicht, dass die hunderten bereits vorhandenen Testdatensätze verwendet werden konnten um Messungen mit minimaler Bias durchzuführen.
- Technische Universität Wien - 100%
- Vivien Petras, Humboldt-Universität zu Berlin - Deutschland
- Henning Müller Zum Hagen, Universität Hamburg - Deutschland
- Gareth Jones, Dublin City University - Irland
- Nicola Ferro, Università degli studi di Padova - Italien
- Hamisch Cunningham, University of Sheffield - Vereinigtes Königreich
Research Output
- 266 Zitationen
- 27 Publikationen
-
2016
Titel Generalizing Translation Models in the Probabilistic Relevance Framework DOI 10.1145/2983323.2983833 Typ Conference Proceeding Abstract Autor Rekabsaz N Seiten 711-720 -
2016
Titel Assessors Agreement: A Case Study Across Assessor Type, Payment Levels, Query Variations and Relevance Dimensions DOI 10.1007/978-3-319-44564-9_4 Typ Book Chapter Autor Palotti J Verlag Springer Nature Seiten 40-53 -
2015
Titel Report on the Evaluation-as-a-Service (EaaS) Expert Workshop DOI 10.1145/2795403.2795416 Typ Journal Article Autor Hopfgartner F Journal ACM SIGIR Forum Seiten 57-65 Link Publikation -
2017
Titel A faceted approach to reachability analysis of graph modelled collections DOI 10.1007/s13735-017-0145-8 Typ Journal Article Autor Sabetghadam S Journal International Journal of Multimedia Information Retrieval Seiten 157-171 Link Publikation -
2017
Titel Word Embedding Causes Topic Shifting; Exploit Global Context! DOI 10.1145/3077136.3080733 Typ Conference Proceeding Abstract Autor Rekabsaz N Seiten 1105-1108 -
2017
Titel Visual Pool DOI 10.1145/3077136.3084146 Typ Conference Proceeding Abstract Autor Lipani A Seiten 1321-1324 -
2017
Titel Volatility Prediction using Financial Disclosures Sentiments with Word Embedding-based IR Models DOI 10.18653/v1/p17-1157 Typ Conference Proceeding Abstract Autor Rekabsaz N Seiten 1712-1721 Link Publikation -
2017
Titel Back to the Sketch-Board: Integrating Keyword Search, Semantics, and Information Retrieval DOI 10.1007/978-3-319-53640-8_5 Typ Book Chapter Autor Azzopardi J Verlag Springer Nature Seiten 49-61 -
2017
Titel Fixed budget pooling strategies based on fusion methods DOI 10.1145/3019612.3019692 Typ Conference Proceeding Abstract Autor Lipani A Seiten 919-924 Link Publikation -
2017
Titel Fixed-Cost Pooling Strategies Based on IR Evaluation Measures DOI 10.1007/978-3-319-56608-5_28 Typ Book Chapter Autor Lipani A Verlag Springer Nature Seiten 357-368 -
2017
Titel Does Online Evaluation Correspond to Offline Evaluation in Query Auto Completion? DOI 10.1007/978-3-319-56608-5_70 Typ Book Chapter Autor Bampoulidis A Verlag Springer Nature Seiten 713-719 -
2017
Titel Exploration of a Threshold for Similarity Based on Uncertainty in Word Embedding DOI 10.1007/978-3-319-56608-5_31 Typ Book Chapter Autor Rekabsaz N Verlag Springer Nature Seiten 396-409 -
2016
Titel Interactive Exploration of Healthcare Queries DOI 10.1109/cbmi.2016.7500275 Typ Conference Proceeding Abstract Autor Bampoulidis A Seiten 1-4 -
2016
Titel The Solitude of Relevant Documents in the Pool DOI 10.1145/2983323.2983891 Typ Conference Proceeding Abstract Autor Lipani A Seiten 1989-1992 Link Publikation -
2014
Titel Domain Specific Search DOI 10.1007/978-3-319-12511-4_6 Typ Book Chapter Autor Lupu M Verlag Springer Nature Seiten 96-117 -
2014
Titel An Information Retrieval Ontology for Information Retrieval Nanopublications DOI 10.1007/978-3-319-11382-1_5 Typ Book Chapter Autor Lipani A Verlag Springer Nature Seiten 44-49 -
2014
Titel A Real-World Framework for Translator as Expert Retrieval DOI 10.1007/978-3-319-11382-1_14 Typ Book Chapter Autor Rekabsaz N Verlag Springer Nature Seiten 141-152 -
2014
Titel Extracting Nanopublications from IR Papers DOI 10.1007/978-3-319-12979-2_5 Typ Book Chapter Autor Lipani A Verlag Springer Nature Seiten 53-62 -
2016
Titel Fairness in Information Retrieval DOI 10.1145/2911451.2911473 Typ Conference Proceeding Abstract Autor Lipani A Seiten 1171-1171 -
2016
Titel The Curious Incidence of Bias Corrections in the Pool DOI 10.1007/978-3-319-30671-1_20 Typ Book Chapter Autor Lipani A Verlag Springer Nature Seiten 267-279 -
2016
Titel The Impact of Fixed-Cost Pooling Strategies on Test Collection Bias DOI 10.1145/2970398.2970429 Typ Conference Proceeding Abstract Autor Lipani A Seiten 105-108 Link Publikation -
2016
Titel Report on the Cloud-Based Evaluation Approaches Workshop 2015 DOI 10.1145/2964797.2964804 Typ Journal Article Autor Müller H Journal ACM SIGIR Forum Seiten 38-41 Link Publikation -
2015
Titel An Initial Analytical Exploration of Retrievability DOI 10.1145/2808194.2809495 Typ Conference Proceeding Abstract Autor Lipani A Seiten 329-332 -
2015
Titel DASyR(IR) - Document Analysis System for Systematic Reviews (in Information Retrieval) DOI 10.1109/icdar.2015.7333830 Typ Conference Proceeding Abstract Autor Piroi F Seiten 591-595 -
2015
Titel Splitting Water DOI 10.1145/2766462.2767749 Typ Conference Proceeding Abstract Autor Lipani A Seiten 103-112 -
2015
Titel Verboseness Fission for BM25 Document Length Normalization DOI 10.1145/2808194.2809486 Typ Conference Proceeding Abstract Autor Lipani A Seiten 385-388 -
2018
Titel A systematic approach to normalization in probabilistic models DOI 10.1007/s10791-018-9334-1 Typ Journal Article Autor Lipani A Journal Information Retrieval Journal Seiten 565-596 Link Publikation