Integrierte Human Computation für Wissensextraktion und -evaluierung
Embedded Human Computation for Knowledge Extraction and Evaluation
ERA-Net: CHIST ERA
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
-
Human Computation,
Natural Language Proceesing,
Knowledge Resource Acquisition,
Ontology Engineering,
Open Evaluation Methods,
Heterogeneous Web Data
Etablierte Wissensextraktionsverfahren sind dem schnellen Wachstum und dem fragmentierten Charakter sozialer Medien und strukturierter Online-Quellen vielfach nicht gewachsen. Verrauschte, multilinguale oder widersprüchliche Input-Daten sind besonders problematisch. Ohne entsprechende Trainingsdaten und Gold Standards können Reliabilität und Skalierbarkeit dieser Algorithmen nicht gesteigert werden. Menschliche Benutzer hingegen sind in der Interpretation widersprüchlicher und kontextabhängiger Informationen unerreicht. Das uComp Projekt wird diese Fähigkeit nutzbar machen und kollektive Intelligenz mit automatisierten Methoden kombinieren. Basierend auf dem Human Computation Ansatz wird ein skalierbares und generisches Framework zur Extraktion und Evaluierung von Wissen auf Basis von "Games with a Purpose" und Crowdsourcing Plattformen entwickelt. Dieses Framework wird es erlauben, besonders herausfordernde Fragestellungen einer grossen Zahl von Benutzern zu präsentieren und mit Hilfe deren Feedbacks automatisierte Methoden iterativ zu verbessern. Dies ist ein zentraler Beitrag des Projekts, welcher die Forschungsgebiete der menschlichen und automatisierten Informationsverarbeitung verknüpft und vorantreibt. Der gewählte Ansatz geht weit über die reine Datenakquisition hinaus und erlaubt es, adaptive Wissensextraktionsprozesse zu optimieren. Eine offene Kampagne zur Evaluierung der entwickelten Algorithmen wird deren Präzision und Skalierbarkeit messen - nicht nur im Hinblick auf Fakten, sondern auch um emotionales Wissen effektiv zu extrahieren. Neben innovativen Verfahren zur Evaluierung wird das uComp Projekt auch eine gemeinsame Datenbasis zur Verfügung stellen und den gewählten Ansatz mit traditionellen Verfahren zur Wissensextraktion vergleichen. Die von uComp entwickelten Methoden sind generisch konzipiert und daher auf beliebige Themenbereiche anwendbar. Aufgrund der Relevanz und inhaltlichen Komplexität wurde Klimawandel als primäres Anwendungsbeispiel gewählt. Das Thema ist durch wechselhafte und vielfach widersprüchliche Interpretationen geprägt. Führende internationale Organisationen (European Environment Agency, British Library, NASA Ames Research Center und NOAA Climate Program Office) werden umfangreiche Datenarchive zur Verfügung stellen und Klimawandel-Experten im Rahmen der Evaluierung vermitteln. Darüber hinaus werden diese Kooperationen den Impact und die internationale Sichtbarkeit des Projekts erhöhen.
In unserem Alltagsleben halten immer mehr Systeme Einzug, welche auf Methoden der Künstlichen Intelligenz und des Semantic Web basieren. Für diese Werkzeuge gibt es eine große Zahl praktischer Einsatzgebiete. Allerdings sind derartige Systeme vielfach auf Trainingsdaten angewiesen, um ihre Algorithmen zu trainieren und auf die Anwendung vorzubereiten. Zudem müssen die automatisch generierten Resultate auf Korrektheit überprüft werden somit ist der menschliche Beitrag in vielen Fällen noch immer nötig. Experten sind in der Regel jedoch teuer und knapp, deshalb werden Crowdsourcing-Verfahren eingesetzt um die kollektive Intelligenz großer Benutzer-Gruppen in diese Prozesse zu integrieren.Im uComp Projekt hat ein Forschungsteam der WU Wien spezifisch am Zusammenspiel menschlicher Benutzer und maschinellen Algorithmen gearbeitet. Dafür wurde zum Beispiel ein Plugin für den Ontologie-Editor Protégé entwickelt, implementiert und evaluiert. Mit diesem Plugin wurde die Machbarkeit und Skalierbarkeit von Crowdsourcing im Bereich der Generierung und Überprüfung von (strukturiertem) Wissen erforscht. Das Team hat verschiedene Einstellung untersucht, um Crowdsourcing-Arbeit möglichst effektiv zu nutzen, und um die Resultate der menschlichen Experten mit Crowdsourcing zu vergleichen. Um generalisierbare Ergebnisse zu erhalten, wurde in verschiedenen Wissensbereichen und Sprachen gearbeitet. Weiters hat die WU das zugrundeliegende System zur automatisierten Bildung von Wissensmodellen verbessert. Das Wissen aus der Analyse unstrukturierter Text-Daten (beispielweise von Nachrichten Websites oder aus sozialen Medien) wird gemeinsam mit strukturierten Daten in einer Semantic Kowledge Base gespeichert. Zusätzlich wurde erforscht, wie solche Systeme optimiert und ausbalanciert werden können, beispielsweise im Hinblick auf eine automatisierte Qualitätskontrolle und die Verarbeitung redundanter Daten.
- Wirtschaftsuniversität Wien - 100%
- Patrick Paroubek, The Computer Sciences Laboratory for Mechanics and Engineering Sciences - Frankreich
- Wim Peters, University of Sheffield - Vereinigtes Königreich
Research Output
- 79 Zitationen
- 17 Publikationen
-
2022
Titel Docking simulation and ADMET prediction based investigation on the phytochemical constituents of Noni (Morinda citrifolia) fruit as a potential anticancer drug DOI 10.1007/s40203-022-00130-4 Typ Journal Article Autor Chandran K Journal In Silico Pharmacology Seiten 14 -
2016
Titel A Comparison of Domain Experts and Crowdsourcing Regarding Concept Relevance Evaluation in Ontology Learning DOI 10.1007/978-3-319-49397-8_21 Typ Book Chapter Autor Wohlgenannt G Verlag Springer Nature Seiten 243-254 -
2014
Titel The uComp Protégé Plugin: Crowdsourcing Enabled Ontology Engineering DOI 10.1007/978-3-319-13704-9_14 Typ Book Chapter Autor Hanika F Verlag Springer Nature Seiten 181-196 -
2012
Titel Dynamic Integration of Multiple Evidence Sources for Ontology Learning. Typ Journal Article Autor Sabou M Et Al -
2015
Titel Similarity Metrics in Ontology Evolution. Typ Conference Proceeding Abstract Autor Savenkov V Konferenz Klinov P, Mourmotsev D (Ed), KESW 2015, Posters and Position Papers. -
2015
Titel Exploring and Exploiting(?) the Awkward Connections Between SKOS and OWL. Typ Journal Article Autor Belk S Journal Arenas M et al (Eds), The Semantic Web: 14th International Semantic Web Conference (ISWC). -
2015
Titel Leveraging and Balancing Heterogeneous Sources of Evidence in Ontology Learning DOI 10.1007/978-3-319-18818-8_4 Typ Book Chapter Autor Wohlgenannt G Verlag Springer Nature Seiten 54-68 Link Publikation -
2015
Titel Optimizing Ontology Learning Systems that Use Heterogeneous Sources of Evidence DOI 10.1007/978-3-319-26181-2_13 Typ Book Chapter Autor Wohlgenannt G Verlag Springer Nature Seiten 137-148 -
2015
Titel A Trend Detection Platform based on Ontology Learning. Typ Conference Proceeding Abstract Autor Karacsonyi M Et Al Konferenz Klinov P, Mourmotsev D (Ed), KESW 2015, Posters and Position Papers. -
2014
Titel The uComp Protege Plugin for Crowdsourcing Ontology Validation. Typ Journal Article Autor Hanika F Journal Horridge M et al (Eds): Proceedings of the ISWC 2014 Posters and Demonstrations Track a track within the 13th International Semantic Web Conference (ISWC 2014). -
2014
Titel Using an Ontology Learning System for Trend Analysis and Detection. Typ Journal Article Autor Schett M Et Al Journal Proceedings of the ISWC 2014 Posters and Demonstrations Track, 13th International Semantic Web Conference (ISWC 2014). -
2013
Titel Computing Semantic Association: Comparing Spreading Activation and Spectral Association for Ontology Learning DOI 10.1007/978-3-642-44949-9_29 Typ Book Chapter Autor Wohlgenannt G Verlag Springer Nature Seiten 317-328 -
2016
Titel Crowd-based ontology engineering with the uComp Protégé plugin DOI 10.3233/sw-150181 Typ Journal Article Autor Wohlgenannt G Journal Semantic Web Seiten 379-398 Link Publikation -
2016
Titel Detection of Valid Sentiment-Target Pairs in Online Product Reviews and News Media Articles DOI 10.1109/wi.2016.0024 Typ Conference Proceeding Abstract Autor Vakulenko S Seiten 97-104 -
2016
Titel Using word2vec to Build a Simple Ontology Learning System. Typ Journal Article Autor Minic F Journal Groth P et al (Ed), 15th International Semantic Web Conference (ISWC), Proceedings. -
2016
Titel Extracting Social Networks from Literary Text with Word Embedding Tools. Typ Conference Proceeding Abstract Autor Ilvovsky D Et Al Konferenz Workshop Language Technology Resources and Tools for Digital Humanities (LT4DH) at COLING. -
2012
Titel Confidence Management for Learning Ontologies from Dynamic Web Sources. Typ Conference Proceeding Abstract Autor Sabou M Et Al Konferenz Filipe, Dietz (Eds), 4th International Conference on Knowledge Engineering and Ontology Development (KEOD-2012).