Anfragemechanismen für archivierte dynamisch verlinkte Daten
Querying Archives of Dynamic Linked Open Data
Wissenschaftsdisziplinen
Informatik (75%); Wirtschaftswissenschaften (25%)
Keywords
-
Linked Data,
Archiving,
Indexing,
Semantic Web,
Compression,
Temporal Queries
Das Linked Data hat in den vergangenen Jahren dazu geführt, dass mehr und mehr strukturierte Daten am Web im RDF Format verfügbar sind und neben dem klassischen Web von Dokumenten ein neues Web von untereinander verlinkten, maschinenlesbaren Daten bilden. In der Wissenschaft führte dies zu einer Reihe von Forschungsarbeiten zu Themen wie Indexierung, effizientes Abfragen und Speichern von RDF Daten und Abfragesprachen und Inferenzmechanismen für RDF am Web, sowie Visualisierung von großen Graph-basierten Datenmengen, die in RDF repräsentiert sind. RDF Daten am Web sind allerdings, wie alle Web-Inhalte dynamisch, was die Untersuchung von Veränderungen und Trends von solchen Web-Daten und zur Archivierung von sich verändernden Daten nahelegt. Das vorliegende Projekt plant die Untersuchung von Infrastrukturen um Web daten zu archivieren und solcherart archivierte Daten mittels strukturierter, temporaler Abfragen zugreifbar zu machen. Traditionelle Methoden der Archivierung von Web-Inhalten mittels Web-Crawlern haben zur Verfügbarkeit riesiger Archive von historischen Web-Dokumenten geführt. Allerdings sind diese Archive mit zunehmendem Wachstum und Geschwindigkeit von Veränderungen der Inhalte im Web nicht für ein Web von sich verändernden Daten geeignet, das längst nicht mehr auf statischen Dokumenten basiert: zum einen sind Web-Archive (a) nach wie vor relativ zentralisiert, (b) stellen sie nur sehr rudimentäre Suchanfragemoeglichkeiten zur Verfügung, wohingegen man für ein Web von Daten die Möglichkeit erwarten würde, Daten und deren Veränderungen über die Zeit mittels strukturierter Anfragen abfragen zu können. Im vorliegenden Projekt wollen wir in Bezug auf (a) eine dezentrale Infrastruktur zur Archivierung von verlinkten Datensets semantischer Daten entwickeln, welche gleichzeitig das Abfragen solcher Daten über die Zeit erlaubt. Zu diesem Zweck planen wir die Untersuchung geeigneter Datenstrukturen und Datenkomprimierugnsmethoden fuer historische, verlinkte Daten in modularer Art und Weise. Bezüglich (b) planen wir die Untersuchung und Erweiterung geeigneter Abragesprachen fuer solcherart archivierte Daten. Unsere Architektur soll die Abfrage von Veränderungsmustern sowie temporale Abfragen über die Zeit als auch die Berücksichtigung von ontologischen Inferenzen, die ein fixer Bestandteil von semantischen Daten sind, erlauben. Schlussendlich werden wir unsere Methoden aufgrund echter Daten im Web verifizieren. Wir planen dazu den aufbau eines Archivs fuer Open Government Data (OGD), von verschiedenen OGD-Anbietern, da in diesem Bereich mehr und mehr Daten verfügbar sind und zunehmend als Linked Data repraesentiert werden. Wir planen signifikante Forschungsergebnisse in verschiedenen Aspekten: kompakte Datenrepräsentation von großen Mengen historischer, sich verändernder RDF Daten, effiziente Anfragemechanismen für temporale Daten auf dieser Repräsentation und Erweiterungen von Abfragesprachen um temporale Aspekte, um speziell Veränderungsmuster abfragen zu können. Die vorgeschlagene Arbeit fügt sich außerdem nahtlos in die bestehenden Forschungsaktivitäten an der Host-Institution ein, wo bereits komplementäre Expertise in den Gebieten Semantic Web Crawling, Web-Daten-Extraktion, Live-Abfragen und föderierte Anfragen von Web Daten, Grundlagen von Abfragesprachen und Inferenz über Web Daten vorhanden sind. Auch internationale Kollaborationen werden durch das Projekt gestärkt.
Das Semantische Web kann als ein offenes System verstanden werden, um die Publikation von Daten zu organisieren und diese in einer wiederverwendbaren, maschinenlesbaren Form verfügbar zu machen, sodass sie automatisch integrierbar und auffindbar sind, und die Formulierung und Ausführung von strukturierten Anfragen über solche am Web verteilte Daten möglich wird. Allerdings ist die Idee einer solchen globalen Daten- und Wissensbasis ohne einen zentralen Kotrollinstanz schwer zu verwirklichen: ständig werden neue Datensätze dezentral neu hinzugefügt, verschwinden wieder oder verändern sich. Das vorliegende Projekt hatte es zum Ziel Webdaten möglichst effizient und skalierbar zu archivieren und damit Abfragen über so ein "Archiv des Semantischen Web zu ermöglichen. In unserem Projekt haben wir erstmals (i) ein System entwickelt um große Mengen von Semantischen Daten aus dem Web in RDF in einem komprimierten Format (v-RDFCSA) zu archivieren und strukturiert abzufragen, (ii) eine Benchmark (BEAR) entwickelt, die verschiedene Datenstrukturen und Archivierungsmethoden anhand ihrer Speicherplatz-Effizienz, sowie anhand verschiedener typischer Abfrageaufgaben an so ein Archiv vergleicht, (iii) als praktischen use case ein on-demant Archiv für die DBpedia Datenbank, eine Semantische Version der Infobox-Daten in Wikipedia, aufgebaut (die DBpedia Wayback Machine). In Erforschung der Grundlagen solcher Archive haben wir uns außerdem (iv) mit theoretischen Aspekten der Komplexität von Anfragen über solche Archive im Zusammenspiel mit den verwendeten Datenstrukturen und Archivierungsmethoden beschäftigt. Hier wurden (v) verschiedene Anfrage-Muster identifiziert die in konkrete Abfragesprachen übersetzt wurden um solche Anfragen praktisch auszuwerten. Desweiteren wurden (vi) Komprimierungsverfahren und Indizierungsmethoden untersucht, um die Anfragen zu optimieren. Zu guter Letzt wurden Charakteristika, von Archiven für praktische use cases und Datensätze untersucht (wie etwa die unterschiedlichen Veränderungsraten und -Muster) und wie sich diese auf die Abfrage-Performance auswirkt, sowie (viii) ein pragmatischer Mechanismus entworfen um Updates in DBpedia zu automatisieren. Zusammenfassend konnte das Projekt signifikante Fortschritte im Bereich des Management, der Preservation und der Archivierung von sich über die Zeit verändernden Big Data Beständen erzielen: Neben zahlreichen wissenschaftlichen Puplikationen in wichtigen internationalen Konferenzen in den Bereich Semantic Web und Data Compression, wurden vom Projekt zwei internationale Workshops (MEPDaW) organisiert und ein Journal Special Issue zum Thema Semantic Data Archiving ausgeschrieben. Das Projekt wurde hauptsächlich an der WU Wien durchgeführt, im Zuge der Arbeiten wurden aber auch internationale Kollaboration mit der U. Valladolid (Spanien), U. de Chile (Chile), Fraunhofer IAIS (Deutschland), VU Amsterdam (die Niederlande), und dem Italian National Research Council erfolgreich weitergeführt.
- Wirtschaftsuniversität Wien - 100%
- Claudio Gutierrez, Universidad de Santiago de Chile - Chile
- Sören Auer, Leibniz Universität Hannover - Deutschland
- Pablo De La Fuente, Universidad de Valladolid - Spanien
Research Output
- 115 Zitationen
- 23 Publikationen
-
2017
Titel Characterising RDF data sets DOI 10.1177/0165551516677945 Typ Journal Article Autor Fernández J Journal Journal of Information Science Seiten 203-229 -
2017
Titel Report on the 2nd Workshop on Managing the Evolution and Preservation of the Data Web (MEPDaW 2016) DOI 10.1145/3053408.3053423 Typ Journal Article Autor Debattista J Journal ACM SIGIR Forum Seiten 82-88 -
2016
Titel Evaluating Query and Storage Strategies for RDF Archives DOI 10.1145/2993318.2993333 Typ Conference Proceeding Abstract Autor Fernández J Seiten 41-48 Link Publikation -
2015
Titel BEAR: Benchmarking the Efficiency of RDF Archiving. Typ Journal Article Autor Fernández Jd Journal Technical Report 02/2015, Department fur Informationsverarbeitung und Prozessmanagement, WU Vienna University of Economics and Business -
2015
Titel Serializing RDF in Compressed Space**Research funded by Ministerio de Economiay Competitividad Spain: TIN2013-46238-C4-3-R, and Austrian Science Fund (FWF): M1720-G11 DOI 10.1109/dcc.2015.16 Typ Conference Proceeding Abstract Autor Hernández-Illera A Seiten 363-372 -
0
DOI 10.1145/3132218 Typ Other -
0
Titel Compresin de Big Semantic Data basada en HDT y MapReduce. Typ Other Autor Fernández Jd Et Al -
2017
Titel V- iHDT++: un Autondice Semntico para la Resolucin de Triple Patterns SPARQL. Typ Conference Proceeding Abstract Autor Fernández Jd Et Al Konferenz XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD) -
2016
Titel V-RDFCSA: Compresin e Indexacin de Colecciones de Versiones RDF. Typ Conference Proceeding Abstract Autor Cerdeira-Pena A Konferenz XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD) -
2016
Titel Report on the 2ndWorkshop on Managing the Evolution and Preservation of the Data Web (MEPDaW 2016). Typ Conference Proceeding Abstract Autor Debattista J Konferenz SIGIR Forum, December 2016 -
2016
Titel Self-Indexing RDF Archives. Typ Conference Proceeding Abstract Autor Cerdeira-Pena A Konferenz Data Compression Conference 2016. -
2016
Titel Towards Updating Wikipedia via DBpedia Mappings and SPARQL. Typ Conference Proceeding Abstract Autor Ahmeti A Konferenz 10th Alberto Mendelzon Workshop on Fundations of Data Management -
2016
Titel Self-Indexing RDF Archives**Funded by MINECO (PGE and FEDER) grants TIN2013-46238-C4-3-R, TIN2013-47090-C3-3-P, and TIN2015-69951-R; CDTI, MINE CO grant ITC-20151247; ICT COST Action IC1302; Xunta de Galicia (co-founded with FEDER) grant GRC2013/053; DOI 10.1109/dcc.2016.40 Typ Conference Proceeding Abstract Autor Cerdeira-Pena A Seiten 526-535 -
2015
Titel Improving the usability of Open Data portals from a business process perspective. Typ Conference Proceeding Abstract Autor Di Ciccio C Konferenz ODQ2015: Open Data Quality: from Theory to Practice Workshop. -
2015
Titel On the Road to the Evaluation of RDF Stream Compression Techniques. Typ Conference Proceeding Abstract Autor Arias J Konferenz RDF Stream Processing Workshop, co-located with 12th European Semantic Web Conference (ESWC 2015) -
2015
Titel Ontology-Based Search of Genomic Metadata DOI 10.1109/tcbb.2015.2495179 Typ Journal Article Autor Fernandez J Journal IEEE/ACM Transactions on Computational Biology and Bioinformatics Seiten 233-247 Link Publikation -
2017
Titel Self-Enforcing Access Control for Encrypted RDF DOI 10.1007/978-3-319-58068-5_37 Typ Book Chapter Autor Fernández J Verlag Springer Nature Seiten 607-622 -
2017
Titel Updating Wikipedia via DBpedia Mappings and SPARQL DOI 10.1007/978-3-319-58068-5_30 Typ Book Chapter Autor Ahmeti A Verlag Springer Nature Seiten 485-501 -
2017
Titel LOD-a-lot DOI 10.1145/3132218.3132241 Typ Conference Proceeding Abstract Autor Beek W Seiten 181-184 Link Publikation -
2015
Titel HDT-MR: A Scalable Solution for RDF Compression with HDT and MapReduce DOI 10.1007/978-3-319-18818-8_16 Typ Book Chapter Autor Giménez-García J Verlag Springer Nature Seiten 253-268 -
2015
Titel Towards Efficient Archiving of Dynamic Linked Open Data. Typ Conference Proceeding Abstract Autor Fernández Jd Konferenz DIACHRON Workshop on Managing the Evolution and Preservation of the Data Web co-located with 12th European Semantic Web Conference (ESWC 2015) -
2015
Titel The DBpedia wayback machine DOI 10.1145/2814864.2814889 Typ Conference Proceeding Abstract Autor Fernández J Seiten 192-195 -
2016
Titel Compresin de Big Semantic Data basada en HDT y MapReduce. Typ Conference Proceeding Abstract Autor Fernández Jd Et Al Konferenz XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD)