Projektdetail

Grant-DOI 10.55776/M1720
Bewilligungssumme Lise Meitner
Status beendet
Projektbeginn 01.01.2015
Projektende 30.04.2017
Bewilligungssumme 125.000 €
Projekt-Website

Wissenschaftsdisziplinen

Informatik (75%); Wirtschaftswissenschaften (25%)

Keywords

Linked Data,
Archiving,
Indexing,
Semantic Web,
Compression,
Temporal Queries

Abstract

Zusammenfassung

Das Linked Data hat in den vergangenen Jahren dazu geführt, dass mehr und mehr strukturierte Daten am Web im RDF Format verfügbar sind und neben dem klassischen Web von Dokumenten ein neues Web von untereinander verlinkten, maschinenlesbaren Daten bilden. In der Wissenschaft führte dies zu einer Reihe von Forschungsarbeiten zu Themen wie Indexierung, effizientes Abfragen und Speichern von RDF Daten und Abfragesprachen und Inferenzmechanismen für RDF am Web, sowie Visualisierung von großen Graph-basierten Datenmengen, die in RDF repräsentiert sind. RDF Daten am Web sind allerdings, wie alle Web-Inhalte dynamisch, was die Untersuchung von Veränderungen und Trends von solchen Web-Daten und zur Archivierung von sich verändernden Daten nahelegt. Das vorliegende Projekt plant die Untersuchung von Infrastrukturen um Web daten zu archivieren und solcherart archivierte Daten mittels strukturierter, temporaler Abfragen zugreifbar zu machen. Traditionelle Methoden der Archivierung von Web-Inhalten mittels Web-Crawlern haben zur Verfügbarkeit riesiger Archive von historischen Web-Dokumenten geführt. Allerdings sind diese Archive mit zunehmendem Wachstum und Geschwindigkeit von Veränderungen der Inhalte im Web nicht für ein Web von sich verändernden Daten geeignet, das längst nicht mehr auf statischen Dokumenten basiert: zum einen sind Web-Archive (a) nach wie vor relativ zentralisiert, (b) stellen sie nur sehr rudimentäre Suchanfragemoeglichkeiten zur Verfügung, wohingegen man für ein Web von Daten die Möglichkeit erwarten würde, Daten und deren Veränderungen über die Zeit mittels strukturierter Anfragen abfragen zu können. Im vorliegenden Projekt wollen wir in Bezug auf (a) eine dezentrale Infrastruktur zur Archivierung von verlinkten Datensets semantischer Daten entwickeln, welche gleichzeitig das Abfragen solcher Daten über die Zeit erlaubt. Zu diesem Zweck planen wir die Untersuchung geeigneter Datenstrukturen und Datenkomprimierugnsmethoden fuer historische, verlinkte Daten in modularer Art und Weise. Bezüglich (b) planen wir die Untersuchung und Erweiterung geeigneter Abragesprachen fuer solcherart archivierte Daten. Unsere Architektur soll die Abfrage von Veränderungsmustern sowie temporale Abfragen über die Zeit als auch die Berücksichtigung von ontologischen Inferenzen, die ein fixer Bestandteil von semantischen Daten sind, erlauben. Schlussendlich werden wir unsere Methoden aufgrund echter Daten im Web verifizieren. Wir planen dazu den aufbau eines Archivs fuer Open Government Data (OGD), von verschiedenen OGD-Anbietern, da in diesem Bereich mehr und mehr Daten verfügbar sind und zunehmend als Linked Data repraesentiert werden. Wir planen signifikante Forschungsergebnisse in verschiedenen Aspekten: kompakte Datenrepräsentation von großen Mengen historischer, sich verändernder RDF Daten, effiziente Anfragemechanismen für temporale Daten auf dieser Repräsentation und Erweiterungen von Abfragesprachen um temporale Aspekte, um speziell Veränderungsmuster abfragen zu können. Die vorgeschlagene Arbeit fügt sich außerdem nahtlos in die bestehenden Forschungsaktivitäten an der Host-Institution ein, wo bereits komplementäre Expertise in den Gebieten Semantic Web Crawling, Web-Daten-Extraktion, Live-Abfragen und föderierte Anfragen von Web Daten, Grundlagen von Abfragesprachen und Inferenz über Web Daten vorhanden sind. Auch internationale Kollaborationen werden durch das Projekt gestärkt.

Das Semantische Web kann als ein offenes System verstanden werden, um die Publikation von Daten zu organisieren und diese in einer wiederverwendbaren, maschinenlesbaren Form verfügbar zu machen, sodass sie automatisch integrierbar und auffindbar sind, und die Formulierung und Ausführung von strukturierten Anfragen über solche am Web verteilte Daten möglich wird. Allerdings ist die Idee einer solchen globalen Daten- und Wissensbasis ohne einen zentralen Kotrollinstanz schwer zu verwirklichen: ständig werden neue Datensätze dezentral neu hinzugefügt, verschwinden wieder oder verändern sich. Das vorliegende Projekt hatte es zum Ziel Webdaten möglichst effizient und skalierbar zu archivieren und damit Abfragen über so ein "Archiv des Semantischen Web zu ermöglichen. In unserem Projekt haben wir erstmals (i) ein System entwickelt um große Mengen von Semantischen Daten aus dem Web in RDF in einem komprimierten Format (v-RDFCSA) zu archivieren und strukturiert abzufragen, (ii) eine Benchmark (BEAR) entwickelt, die verschiedene Datenstrukturen und Archivierungsmethoden anhand ihrer Speicherplatz-Effizienz, sowie anhand verschiedener typischer Abfrageaufgaben an so ein Archiv vergleicht, (iii) als praktischen use case ein on-demant Archiv für die DBpedia Datenbank, eine Semantische Version der Infobox-Daten in Wikipedia, aufgebaut (die DBpedia Wayback Machine). In Erforschung der Grundlagen solcher Archive haben wir uns außerdem (iv) mit theoretischen Aspekten der Komplexität von Anfragen über solche Archive im Zusammenspiel mit den verwendeten Datenstrukturen und Archivierungsmethoden beschäftigt. Hier wurden (v) verschiedene Anfrage-Muster identifiziert die in konkrete Abfragesprachen übersetzt wurden um solche Anfragen praktisch auszuwerten. Desweiteren wurden (vi) Komprimierungsverfahren und Indizierungsmethoden untersucht, um die Anfragen zu optimieren. Zu guter Letzt wurden Charakteristika, von Archiven für praktische use cases und Datensätze untersucht (wie etwa die unterschiedlichen Veränderungsraten und -Muster) und wie sich diese auf die Abfrage-Performance auswirkt, sowie (viii) ein pragmatischer Mechanismus entworfen um Updates in DBpedia zu automatisieren. Zusammenfassend konnte das Projekt signifikante Fortschritte im Bereich des Management, der Preservation und der Archivierung von sich über die Zeit verändernden Big Data Beständen erzielen: Neben zahlreichen wissenschaftlichen Puplikationen in wichtigen internationalen Konferenzen in den Bereich Semantic Web und Data Compression, wurden vom Projekt zwei internationale Workshops (MEPDaW) organisiert und ein Journal Special Issue zum Thema Semantic Data Archiving ausgeschrieben. Das Projekt wurde hauptsächlich an der WU Wien durchgeführt, im Zuge der Arbeiten wurden aber auch internationale Kollaboration mit der U. Valladolid (Spanien), U. de Chile (Chile), Fraunhofer IAIS (Deutschland), VU Amsterdam (die Niederlande), und dem Italian National Research Council erfolgreich weitergeführt.

Forschungsstätte(n)

Wirtschaftsuniversität Wien - 100%

Internationale Projektbeteiligte

Claudio Gutierrez, Universidad de Santiago de Chile - Chile
Sören Auer, Leibniz Universität Hannover - Deutschland
Pablo De La Fuente, Universidad de Valladolid - Spanien

Research Output

115 Zitationen
23 Publikationen

Publikationen

Titel	Towards Updating Wikipedia via DBpedia Mappings and SPARQL.
Typ	Conference Proceeding Abstract
Autor	Ahmeti A
Konferenz	10th Alberto Mendelzon Workshop on Fundations of Data Management

Titel	Self-Indexing RDF Archives**Funded by MINECO (PGE and FEDER) grants TIN2013-46238-C4-3-R, TIN2013-47090-C3-3-P, and TIN2015-69951-R; CDTI, MINE CO grant ITC-20151247; ICT COST Action IC1302; Xunta de Galicia (co-founded with FEDER) grant GRC2013/053;
DOI	10.1109/dcc.2016.40
Typ	Conference Proceeding Abstract
Autor	Cerdeira-Pena A
Seiten	526-535

Titel	Evaluating Query and Storage Strategies for RDF Archives
DOI	10.1145/2993318.2993333
Typ	Conference Proceeding Abstract
Autor	Fernández J
Seiten	41-48
Link	Publikation

Titel	Report on the 2nd Workshop on Managing the Evolution and Preservation of the Data Web (MEPDaW 2016)
DOI	10.1145/3053408.3053423
Typ	Journal Article
Autor	Debattista J
Journal	ACM SIGIR Forum
Seiten	82-88

Titel	Characterising RDF data sets
DOI	10.1177/0165551516677945
Typ	Journal Article
Autor	Fernández J
Journal	Journal of Information Science
Seiten	203-229

Titel	LOD-a-lot
DOI	10.1145/3132218.3132241
Typ	Conference Proceeding Abstract
Autor	Beek W
Seiten	181-184
Link	Publikation

Titel	Updating Wikipedia via DBpedia Mappings and SPARQL
DOI	10.1007/978-3-319-58068-5_30
Typ	Book Chapter
Autor	Ahmeti A
Verlag	Springer Nature
Seiten	485-501

Titel	Self-Enforcing Access Control for Encrypted RDF
DOI	10.1007/978-3-319-58068-5_37
Typ	Book Chapter
Autor	Fernández J
Verlag	Springer Nature
Seiten	607-622

Titel	V- iHDT++: un Autondice Semntico para la Resolucin de Triple Patterns SPARQL.
Typ	Conference Proceeding Abstract
Autor	Fernández Jd Et Al
Konferenz	XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD)

Titel	Ontology-Based Search of Genomic Metadata
DOI	10.1109/tcbb.2015.2495179
Typ	Journal Article
Autor	Fernandez J
Journal	IEEE/ACM Transactions on Computational Biology and Bioinformatics
Seiten	233-247
Link	Publikation

Titel	Serializing RDF in Compressed Space**Research funded by Ministerio de Economiay Competitividad Spain: TIN2013-46238-C4-3-R, and Austrian Science Fund (FWF): M1720-G11
DOI	10.1109/dcc.2015.16
Typ	Conference Proceeding Abstract
Autor	Hernández-Illera A
Seiten	363-372

Titel	On the Road to the Evaluation of RDF Stream Compression Techniques.
Typ	Conference Proceeding Abstract
Autor	Arias J
Konferenz	RDF Stream Processing Workshop, co-located with 12th European Semantic Web Conference (ESWC 2015)

Titel	Compresin de Big Semantic Data basada en HDT y MapReduce.
Typ	Conference Proceeding Abstract
Autor	Fernández Jd Et Al
Konferenz	XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD)

Titel	V-RDFCSA: Compresin e Indexacin de Colecciones de Versiones RDF.
Typ	Conference Proceeding Abstract
Autor	Cerdeira-Pena A
Konferenz	XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD)

Titel	Self-Indexing RDF Archives.
Typ	Conference Proceeding Abstract
Autor	Cerdeira-Pena A
Konferenz	Data Compression Conference 2016.

Titel	Report on the 2ndWorkshop on Managing the Evolution and Preservation of the Data Web (MEPDaW 2016).
Typ	Conference Proceeding Abstract
Autor	Debattista J
Konferenz	SIGIR Forum, December 2016

Titel	The DBpedia wayback machine
DOI	10.1145/2814864.2814889
Typ	Conference Proceeding Abstract
Autor	Fernández J
Seiten	192-195

Titel	BEAR: Benchmarking the Efficiency of RDF Archiving.
Typ	Journal Article
Autor	Fernández Jd
Journal	Technical Report 02/2015, Department fur Informationsverarbeitung und Prozessmanagement, WU Vienna University of Economics and Business

Titel	HDT-MR: A Scalable Solution for RDF Compression with HDT and MapReduce
DOI	10.1007/978-3-319-18818-8_16
Typ	Book Chapter
Autor	Giménez-García J
Verlag	Springer Nature
Seiten	253-268

Titel	Towards Efficient Archiving of Dynamic Linked Open Data.
Typ	Conference Proceeding Abstract
Autor	Fernández Jd
Konferenz	DIACHRON Workshop on Managing the Evolution and Preservation of the Data Web co-located with 12th European Semantic Web Conference (ESWC 2015)

Titel	Improving the usability of Open Data portals from a business process perspective.
Typ	Conference Proceeding Abstract
Autor	Di Ciccio C
Konferenz	ODQ2015: Open Data Quality: from Theory to Practice Workshop.

DOI	10.1145/3132218
Typ	Other

Titel	Compresin de Big Semantic Data basada en HDT y MapReduce.
Typ	Other
Autor	Fernández Jd Et Al

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Anfragemechanismen für archivierte dynamisch verlinkte Daten

Querying Archives of Dynamic Linked Open Data

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Anfragemechanismen für archivierte dynamisch verlinkte Daten

Querying Archives of Dynamic Linked Open Data

Wissenschaftsdisziplinen

Keywords

Research Output