Projektdetail

Grant-DOI 10.55776/P34962
Bewilligungssumme Einzelprojekte
Status laufend
Projektbeginn 01.12.2021
Projektende 30.11.2026
Bewilligungssumme 399.699 €

Wissenschaftsdisziplinen

Informatik (100%)

Keywords

Similarity Query,
Duplicate Detection,
Entity Resolution,
Database Systems,
Query Processing

Abstract

Datenbanksysteme, welche es erlauben, große Datenmengen zu speichern und abzufragen, sind ein unverzichtbarer Bestandteil fast jeder Anwendungssoftware. Ein besonderes Merkmal vieler Datenbanksysteme sind deklarative Anfragen: Benutzer beschreiben nur die erwünschte Antwort auf eine Anfrage (was?) und nicht den Prozess, der diese Antwort berechnet (wie?). Deklarative Anfragen, die auf exakter Übereinstimmung basieren (z.B. finde alle Bestellungen einer Kundin anhand ihrer Kundennummer), werden von Datenbanksystemen in effiziente Programme übersetzt, welche die Antwort berechnen. Für sogenannte Ähnlichkeitsanfragen ist das jedoch nicht der Fall. In Ähnlichkeitsanfragen stimmen zwei Objekte überein, wenn sie ähnlich sind. Solche Anfragen sind erforderlich, wenn Gleichheit und exakte Übereinstimmung zu kurz greifen, z.B. im Umgang mit fehlerhaften und inkonsistenten Daten. Dies tritt häufig auf, wenn Daten aus mehreren Quellen integriert werden sollen, z.B. um betriebseigene Daten mit externen Datenquellen anzureichern. Die Forschung hat sich bisher auf die Entwicklung von Ähnlichkeitsmaßen für verschiedene Anwendungsgebiete und die effiziente Bearbeitung spezifischer Anfragen beschäftigt. Diese Techniken stellen jedoch isolierte Lösungen dar und deren Integration in Datenbanksysteme hat wenig Beachtung erfahren. Deshalb können Anwendungen, welche komplexere Ähnlichkeitsanfragen benötigen, nicht auf Standardsysteme zurückgreifen. Stattdessen müssen Ähnlichkeitsanfragen mit Ad-hoc-Lösungen behandelt werden, z.B. eine händische Erweiterung des Datenbanksystems oder die Entwicklung von maßgeschneiderter Software. Beide Ansätze sind umständlich, kostenintensiv und ineffizient. In diesem Projekt überbrücken wir diese Kluft und erforschen Ähnlichkeitsanfragen in einem breiteren Systemkontext. Wir wollen ein tiefes Verständnis aller Aspekte entwickeln, die erforderlich sind, um die Bearbeitung von Ähnlichkeitsanfragen in gängigen Systemen zu ermöglichen. Das Ziel ist die Integration von Ähnlichkeitsanfragen in deklarative Datenbanksysteme und deren effiziente Bearbeitung in diesen Systemen. Die Kernelemente zur Umsetzung sind (a) das Zerlegen der Ähnlichkeitsanfragen in kleine, atomare Operatoren, (b) die automatische Generierung von alternativen Anfrageplänen anhand effizienter Bearbeitungstechniken, die dem Datenbanksystem zur Verfügung stehen und (c) die Bewertung alternativer Pläne sowie die Ausführung des günstigsten Plans. Im Erfolgsfall wird es dieses Projekt ermöglichen, deklarative Ähnlichkeitsanfragen in einem allgemeinen Datenbanksystem effizient zu behandeln. Benutzer von Datenbanksysteme brauchen dann nicht mehr Ad-hoc-Lösungen zu programmieren, sondern es wird auch Benutzern ohne Expertenwissen möglich sein, Ähnlichkeitsanfragen ohne großen Aufwand effizient auszuführen.

Forschungsstätte(n)

Universität Salzburg - 100%

Internationale Projektbeteiligte

Guoliang Li, Tsinghua University - China
Thomas Neumann, TU München - Deutschland
Felix Naumann, Universität Potsdam - Deutschland
Chen Li, University of California Irvine - Vereinigte Staaten von Amerika
Michael J Carey, University of California Irvine - Vereinigte Staaten von Amerika

Research Output

37 Zitationen
9 Publikationen

Publikationen

Titel	Scalable Distributed Inverted List Indexes in Disaggregated Memory
DOI	10.1145/3654974
Typ	Journal Article
Autor	Widmoser M
Journal	Proceedings of the ACM on Management of Data
Seiten	1-27
Link	Publikation

Titel	SWOOP: top-k similarity joins over set streams
DOI	10.1007/s00778-024-00880-x
Typ	Journal Article
Autor	Mann W
Journal	The VLDB Journal
Seiten	13
Link	Publikation

Titel	JEDI: These aren't the JSON documents you're looking for... (Extended Version*)
DOI	10.48550/arxiv.2201.08099
Typ	Preprint
Autor	Hütter T

Titel	Benchmarking Filtering Techniques for Entity Resolution
DOI	10.1109/icde55515.2023.00389
Typ	Conference Proceeding Abstract
Autor	Papadakis G
Seiten	653-666

Titel	Koios: Top-k Semantic Overlap Set Search
DOI	10.1109/icde55515.2023.00121
Typ	Conference Proceeding Abstract
Autor	Mundra P
Seiten	1531-1543

Titel	KOIOS: Top-k Semantic Overlap Set Search
DOI	10.48550/arxiv.2304.10572
Typ	Preprint
Autor	Mundra P

Titel	Feedforward-Aided Course Designs for Similarity Search
DOI	10.1145/3596673.3596974
Typ	Conference Proceeding Abstract
Autor	Hütter T
Seiten	14-17
Link	Publikation

Titel	FINEX: A Fast Index for Exact & Flexible Density-Based Clustering
DOI	10.1145/3588925
Typ	Journal Article
Autor	Thiel K
Journal	Proceedings of the ACM on Management of Data
Seiten	1-25
Link	Publikation

Titel	JEDI: These aren't the JSON documents you're looking for...
DOI	10.1145/3514221.3517850
Typ	Conference Proceeding Abstract
Autor	Hütter T
Seiten	1584-1597
Link	Publikation

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

DESQ - Deklarative und Effiziente Ähnlichkeitsanfragen

DESQ - Declarative and Efficient Similarity Queries

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

DESQ - Deklarative und Effiziente Ähnlichkeitsanfragen

DESQ - Declarative and Efficient Similarity Queries

Wissenschaftsdisziplinen

Keywords

Research Output