DESQ - Deklarative und Effiziente Ähnlichkeitsanfragen
DESQ - Declarative and Efficient Similarity Queries
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
-
Similarity Query,
Duplicate Detection,
Entity Resolution,
Database Systems,
Query Processing
Datenbanksysteme, welche es erlauben, große Datenmengen zu speichern und abzufragen, sind ein unverzichtbarer Bestandteil fast jeder Anwendungssoftware. Ein besonderes Merkmal vieler Datenbanksysteme sind deklarative Anfragen: Benutzer beschreiben nur die erwünschte Antwort auf eine Anfrage (was?) und nicht den Prozess, der diese Antwort berechnet (wie?). Deklarative Anfragen, die auf exakter Übereinstimmung basieren (z.B. finde alle Bestellungen einer Kundin anhand ihrer Kundennummer), werden von Datenbanksystemen in effiziente Programme übersetzt, welche die Antwort berechnen. Für sogenannte Ähnlichkeitsanfragen ist das jedoch nicht der Fall. In Ähnlichkeitsanfragen stimmen zwei Objekte überein, wenn sie ähnlich sind. Solche Anfragen sind erforderlich, wenn Gleichheit und exakte Übereinstimmung zu kurz greifen, z.B. im Umgang mit fehlerhaften und inkonsistenten Daten. Dies tritt häufig auf, wenn Daten aus mehreren Quellen integriert werden sollen, z.B. um betriebseigene Daten mit externen Datenquellen anzureichern. Die Forschung hat sich bisher auf die Entwicklung von Ähnlichkeitsmaßen für verschiedene Anwendungsgebiete und die effiziente Bearbeitung spezifischer Anfragen beschäftigt. Diese Techniken stellen jedoch isolierte Lösungen dar und deren Integration in Datenbanksysteme hat wenig Beachtung erfahren. Deshalb können Anwendungen, welche komplexere Ähnlichkeitsanfragen benötigen, nicht auf Standardsysteme zurückgreifen. Stattdessen müssen Ähnlichkeitsanfragen mit Ad-hoc-Lösungen behandelt werden, z.B. eine händische Erweiterung des Datenbanksystems oder die Entwicklung von maßgeschneiderter Software. Beide Ansätze sind umständlich, kostenintensiv und ineffizient. In diesem Projekt überbrücken wir diese Kluft und erforschen Ähnlichkeitsanfragen in einem breiteren Systemkontext. Wir wollen ein tiefes Verständnis aller Aspekte entwickeln, die erforderlich sind, um die Bearbeitung von Ähnlichkeitsanfragen in gängigen Systemen zu ermöglichen. Das Ziel ist die Integration von Ähnlichkeitsanfragen in deklarative Datenbanksysteme und deren effiziente Bearbeitung in diesen Systemen. Die Kernelemente zur Umsetzung sind (a) das Zerlegen der Ähnlichkeitsanfragen in kleine, atomare Operatoren, (b) die automatische Generierung von alternativen Anfrageplänen anhand effizienter Bearbeitungstechniken, die dem Datenbanksystem zur Verfügung stehen und (c) die Bewertung alternativer Pläne sowie die Ausführung des günstigsten Plans. Im Erfolgsfall wird es dieses Projekt ermöglichen, deklarative Ähnlichkeitsanfragen in einem allgemeinen Datenbanksystem effizient zu behandeln. Benutzer von Datenbanksysteme brauchen dann nicht mehr Ad-hoc-Lösungen zu programmieren, sondern es wird auch Benutzern ohne Expertenwissen möglich sein, Ähnlichkeitsanfragen ohne großen Aufwand effizient auszuführen.
- Universität Salzburg - 100%
- Guoliang Li, Tsinghua University - China
- Thomas Neumann, TU München - Deutschland
- Felix Naumann, Universität Potsdam - Deutschland
- Chen Li, University of California Irvine - Vereinigte Staaten von Amerika
- Michael J Carey, University of California Irvine - Vereinigte Staaten von Amerika
Research Output
- 34 Zitationen
- 9 Publikationen
-
2023
Titel Benchmarking Filtering Techniques for Entity Resolution DOI 10.1109/icde55515.2023.00389 Typ Conference Proceeding Abstract Autor Papadakis G Seiten 653-666 -
2023
Titel Koios: Top-k Semantic Overlap Set Search DOI 10.1109/icde55515.2023.00121 Typ Conference Proceeding Abstract Autor Mundra P Seiten 1531-1543 -
2022
Titel JEDI: These aren't the JSON documents you're looking for... DOI 10.1145/3514221.3517850 Typ Conference Proceeding Abstract Autor Hütter T Seiten 1584-1597 Link Publikation -
2024
Titel SWOOP: top-k similarity joins over set streams DOI 10.1007/s00778-024-00880-x Typ Journal Article Autor Mann W Journal The VLDB Journal Seiten 13 Link Publikation -
2023
Titel Feedforward-Aided Course Designs for Similarity Search DOI 10.1145/3596673.3596974 Typ Conference Proceeding Abstract Autor Hütter T Seiten 14-17 Link Publikation -
2023
Titel FINEX: A Fast Index for Exact & Flexible Density-Based Clustering DOI 10.1145/3588925 Typ Journal Article Autor Thiel K Journal Proceedings of the ACM on Management of Data Seiten 1-25 Link Publikation -
2023
Titel KOIOS: Top-k Semantic Overlap Set Search DOI 10.48550/arxiv.2304.10572 Typ Preprint Autor Mundra P -
2022
Titel JEDI: These aren't the JSON documents you're looking for... (Extended Version*) DOI 10.48550/arxiv.2201.08099 Typ Preprint Autor Hütter T -
2024
Titel Scalable Distributed Inverted List Indexes in Disaggregated Memory DOI 10.1145/3654974 Typ Journal Article Autor Widmoser M Journal Proceedings of the ACM on Management of Data Seiten 1-27 Link Publikation