Rucon - Laufzeitkontrolle in Multi-Clouds
Rucon - Runtime Control on Multi Clouds
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
- Cloud Computing,
- System Monitoring,
- Cloud Control,
- Distributed Systems,
- Quality of Service
Cloud Computingist eine wohl etablierte Technologie, die es ermöglicht, Rechenkapazitäten auf Abruf zur Verfügung zu stellen. Cloud-Betriebssysteme managen die Ausführung von Rechenressourcen, z.B. von physikalischen Maschinen (PM) oder Virtuellen Maschinen (VM) unter Einhaltung von Benutzerbedingungen. Eine Applikation ist üblicherweise auf einer Cloud installiert. Die heutigen komplexen und ultra-scale Applikationen aus dem sozialen und lifestyle Bereich, wie z.B. Applikationen für das Management von Smart Cities oder Applikationen für Medical Body Area Networks werden immer mehr in den Clouds installiert und ausgeführt. Solche komplexe Applikationen haben allerdings sehr herausfordernde Benutzeranforderungen und benötigen mehrere Clouds, um sinnvoll installiert und ausgeführt werden zu können. Vermehrt sind es auch die ökonomischen und ökologischen Gründe die dazu führen mehrere Clouds für die Installation einer Applikation in Betracht zu ziehen. Dieses Konzept wo ein Service Provider (SP) für die zusätzliche Komplexität der Koordinierung von multiplen Services auf externen Infrastruktur Anbietern (IA) einer Cloud Applikation zuständig ist, wird Multi Cloud genannt. Obwohl nicht-funktionale Garantien in einzelnen (single) Clouds ein sehr etabliertes Forschungsgebiet darstellen, sind die nicht-funktionale Garantien in Multi Clouds derzeit ein ungelöstes Forschungsproblem. In den letzten Jahren hat autonomes Computing als ein neues Paradigma für das Management von komplexen Systemen sehr an Bedeutung gewonnen. Im autonomen Systemen wird die Interaktion von den Maschinen mit den Menschen minimiert. Das Ziel dieses Projekts ist es neue autonomen Methoden für das Garantieren von nicht funktionalen Anforderungen in Multi Clouds zu entwickeln. Basierend auf der Komplexität der Multi Cloud, auf den Typ und der Qualität der Monitoring-Daten und auf der Fähigkeit ein Verhaltensmodel der Applikation zu bilden werden die prominentesten autonomen Methoden untersuchen. Diese Methoden reichen von Heuristiken, über kontroll-theoretischen Ansätze bis hin zur maschinellen Lernen. Anstatt die ganze Applikation selbst-adaptiv zu machen, versuchen wir jedes Teil der Applikation, das auf einem anderen Infrastruktur Anbieter installiert ist, selbst-adaptiv zu machen. Danach entwickeln wir eine neue Koordinierungsmethodik, um QoS auf multiplen Infrastruktur Anbietern zu kontrollieren.
Heutzutage werden große Rechenzentren zum Hosten von Anwendungen genutzt, die von sozialen Medien bis hin zu Video-Streaming-Apps reichen. Mittlerweile ist unsere Gesellschaft auf die Verfügbarkeit dieser Dienste für den Online-Unterricht oder die Wartung intelligenter Gebäude angewiesen. Für den ordnungsgemäßen Betrieb solcher Rechenzentren sind jedoch erhebliche Ressourcen erforderlich, darunter Energie oder Wasser zur Kühlung. In der Vergangenheit lag der Forschungsschwerpunkt lediglich auf der Optimierung der Leistung der Rechenzentren und weniger auf der Optimierung der Ressourcennutzung. Mit der aufkommenden, noch energieintensiven generativen KI haben wir konkurrierende Ziele bezüglich Zuverlässigkeit, Fehlertoleranz und Nachhaltigkeit. Eine höhere Zuverlässigkeit von IKT-Ressourcen (z. B. Rechenzentren) führt in der Regel zu einer höheren Ressourcenauslastung. Erst kürzlich haben Forscher herausgefunden, dass das Erstellen eines einzelnen Bildes mit generativer KI genauso viel Energie verbraucht wie das Aufladen eines Smartphones. Daher tauchte in den letzten Jahren ein widersprüchliches Forschungsthema auf, das sich mit der Notwendigkeit befasste, zuverlässige und fehlertolerante Systeme bereitzustellen und gleichzeitig den Ressourcenverbrauch zu reduzieren und somit die Nachhaltigkeit aufrechtzuerhalten. In diesem Projekt schlagen wir einen Paradigmenwechsel von den traditionellen (deterministischen) Methoden zur Ressourcennutzung in großen Rechenzentren vor und schlagen neue datengesteuerte (nicht deterministische) Methoden vor, die Zuverlässigkeit und Fehlertoleranz bieten und gleichzeitig bestimmte Nachhaltigkeitsziele wahren. Wir nutzen das Konzept der Multi Clouds, bei denen geografisch verteilte Rechenzentren zusammenarbeiten, um bestimmte Leistungskennzahlen zu erreichen, indem sie die unterschiedliche Arbeitslast und mögliche Ausfälle des Systems ausgleichen können. Mit dem Konzept des Edge Computing verarbeiten wir die Daten entlang der Datenübertragung-Pipeline über die verfügbare Infrastruktur (wie z.B. Mikro-Rechenzentren), reparieren Daten von geringer Qualität und stellen eine hohe Qualität der Entscheidungsfindung in den riesigen Clouds sicher. Wir konzentrieren uns insbesondere auf das "Staleness"-Problem der Datenanalyse, wenn Entscheidungen auf der Grundlage alter KI-Modelle getroffen werden, die die Realität nicht mehr genau abbilden. Wir messen und steuern die Stabilität verteilter KI mit umfangreichen theoretischen und empirischen Bewertungen und schlagen neuartige Methoden vor, um die Aktualität des Modells sicherzustellen, ohne die Nachhaltigkeit zu beeinträchtigen. Basierend auf unserem tiefen Verständnis des Systemverhaltens, das wir im Rucon-Projekt gewonnen haben, haben wir zwei neue Forschungsrichtungen eröffnet, nämlich "Hybrid Classic-Quantum Systems", bei denen Ressourcen in Rechenzentren teilweise auf Quantum-Maschinen verteilt werden. Damit erreichen wir Nachhaltigkeit in ganz anderen Größenordnungen als mit herkömmlichen Systemen. Eine weitere Forschungsrichtung ist "Computational Sustainability", die sich mit der Entwicklung von Methoden befasst, um (i) die Nachhaltigkeit von IT-Infrastrukturen zu erhöhen und (ii) IT-Tools und -Methoden zu nutzen, um die Welt zu verbessern und beispielsweise den Klimawandel zu bekämpfen.
- Technische Universität Wien - 100%
- Rodrigo Rodrigues, Max Planck Institute Saarbrücken - Deutschland
- Frank Leymann, Universität Stuttgart - Deutschland
- Rizos Sakellariou, University of Manchester - Vereinigtes Königreich
Research Output
- 1469 Zitationen
- 100 Publikationen
- 1 Datasets & Models
- 5 Software
- 77 Disseminationen
- 14 Wissenschaftliche Auszeichnungen
- 17 Weitere Förderungen
-
2024
Titel Proteus: Towards Intent-driven Automated Resource Management Framework for Edge Sensor Nodes DOI 10.1145/3659995.3660037 Typ Conference Proceeding Abstract Autor Ilager S Seiten 1-8 Link Publikation -
2024
Titel On Optimizing Hyperparameters for Quantum Neural Networks DOI 10.1109/qce60285.2024.00174 Typ Conference Proceeding Abstract Autor Herbst S Seiten 1478-1489 -
2024
Titel Training Computer Scientists for the Challenges of Hybrid Quantum-Classical Computing DOI 10.1109/ccgrid59990.2024.00075 Typ Conference Proceeding Abstract Autor De Maio V Seiten 626-635 -
2024
Titel Streaming IoT Data and the Quantum Edge: A Classic/Quantum Machine Learning Use Case DOI 10.1007/978-3-031-50684-0_14 Typ Book Chapter Autor Herbst S Verlag Springer Nature Seiten 177-188 Link Publikation -
2024
Titel Paving the way to hybrid quantum–classical scientific workflows DOI 10.1016/j.future.2024.04.030 Typ Journal Article Autor Cranganore S Journal Future Generation Computer Systems Seiten 346-366