Modellierung Fehlertoleranter Asynchroner Logik (FATAL)
Modelling Fault-tolerant Asynchronous Logic (FATAL)
Wissenschaftsdisziplinen
Elektrotechnik, Elektronik, Informationstechnik (40%); Informatik (50%); Physik, Astronomie (10%)
Keywords
-
Fault-tolerant distributed algorithms,
Dependable VLSI,
Model-driven deign and analysis,
Asynchronous digital circuits,
Radiation failures,
Metastability
Ziel des Projekts FATAL ist die Entwicklung der mathematisch/formalen Grundlagen eines Frameworks für die hierarchische Modellierung and Analyse von fehlertoleranten asynchronen VLSI-Schaltungen, auf der Grundlage fehlertoleranter verteilter Algorithmen und der experimentellen Evaluation des Fehlverhaltens moderner VLSI- Technologien unter ionisierender Strahlung und Metastabilität. FATAL ist ein gemeinsames Projekt des Instituts für Technische Informatik and des Institut für Elektrische Mess- und Schaltungstechnik an der TU Wien. Die Entwicklung von VLSI-Schaltungen, die heutzutage Millionen von Transistoren mit Taktfrequenzen im GHz- Bereich beherbergen, wird immer schwieriger: Abgesehen von der funktionalen Komplexität sehen sich die Entwickler mit steigenden Fertigungskosten und Ausschuß-Raten, der "Erosion" der bequemen syn-chronen Abstraktion, hohem Leistungsverbrauch und steigenden Fehlerraten konfrontiert. Moderne VLSI-Schaltungen werden daher zunehmend als mehr oder weniger lose gekoppelte Systeme von interagierenden Subsystemen betrachtet - Stichwort Systems-on-Chip. Derartige Systeme haben viele Gemeinsamkeiten mit den lose gekoppelten verteilten Computersystemen, die seit Jahrzehnten Gegenstand der Forschung im Bereich verteilter Algorithmen sind: Im Zuge dieser Arbeiten wurde ein reicher Fundus an verschiedenen Berechnungs- und Fehlermodellen, Algorithmen & Protokollen sowie theoretischen Resultaten bezüglich der Lösbarkeit von Problemen und der erreichbaren Performance geschaffen. Einige jüngere Arbeiten haben gezeigt, daß ein Teil dieser Ergebnisse erfolgreich im Bereich VLSI angewandt werden kann. Besonderes Anliegen von FATAL ist Modell/Spezifikations-basierendes Design & Analyse: Es unterstützt sowohl die Komposition existierender Schaltungen/Spezifikationen (Bottom-Up) als auch die Dekomposition einer Schaltung/Spezifikation auf höherer Abstraktionsebene in solche auf niedrigerer Ebene (Top-Down). Besonderes Augenmerk wird auf die detaillierte Modellierung des Verhältnisses zwischen Schaltung und Umgebung gelegt. Zur Verringerung der Beweiskomplexität werden hierarchische Korrektheitsbeweise und Performance- Analysetechniken verwendet. In scharfem Kontrast zur gängigen Praxis des VLSI-Designs, wo Fehler als Ausnahmesituationen mit (sehr) kleiner Auftrittswahrscheinlichkeit betrachtet werden, basiert FATAL auf dem deterministischen Ansatz, wie er in verteilten Algorithmen üblich ist: Fehler werden dort als Teil der normalen Operation betrachtet. Eine Schaltung wird hier durch die Menge aller möglichen Verhaltensweisen beschrieben, auch dann, wenn ein bestimmtes (aber mögliches) Verhalten nur mit sehr kleiner Wahrscheinlichkeit auftritt. Dies erlaubt deterministische Korrektheitsbeweise und worst-case Performance-Analysen (Wahrscheinlichkeiten können allerdings später hinzugefügt werden). Besondere Herausforderungen stellen die Notwendigkeit der Verwendung eines kontinuierlichen Zeitbegriffs, die adäquate Behandlung der hohen Parallelität durch die Vielzahl gleichzeitig "rechnender" logischer Gatter, und die schwerwiegenden Ressource-Einschränkungen in VLSI-Schaltungen dar, die selbst elementare Operationen wie das Senden einer Nachricht oder die Addition zweier Zahlen sehr teuer machen. Ein weiterer zentraler Teil von FATAL ist die Definition geeigneter (realistischer, aber leicht zu handhabender) Fehlermodelle. Konkretes Ziel ist die Entwicklung einer Hierarchie von Fehlermodellen unterschiedlicher Komplexität, welche zur Beschreibung des beobachtbaren Fehlverhaltens von Schaltungen auf genügend hohem Abstraktionslevel geeignet sind. Die Identifikation solcher Modelle erfordert eine gründliche Untersuchung des beobachtbaren Fehlverhaltens moderner VLSI-Schaltungen, was für "klassische" Fehlerquellen in der einschlägigen Literatur ausreichend dokumentiert ist. Dies gilt allerdings nicht für die heutzutage immer wichtiger werdenden Fehler durch ionisierende Strahlung und für Metastabilitätseffekte, die für fehlertolerante asynchrone Schaltungen besonders gefährlich sind: Metastabilität kann jedes Error-Containment und somit jede Architektur- Fehlertoleranzmaßnahme überwinden und jeden Korrektheitsbeweis ungültig machen. FATAL umfaßt daher auch eine systematische experimentelle Evaluation von Fehlereffekten durch ionisierende Strahlung und Metastabilität. Für diesen Zweck werden zwei spezielle VLSI-Schaltungen entwickelt, deren Realisierung beträchtliche technologische Herausforderungen stellt: Die Integration komplexer analoger und digitaler Schaltungen auf einem Chip, was etwa die Verwendung digitaler Standard-Libraries ausschließt, die Notwendigkeit der Entwicklung sehr genauer Simulationsmodelle, was die Verwendung von "Push-Button" Designs ausschließt, und schließlich die Integration sowohl strahlungssensitiver als auch strahlungsinsensitiver Schaltungen auf einem Chip, was spezielle Lösungsansätze erfordert.
Ziel des FATAL-Projekts war die Entwicklung der Grundlagen eines Frameworks für die hierarchische Modellierung und Analyse von fehlertoleranten asynchronen Very-Large Scale Integrated (VLSI) Schaltungen, zusammen mit der experimentellen Untersuchung von strahlungsinduzierten Fehlern und Metastabilität. FATAL war ein gemeinsames Projekt des Instituts für Technische Informatik (E182) und des Instituts für Electrodynamics, Microwave and Circuit Engineering (E354) der TU Wien.Moderne VLSI-Chips werden zunehmend als lose gekoppelte Systeme interagierender Subsysteme (Systems-on-Chip) betrachtet, die viele Gemeinsamkeiten mit jenen verteilten Systemen haben, die seit Jahrzehnten unter dem Schlagwort fehlertolerante Systeme erforscht werden. In FATAL wurden einige der existierenden Berechnungs- und Fehlermodelle, Algorithmen & Protokolle und theoretischen Resultate für den VLSI-Kontext adaptiert und, wo erforderlich, neue Instanzen geschaffen. Die Hauptergebnisse sind:Ein neues zeitkontinuierliches, wertdiskretes Modellierungs- und Analyse-Framework für asynchrone VLSI-Schaltungen. Anstatt auf zeitdiskreten Zustandsübergängen basiert es auf kontinuierlicher Berechnung, unterstützt hierarchische Komposition/Dekomposition von Modellen und Implementierungen und erlaubt modulare Korrektheitsbeweise auf niedriger Abstraktionsebene. In scharfem Kontrast zur derzeitigen Praxis im VLSI-Design werden Fehler als normal betrachtet und formal durch erlaubte Abweichungen vom korrekten Verhalten, einem geeigneten Fehlermodell entsprechend, spezifiziert.Durch ionisierende Teilchen in den Transistoren eines VLSI Chips erzeugte Single-Event Transients (SETs) dominieren mittlerweile die Fehlerraten. Ein substantieller Teil von FATAL war daher der Messung und Modellierung von SETs gewidmet: Spezielle on-chip Messverstärker wurden dazu verwendet, um die detaillierten SET-Pulsformen in typischen Zielstrukturen (wie Invertern und Muller C-Gates) in Microbeam-Strahlungsexperimenten zu erfassen. Die Resultate wurden für die Kalibrierung einer detaillierten physikalischen Simulation und eines analogen Simulationsmodells mit double-exponential SET-Injektion herangezogen. Letzteres wurde für die Validierung des Designs eines umfangreichen digitalen ASICs für das Langzeit-Monitoring von SETs verwendet.Ein unvermeidbares Problem in asynchronen digitalen Schaltungen ist Metastabilität, die in der Unmöglichkeit der präzisen zeitlichen Ordnung von Zustandsübergängen in verschiedenen Teilen einer Schaltung begründet ist. Im Falle eines speichernden Elements kann das zu nicht definierten Zwischenzuständen oder schneller Oszillation führen. Ein substantieller Teil von FATAL war daher der experimentellen Untersuchung von Metastabilität in moderner VLSI-Technologie und der Frage nach einer möglichen Einbettung in das rein digitale FATAL Modellierungs- und Analyse-Framework gewidmet.In allen diesen Gebieten konnten beträchtliche wissenschaftliche Fortschritte erzielt werden, die im Rahmen zweier kürzlich bewilligter Folgeprojekte weiter verfolgt werden.
- Horst Zimmermann, Technische Universität Wien , assoziierte:r Forschungspartner:in
Research Output
- 289 Zitationen
- 63 Publikationen
-
2018
Titel A Faithful Binary Circuit Model with Adversarial Noise DOI 10.23919/date.2018.8342219 Typ Conference Proceeding Abstract Autor Függer M Seiten 1327-1332 Link Publikation -
2016
Titel HEX: Scaling honeycombs is easier than scaling clock trees DOI 10.1016/j.jcss.2016.03.001 Typ Journal Article Autor Dolev D Journal Journal of Computer and System Sciences Seiten 929-956 Link Publikation -
2015
Titel Time Complexity of Link Reversal Routing DOI 10.1145/2644815 Typ Journal Article Autor Charron-Bost B Journal ACM Transactions on Algorithms (TALG) Seiten 1-39 Link Publikation -
2013
Titel Metastability Characterization for Muller C-Elements DOI 10.1109/patmos.2013.6662170 Typ Conference Proceeding Abstract Autor Polzer T Seiten 164-171 -
2013
Titel Efficient Construction of Global Time in SoCs despite Arbitrary Faults DOI 10.1109/dsd.2013.97 Typ Conference Proceeding Abstract Autor Lenzen C Seiten 142-151 Link Publikation -
2013
Titel Digital Late-Transition Metastability Simulation Model DOI 10.1109/dsd.2013.21 Typ Conference Proceeding Abstract Autor Polzer T Seiten 121-128 -
2013
Titel Performance of Radiation Hardening Techniques under Voltage and Temperature Variations DOI 10.1109/aero.2013.6497390 Typ Conference Proceeding Abstract Autor Veeravalli V Seiten 1-12 -
2013
Titel An Approach for Efficient Metastability Characterization of FPGAs through the Designer DOI 10.1109/async.2013.14 Typ Conference Proceeding Abstract Autor Polzer T Seiten 174-182 -
2013
Titel Modular Redundancy in a GALS System using Asynchronous Recovery Links DOI 10.1109/async.2013.23 Typ Conference Proceeding Abstract Autor Lechner J Seiten 23-30 -
2013
Titel Unfaithful Glitch Propagation in Existing Binary Circuit Models DOI 10.1109/async.2013.9 Typ Conference Proceeding Abstract Autor Függer M Seiten 191-199 Link Publikation -
2013
Titel Unfaithful Glitch Propagation in Existing Binary Circuit Models DOI 10.48550/arxiv.1311.1423 Typ Preprint Autor Függer M -
2013
Titel Proceedings of the twenty-fifth annual ACM symposium on Parallelism in algorithms and architectures, SPAA '13 DOI 10.1145/2486159 Typ Journal Article -
2012
Titel Projekt FATAL, 2012. Typ Journal Article Autor Hofbauer M Journal Vienna Scientific Cluster Brochure 2012 -
2012
Titel LFSR implementation using C-elements. Typ Conference Proceeding Abstract Autor Steininger A Konferenz Proceedings MEMICS 2012 -
2012
Titel A robust asynchronous interfacing scheme with four-phase dual-rail coding. Typ Conference Proceeding Abstract Autor Lechner J -
2012
Titel Reliable gateway for radiation experiments on a VLSI chip. Typ Conference Proceeding Abstract Autor Fritz B Konferenz Proceedings Austrochip -
2012
Titel Efficient radiation-hardening of a Muller C-element. Typ Conference Proceeding Abstract Autor Steininger A Konferenz Proceedings 2012 Single Event Effects Symposium, April -
2012
Titel Monitoring single event transient effects in dynamic mode. Typ Conference Proceeding Abstract Autor Steininger A Konferenz 1st Workshop on Manufacturable and Dependable Multicore Architectures at Nanoscale (MEDIAN'12) -
2014
Titel Rigorously modeling self-stabilizing fault-tolerant circuits: An ultra-robust clocking scheme for systems-on-chip DOI 10.1016/j.jcss.2014.01.001 Typ Journal Article Autor Dolev D Journal Journal of Computer and System Sciences Seiten 860-900 Link Publikation -
2013
Titel Byzantine self-stabilizing clock distribution with HEX: Implementation, simulation, clock multiplication. Typ Conference Proceeding Abstract Autor Lenzen C Et Al Konferenz Proc. Sixth IARIA International Conference on Dependability (DEPEND'13) -
2013
Titel Particle strikes in C-gates: Relevance of SET shapes. Typ Conference Proceeding Abstract Autor Najvirt R Konferenz Proceedings 2nd Workshop on Manufacturable and Dependable Multicore Architectures at Nanoscale (MEDIAN'13) -
2016
Titel Unfaithful Glitch Propagation in Existing Binary Circuit Models DOI 10.1109/tc.2015.2435791 Typ Journal Article Autor Fugger M Journal IEEE Transactions on Computers Seiten 964-978 Link Publikation -
2022
Titel Hrip1 enhances tomato resistance to yellow leaf curl virus by manipulating the phenylpropanoid biosynthesis and plant hormone pathway DOI 10.1007/s13205-022-03426-6 Typ Journal Article Autor Dong Y Journal 3 Biotech Seiten 11 Link Publikation -
2014
Titel Protection of Muller-Pipelines from Transient Faults DOI 10.1109/isqed.2014.6783315 Typ Conference Proceeding Abstract Autor Naqvi S Seiten 123-131 -
2014
Titel Measuring SET Pulsewidths in Logic Gates using Digital Infrastructure DOI 10.1109/isqed.2014.6783331 Typ Conference Proceeding Abstract Autor Veeravalli V Seiten 236-242 -
2014
Titel Architecture for Monitoring SET Propagation in 16-bit Sklansky Adder DOI 10.1109/isqed.2014.6783354 Typ Conference Proceeding Abstract Autor Veeravalli V Seiten 412-419 -
2015
Titel Building reliable systems-on-chip in nanoscale technologies DOI 10.1007/s00502-015-0319-0 Typ Journal Article Autor Steininger A Journal e & i Elektrotechnik und Informationstechnik Seiten 301-306 -
2012
Titel Towards self-stabilizing byzantine fault-tolerant clock generation in systems-on-chip. Typ Conference Proceeding Abstract Autor Dolev D Konferenz 2012 NITRD National Workshop on the New Clockwork for Time-Critical Systems, October 25-26, Baltimore (USA) -
2012
Titel Pulse Shape Measurements by On-Chip Sense Amplifiers of Single Event Transients Propagating Through a 90 nm Bulk CMOS Inverter Chain DOI 10.1109/tns.2012.2223233 Typ Journal Article Autor Hofbauer M Journal IEEE Transactions on Nuclear Science Seiten 2778-2784 -
2012
Titel Messung der Auswirkungen von ionisierender Strahlung auf 90 nm CMOS Schaltungen. Typ Journal Article Autor Giesen U Et Al Journal Technical report, Physikalisch Technische Bundesanstalt -
2011
Titel Brief announcement DOI 10.1145/1989493.1989510 Typ Conference Proceeding Abstract Autor Charron-Bost B Seiten 129-130 -
2011
Titel Fault-Tolerant Algorithms for Tick-Generation in Asynchronous Logic: Robust Pulse Generation DOI 10.1007/978-3-642-24550-3_14 Typ Book Chapter Autor Dolev D Verlag Springer Nature Seiten 163-177 -
2011
Titel Brief announcement: Full reversal routing as a linear dynamical system. Typ Conference Proceeding Abstract Autor Chorron-Bost B -
2011
Titel On the Performance of a Retransmission-Based Synchronizer DOI 10.1007/978-3-642-22212-2_21 Typ Book Chapter Autor Nowak T Verlag Springer Nature Seiten 234-245 -
2012
Titel Radiation-Tolerant Combinational Gates - An Implementation Based Comparison DOI 10.1109/ddecs.2012.6219036 Typ Conference Proceeding Abstract Autor Veeravalli V Seiten 115-120 -
2012
Titel Protecting Pipelined Asynchronous Communication Channels Against Single Event Upsets DOI 10.1109/iccd.2012.6378683 Typ Conference Proceeding Abstract Autor Lechner J Seiten 480-481 -
2012
Titel Designing Robust GALS Circuits with Triple Modular Redundancy DOI 10.1109/edcc.2012.25 Typ Conference Proceeding Abstract Autor Lechner J Seiten 227-236 -
2012
Titel Architecture and Design Analysis of a Digital Single-Event Transient/Upset Measurement Chip DOI 10.1109/dsd.2012.26 Typ Conference Proceeding Abstract Autor Veeravalli V Seiten 8-17 -
2012
Titel Architecture and design analysis of a digital single-event transient/upset measurement chip. Typ Conference Proceeding Abstract Autor Schmid U Et Al -
2012
Titel A Robust Asynchronous Interfacing Scheme with Four-Phase Dual-Rail Coding DOI 10.1109/acsd.2012.29 Typ Conference Proceeding Abstract Autor Lechner J Seiten 122-131 -
2012
Titel Brief Announcement: The Degrading Effect of Forgetting on a Synchronizer DOI 10.1007/978-3-642-33536-5_9 Typ Book Chapter Autor Függer M Verlag Springer Nature Seiten 90-91 -
2012
Titel Designing robust GALS circuits with triple modular redundancy. Typ Conference Proceeding Abstract Autor Lechner J -
2012
Titel Position dependent measurement of single event transient voltage pulse shapes under heavy ion irradiation DOI 10.1049/el.2011.3767 Typ Journal Article Autor Schweiger K Journal Electronics Letters Seiten 171-172 -
2012
Titel Analogously tunable delay line for on-chip measurements with sub-picosecond resolution in 90 nm CMOS DOI 10.1049/el.2012.0371 Typ Journal Article Autor Schidl S Journal Electronics Letters Seiten 910-911 -
2009
Titel Brief announcement DOI 10.1145/1582716.1582762 Typ Conference Proceeding Abstract Autor Dielacher A Seiten 276-277 -
2009
Titel A Metastability-Free Multi-synchronous Communication Scheme for SoCs DOI 10.1007/978-3-642-05118-0_40 Typ Book Chapter Autor Polzer T Verlag Springer Nature Seiten 578-592 -
2009
Titel On the stability and robustness of non-synchronous circuits with timing loops. Typ Conference Proceeding Abstract Autor Fuegger M Konferenz 3rd Workshop on Dependable and Secure Nanocomputing, Jun. 2009 -
2009
Titel 08371 Summary - fault-tolerant distributed algorithms on VLSI chips. Typ Conference Proceeding Abstract Autor Charron-Bost B Konferenz Dagstuhl Seminar Proceedings, Dagstuhl, Germany, 2009. Schloss Dagstuhl -Leibniz-Zentrum fuer Informatik, Germany -
2013
Titel Muller C-Element Metastability Containment DOI 10.1007/978-3-642-36157-9_11 Typ Book Chapter Autor Polzer T Verlag Springer Nature Seiten 103-112 -
2013
Titel Supply Voltage Dependent On-Chip Single-Event Transient Pulse Shape Measurements in 90-nm Bulk CMOS Under Alpha Irradiation DOI 10.1109/tns.2013.2245679 Typ Journal Article Autor Hofbauer M Journal IEEE Transactions on Nuclear Science Seiten 2640-2646 -
2011
Titel Reconciling fault-tolerant distributed computing and systems-on-chip DOI 10.1007/s00446-011-0151-7 Typ Journal Article Autor Függer M Journal Distributed Computing Seiten 323-355 Link Publikation -
2011
Titel Partial is Full DOI 10.1007/978-3-642-22212-2_11 Typ Book Chapter Autor Charron-Bost B Verlag Springer Nature Seiten 113-124 -
2011
Titel Single event effect measurements in 90nm CMOS circuits at the microbeam facility for the project FATAL. Typ Journal Article Autor Hofbauer M Journal GSI Scientific Report 2011 -
2011
Titel Full Reversal Routing as a Linear Dynamical System DOI 10.1007/978-3-642-22212-2_10 Typ Book Chapter Autor Charron-Bost B Verlag Springer Nature Seiten 101-112 -
2010
Titel How to Speed-up Fault-Tolerant Clock Generation in VLSI Systems-on-Chip via Pipelining DOI 10.1109/edcc.2010.35 Typ Conference Proceeding Abstract Autor Függer M Seiten 230-239 -
2013
Titel An infrastructure for accurate characterization of single-event transients in digital circuits DOI 10.1016/j.micpro.2013.04.011 Typ Journal Article Autor Veeravalli V Journal Microprocessors and Microsystems Seiten 772-791 Link Publikation -
2013
Titel HEX: Scaling Honeycombs is Easier than Scaling Clock Trees. Typ Conference Proceeding Abstract Autor Doelv D -
2013
Titel SET Propagation in Micropipelines DOI 10.1109/patmos.2013.6662165 Typ Conference Proceeding Abstract Autor Polzer T Seiten 126-133 -
2013
Titel On the performance of a retransmission-based synchronizer DOI 10.1016/j.tcs.2012.04.035 Typ Journal Article Autor Nowak T Journal Theoretical Computer Science Seiten 25-39 Link Publikation -
2013
Titel HEX DOI 10.1145/2486159.2486192 Typ Conference Proceeding Abstract Autor Dolev D Seiten 164-175 -
2009
Titel On the Threat of Metastability in an Asynchronous Fault-Tolerant Clock Generation Scheme DOI 10.1109/async.2009.15 Typ Conference Proceeding Abstract Autor Fuchs G Seiten 127-136 -
2009
Titel How to speedup fault-tolerant clock generation in VLSI systems-on-chip via pipelining. Typ Journal Article Autor Dielacher A Journal Research Report 15/2009 -
2009
Titel Brief announcement: How to speed-up fault-tolerant clock generation in VLSI systems-on-chip via pipelining. Typ Conference Proceeding Abstract Autor Dielacher A