Projektdetail

Grant-DOI 10.55776/TRP139
Bewilligungssumme Translational Research
Status beendet
Projektbeginn 01.03.2011
Projektende 28.02.2015
Bewilligungssumme 369.306 €

Wissenschaftsdisziplinen

Elektrotechnik, Elektronik, Informationstechnik (20%); Informatik (50%); Sprach- und Literaturwissenschaften (30%)

Keywords

Computer Vision,
Cognitive Systems,
Natural language Understanding,
Integration,
Robotics

Abstract

Zusammenfassung

Die vergangenen Jahre brachten beachtliche Fortschritte im Bereich persönlicher Roboter (seien es Haushaltsroboter oder Roboter im Bereich der Altenpflege). Wir sind aber immer noch weit entfernt von natürlicher Mensch-Maschine Interaktion in alltäglichen Situationen. Robustes visuelles Verstehen der Szene und Verstehen natürlicher Sprache sind zwei der größten Problemfelder. Wir glauben, das rührt zum Teil daher, daß diese beiden oft separat behandelt werden. Ein typischer Dialog zwischen Menschen situiert in derselben Szene beinhaltet viele Fälle wo Sehen und Sprache zusammen benutzt werden um ein gemeinsames Verstehen aufzubauen. Menschen blicken üblicherweise in Richtung eines Objekts, das gerade im Dialog erwähnt wird, und leiten so die Aufmerksamkeit des Gesprächspartners darauf. Weiters leiten Objektattribute aus (auch nur unvollständig) verstandenen Äußerungen "Gibst Du mir bitte das rote ...`` die Suche nach dem jeweiligen Objekt. Umgekehrt unterstützt das visuelle Verstehen einer Szene das Verstehen von mehrdeutigen oder unterspezifizierten Äußerungen - "das rote Buch auf dem Boden`` wird viel eher das Buch im Sichtfeld des Sprechers meinen, als dasjenige hinter ihrem Rücken. Somit können sich Bildverstehen und das Verstehen natürlicher Sprache gegenseitig und inkrementell unterstützen. Diese Projekt widmet sich dem engen Verzahnen von visuellem Verstehen der Szene mit dem Verstehen natürlicher Sprache. Wir glauben, daß Bildverstehen, Sprachverstehen und auch Handlungs- Subsysteme der Roboter Architektur sehr eng integriert sein müssen, um sich gegenseitig untersützen zu können. Das erfordert wiederum parallele Verarbeitung von Bildverstehen, Sprache und Handlungen, wobei alle Algorithmen in Lage sein müssen, neue Informationen jederzeit inkrementell einzubauen. Es erfordert weiterhin ein Software Framework, das nahtloses Verzahnen von Komponenten und Algorithmen in einem sehr engen zeitlichen Rahmen erlaubt. Eine derartige enge Integration wird es Robotern erlauben Objekte schneller zu finden, Referenzen zu Objekten schneller aufzulösen, eigene Handlungen schneller auszuführen und letztlich weit natürlichere Dialoge mit Menschen in alltäglichen Umgebungen zu führen.

Das Projekt InSitu beschäftigte sich mit der engen Integration von maschinellem Sehen und maschineller Spracherkennung. Beides sind für sich genommen schwierige Problemstellungen, v.a. im Kontext von autonomen Robotern, die in unstrukturierten Alltagsumgebungen Aufgaben ausführen sollen, wie Stelle die gelbe Tasse auf dem Tisch in das Regal. Ein Mensch, der diese Aufgabe gestellt bekäme, würde schon während der Satz noch gesprochen wird dem Blick oder der Geste des Gegenübers folgen und nach etwas gelbem Suchen.In InSitu wurden daher diese beiden Teilprobleme Sehen und Sprache gemeinsam bearbeitet. Hinweise aus (unter Umständen nur zum Teil) erkannten sprachlichen Äußerungen helfen der Bildverarbeitung, indem die Arbeit auf die relevanten Bildteile konzentriert wird, etwa auf gelbe Objekte im obigen Beispiel. Die Analyse einer gesamten komplexen 3-dimensionalen Szene kann mitunter lange dauern (etliche Sekunden auch auf modernen Rechnern). Wir konnten zeigen, dass mit einer derartigen situationsgerecht gesteuerten Aufmerksamkeit in Kombination mit inkrementellen Verarbeitungs-Methoden die Detektion von relevanten Objekten deutlich beschleunigt wird. Je nach Situation und Aufgabe sind hierbei verschiedene Aufmerksamkeitskanäle wichtig, wie z.B. Farbe, Form, oder auch Position (... die linke Tasse ...).Umgekehrt fließen visuelle Hinweise aus der Szene in die Spracherkennung ein. Wir konnten zeigen wie aus Äußerungen wie ein Erste Hilfe Koffer ist eine weiße Schachtel mit eine Griff und mit einem roten Kreuz darauf in einem einzigen Schritt Objekt-Klassen anhand von sprachlich beschreibbaren visuellen Merkmalen (Kreuz, rot) gelernt werden. Solcherart gelernte Klassen verallgemeinern auf qualitativ ähnliche Objekte und lassen Überlegungen zu wie Das Kreuz ist grün ist das immer noch ein Erste Hilfe Koffer?. Derartig semantisch tiefe Repräsentationen gehen damit über die sonst üblichen statistischen Methoden hinaus, die aus einer Vielzahl von Beispielen ähnliche Objekte lernen, ohne explizit beschreiben zu können worin die Ähnlichkeit besteht.Von besonderer Bedeutung sind hierbei Merkmale, die eine funktionale Relevanz haben (sogenannte affordances), wie z.B. Griffe (zum Greifen) oder Aushöhlungen (wie das Innere einer Tasse, als Behälter). Im Rahmen des Projektes wurde eine Systematik solcher affordances entwickelt, mit der sich Gegenstände in typischen Alltagsumgebungen beschreiben lassen, sowie Methoden um diese Merkmale in 3D Szenen zu detektieren.Die im Rahmen des Projektes entwickelten Methoden wurden auf 3 unterschiedlichen Robotern bei den beteiligten Partnern TU Wien und Tufts University / Boston getestet.

Forschungsstätte(n)

Technische Universität Wien - 100%

Research Output

192 Zitationen
28 Publikationen

Publikationen

Titel	3D Information as a Way to Improve the Quality of Attention Points.
Typ	Conference Proceeding Abstract
Autor	Potapova E
Konferenz	Proc. of the Austrian Robotics Workshop, Graz, 2013

Titel	Advances in real-time object tracking - Extensions for robust object tracking with a Monte-Carlo particle filter.
Typ	Journal Article
Autor	Mörwald T

Titel	Local 3D Symmetry for Visual Saliency in 2.5D Point Clouds
DOI	10.1007/978-3-642-37331-2_33
Typ	Book Chapter
Autor	Potapova E
Verlag	Springer Nature
Seiten	434-445

Titel	Spatial Structure Analysis for Autonomous Robotic Vision Systems
DOI	10.1109/worv.2013.6521933
Typ	Conference Proceeding Abstract
Autor	Zhou K
Seiten	165-170

Titel	Geometric data abstraction using B-splines for range image segmentation
DOI	10.1109/icra.2013.6630569
Typ	Conference Proceeding Abstract
Autor	Morwald T
Seiten	148-153

Titel	Learning of perceptual grouping for object segmentation on RGB-D data
DOI	10.1016/j.jvcir.2013.04.006
Typ	Journal Article
Autor	Richtsfeld A
Journal	Journal of Visual Communication and Image Representation
Seiten	64-73
Link	Publikation

Titel	What Vision Can, Can’t and Should Do
DOI	10.1007/978-3-319-06614-1_9
Typ	Book Chapter
Autor	Zillich M
Verlag	Springer Nature
Seiten	119-131

Titel	Saliency-Based Object Discovery on RGB-D Data with a Late-Fusion Approach
DOI	10.1109/icra.2015.7139441
Typ	Conference Proceeding Abstract
Autor	Garcíal G
Seiten	1866-1873

Titel	Web Mining Driven Object Locality Knowledge Acquisition for Efficient Robot Behavior
DOI	10.1109/iros.2012.6385931
Typ	Conference Proceeding Abstract
Autor	Zhou K
Seiten	3962-3969

Titel	Language-modulated attention and its tight coupling to visual processes (poster).
Typ	Conference Proceeding Abstract
Autor	Potapova E
Konferenz	Rovereto Attention Workshop: Attention and Objects, 2011

Titel	Learning What Matters: Combining Probabilistic Models of 2D and 3D Saliency Cues
DOI	10.1007/978-3-642-23968-7_14
Typ	Book Chapter
Autor	Potapova E
Verlag	Springer Nature
Seiten	132-142

Titel	A Pilot Study on Eye-tracking in 3D Search Tasks.
Typ	Conference Proceeding Abstract
Autor	Pirri F Et Al
Konferenz	Workshop on Solutions for Automatic Gaze Data Analysis (SAGA), Bielefeld, 2013

Titel	Anytime Perceptual Grouping of 2D Features into 3D Basic Shapes
DOI	10.1007/978-3-642-39402-7_8
Typ	Book Chapter
Autor	Richtsfeld A
Verlag	Springer Nature
Seiten	73-82

Titel	Probabilistic Cue Integration for Real-Time Object Pose Tracking
DOI	10.1007/978-3-642-39402-7_26
Typ	Book Chapter
Autor	Prankl J
Verlag	Springer Nature
Seiten	254-263

Titel	Robust Multiple Model Estimation with Jensen-Shannon Divergence.
Typ	Conference Proceeding Abstract
Autor	Vincze M Et Al
Konferenz	Proc. of the 21st Int. Conf. on Pattern Recognition (ICPR), Tsukuba, Japan, 2012, 4 p, ISBN

Titel	What We Can Learn From the Primate’s Visual System
DOI	10.1007/s13218-014-0345-9
Typ	Journal Article
Autor	Krüger N
Journal	KI - Künstliche Intelligenz
Seiten	9-18

Titel	Incremental Attention-Driven Object Segmentation**The research leading to these results has received funding from the Austrian Science Fund (FWF) under grant agreement No. TRP 139-N23 InSitu and from the European Community's Seventh Framework Pro
DOI	10.1109/humanoids.2014.7041368
Typ	Conference Proceeding Abstract
Autor	Potapova E
Seiten	252-258

Titel	Incremental Attention-driven Object Segmentation.
Typ	Conference Proceeding Abstract
Autor	Potapova E

Titel	Learning to Recognize Novel Objects in One Shot through Human-Robot Interactions in Natural Language Dialogues.
Typ	Conference Proceeding Abstract
Autor	Karuse E
Konferenz	Twenty-Eighth Conference on Artificial Intelligence (AAAI)

Titel	Attention-Driven Object Detection and Segmentation of Cluttered Table Scenes using 2.5D Symmetry
DOI	10.1109/icra.2014.6907584
Typ	Conference Proceeding Abstract
Autor	Potapova E
Seiten	4946-4952

Titel	4D Space-Time Mereotopogeometry-Part Connectivity Calculus for Visual Object Representation
DOI	10.1109/icpr.2014.740
Typ	Conference Proceeding Abstract
Autor	Varadarajan K
Seiten	4316-4321

Titel	Attention-driven Segmentation of Cluttered 3D Scenes.
Typ	Conference Proceeding Abstract
Autor	Potapova E
Konferenz	Proc. of the 21st Int. Conf. on Pattern Recognition (ICPR), Tsukuba, Japan, 2012

Titel	Web Mining Driven Object Locality Knowledge Acquisition for Efficient Robot Behavior.
Typ	Conference Proceeding Abstract
Autor	Vincze M Et Al

Titel	My Robot is Smarter than Your Robot - On the Need for a Total Turing Test for Robots.
Typ	Conference Proceeding Abstract
Autor	Zillich M
Konferenz	AISB/IACAP Symposium - Revisiting Turing and his Test: Comprehensiveness, Qualia, and the Real World, Birmingham, UK, 2012

Titel	From Animals to Robots and Back: Reflections on Hard Problems in the Study of Cognition, A Collection in Honour of Aaron Sloman
DOI	10.1007/978-3-319-06614-1
Typ	Book
editors	Wyatt J, Petters D, Hogg D
Verlag	Springer Nature

Titel	Incrementally Biasing Visual Search Using Natural Language Input.
Typ	Conference Proceeding Abstract
Autor	Krause E
Konferenz	Proc. of the 12th International Conference on Autonomous Agents and Multiagent Systems (AAMAS)

Titel	Advances in real-time object tracking
DOI	10.1007/s11554-013-0388-4
Typ	Journal Article
Autor	Mörwald T
Journal	Journal of Real-Time Image Processing
Seiten	683-697
Link	Publikation

Titel	Gaussian-weighted Jensen–Shannon divergence as a robust fitness function for multi-model fitting
DOI	10.1007/s00138-013-0513-1
Typ	Journal Article
Autor	Zhou K
Journal	Machine Vision and Applications
Seiten	1107-1119
Link	Publikation

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

InSitu - Integriertes Situiertes Bild- und Sprachverstehen für Mensch-Roboter Interaktion

InSitu - Integrated Situated Visual Scene and Natural Language Understanding for Human Robot Interaction

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

InSitu - Integriertes Situiertes Bild- und Sprachverstehen für Mensch-Roboter Interaktion

InSitu - Integrated Situated Visual Scene and Natural Language Understanding for Human Robot Interaction

Wissenschaftsdisziplinen

Keywords

Research Output