InSitu - Integriertes Situiertes Bild- und Sprachverstehen für Mensch-Roboter Interaktion
InSitu - Integrated Situated Visual Scene and Natural Language Understanding for Human Robot Interaction
Wissenschaftsdisziplinen
Elektrotechnik, Elektronik, Informationstechnik (20%); Informatik (50%); Sprach- und Literaturwissenschaften (30%)
Keywords
-
Computer Vision,
Cognitive Systems,
Natural language Understanding,
Integration,
Robotics
Die vergangenen Jahre brachten beachtliche Fortschritte im Bereich persönlicher Roboter (seien es Haushaltsroboter oder Roboter im Bereich der Altenpflege). Wir sind aber immer noch weit entfernt von natürlicher Mensch-Maschine Interaktion in alltäglichen Situationen. Robustes visuelles Verstehen der Szene und Verstehen natürlicher Sprache sind zwei der größten Problemfelder. Wir glauben, das rührt zum Teil daher, daß diese beiden oft separat behandelt werden. Ein typischer Dialog zwischen Menschen situiert in derselben Szene beinhaltet viele Fälle wo Sehen und Sprache zusammen benutzt werden um ein gemeinsames Verstehen aufzubauen. Menschen blicken üblicherweise in Richtung eines Objekts, das gerade im Dialog erwähnt wird, und leiten so die Aufmerksamkeit des Gesprächspartners darauf. Weiters leiten Objektattribute aus (auch nur unvollständig) verstandenen Äußerungen "Gibst Du mir bitte das rote ...`` die Suche nach dem jeweiligen Objekt. Umgekehrt unterstützt das visuelle Verstehen einer Szene das Verstehen von mehrdeutigen oder unterspezifizierten Äußerungen - "das rote Buch auf dem Boden`` wird viel eher das Buch im Sichtfeld des Sprechers meinen, als dasjenige hinter ihrem Rücken. Somit können sich Bildverstehen und das Verstehen natürlicher Sprache gegenseitig und inkrementell unterstützen. Diese Projekt widmet sich dem engen Verzahnen von visuellem Verstehen der Szene mit dem Verstehen natürlicher Sprache. Wir glauben, daß Bildverstehen, Sprachverstehen und auch Handlungs- Subsysteme der Roboter Architektur sehr eng integriert sein müssen, um sich gegenseitig untersützen zu können. Das erfordert wiederum parallele Verarbeitung von Bildverstehen, Sprache und Handlungen, wobei alle Algorithmen in Lage sein müssen, neue Informationen jederzeit inkrementell einzubauen. Es erfordert weiterhin ein Software Framework, das nahtloses Verzahnen von Komponenten und Algorithmen in einem sehr engen zeitlichen Rahmen erlaubt. Eine derartige enge Integration wird es Robotern erlauben Objekte schneller zu finden, Referenzen zu Objekten schneller aufzulösen, eigene Handlungen schneller auszuführen und letztlich weit natürlichere Dialoge mit Menschen in alltäglichen Umgebungen zu führen.
Das Projekt InSitu beschäftigte sich mit der engen Integration von maschinellem Sehen und maschineller Spracherkennung. Beides sind für sich genommen schwierige Problemstellungen, v.a. im Kontext von autonomen Robotern, die in unstrukturierten Alltagsumgebungen Aufgaben ausführen sollen, wie Stelle die gelbe Tasse auf dem Tisch in das Regal. Ein Mensch, der diese Aufgabe gestellt bekäme, würde schon während der Satz noch gesprochen wird dem Blick oder der Geste des Gegenübers folgen und nach etwas gelbem Suchen.In InSitu wurden daher diese beiden Teilprobleme Sehen und Sprache gemeinsam bearbeitet. Hinweise aus (unter Umständen nur zum Teil) erkannten sprachlichen Äußerungen helfen der Bildverarbeitung, indem die Arbeit auf die relevanten Bildteile konzentriert wird, etwa auf gelbe Objekte im obigen Beispiel. Die Analyse einer gesamten komplexen 3-dimensionalen Szene kann mitunter lange dauern (etliche Sekunden auch auf modernen Rechnern). Wir konnten zeigen, dass mit einer derartigen situationsgerecht gesteuerten Aufmerksamkeit in Kombination mit inkrementellen Verarbeitungs-Methoden die Detektion von relevanten Objekten deutlich beschleunigt wird. Je nach Situation und Aufgabe sind hierbei verschiedene Aufmerksamkeitskanäle wichtig, wie z.B. Farbe, Form, oder auch Position (... die linke Tasse ...).Umgekehrt fließen visuelle Hinweise aus der Szene in die Spracherkennung ein. Wir konnten zeigen wie aus Äußerungen wie ein Erste Hilfe Koffer ist eine weiße Schachtel mit eine Griff und mit einem roten Kreuz darauf in einem einzigen Schritt Objekt-Klassen anhand von sprachlich beschreibbaren visuellen Merkmalen (Kreuz, rot) gelernt werden. Solcherart gelernte Klassen verallgemeinern auf qualitativ ähnliche Objekte und lassen Überlegungen zu wie Das Kreuz ist grün ist das immer noch ein Erste Hilfe Koffer?. Derartig semantisch tiefe Repräsentationen gehen damit über die sonst üblichen statistischen Methoden hinaus, die aus einer Vielzahl von Beispielen ähnliche Objekte lernen, ohne explizit beschreiben zu können worin die Ähnlichkeit besteht.Von besonderer Bedeutung sind hierbei Merkmale, die eine funktionale Relevanz haben (sogenannte affordances), wie z.B. Griffe (zum Greifen) oder Aushöhlungen (wie das Innere einer Tasse, als Behälter). Im Rahmen des Projektes wurde eine Systematik solcher affordances entwickelt, mit der sich Gegenstände in typischen Alltagsumgebungen beschreiben lassen, sowie Methoden um diese Merkmale in 3D Szenen zu detektieren.Die im Rahmen des Projektes entwickelten Methoden wurden auf 3 unterschiedlichen Robotern bei den beteiligten Partnern TU Wien und Tufts University / Boston getestet.
- Technische Universität Wien - 100%
Research Output
- 192 Zitationen
- 28 Publikationen
-
2013
Titel Spatial Structure Analysis for Autonomous Robotic Vision Systems DOI 10.1109/worv.2013.6521933 Typ Conference Proceeding Abstract Autor Zhou K Seiten 165-170 -
2013
Titel Geometric data abstraction using B-splines for range image segmentation DOI 10.1109/icra.2013.6630569 Typ Conference Proceeding Abstract Autor Morwald T Seiten 148-153 -
2013
Titel Local 3D Symmetry for Visual Saliency in 2.5D Point Clouds DOI 10.1007/978-3-642-37331-2_33 Typ Book Chapter Autor Potapova E Verlag Springer Nature Seiten 434-445 -
2013
Titel Advances in real-time object tracking DOI 10.1007/s11554-013-0388-4 Typ Journal Article Autor Mörwald T Journal Journal of Real-Time Image Processing Seiten 683-697 Link Publikation -
2014
Titel Learning of perceptual grouping for object segmentation on RGB-D data DOI 10.1016/j.jvcir.2013.04.006 Typ Journal Article Autor Richtsfeld A Journal Journal of Visual Communication and Image Representation Seiten 64-73 Link Publikation -
2014
Titel Incremental Attention-driven Object Segmentation. Typ Conference Proceeding Abstract Autor Potapova E -
2014
Titel From Animals to Robots and Back: Reflections on Hard Problems in the Study of Cognition, A Collection in Honour of Aaron Sloman DOI 10.1007/978-3-319-06614-1 Typ Book editors Wyatt J, Petters D, Hogg D Verlag Springer Nature -
2012
Titel Web Mining Driven Object Locality Knowledge Acquisition for Efficient Robot Behavior DOI 10.1109/iros.2012.6385931 Typ Conference Proceeding Abstract Autor Zhou K Seiten 3962-3969 -
2011
Titel Learning What Matters: Combining Probabilistic Models of 2D and 3D Saliency Cues DOI 10.1007/978-3-642-23968-7_14 Typ Book Chapter Autor Potapova E Verlag Springer Nature Seiten 132-142 -
2013
Titel Anytime Perceptual Grouping of 2D Features into 3D Basic Shapes DOI 10.1007/978-3-642-39402-7_8 Typ Book Chapter Autor Richtsfeld A Verlag Springer Nature Seiten 73-82 -
2013
Titel 3D Information as a Way to Improve the Quality of Attention Points. Typ Conference Proceeding Abstract Autor Potapova E Konferenz Proc. of the Austrian Robotics Workshop, Graz, 2013 -
2013
Titel Incrementally Biasing Visual Search Using Natural Language Input. Typ Conference Proceeding Abstract Autor Krause E Konferenz Proc. of the 12th International Conference on Autonomous Agents and Multiagent Systems (AAMAS) -
2013
Titel Gaussian-weighted Jensen–Shannon divergence as a robust fitness function for multi-model fitting DOI 10.1007/s00138-013-0513-1 Typ Journal Article Autor Zhou K Journal Machine Vision and Applications Seiten 1107-1119 Link Publikation -
2013
Titel Probabilistic Cue Integration for Real-Time Object Pose Tracking DOI 10.1007/978-3-642-39402-7_26 Typ Book Chapter Autor Prankl J Verlag Springer Nature Seiten 254-263 -
2013
Titel Advances in real-time object tracking - Extensions for robust object tracking with a Monte-Carlo particle filter. Typ Journal Article Autor Mörwald T -
2013
Titel A Pilot Study on Eye-tracking in 3D Search Tasks. Typ Conference Proceeding Abstract Autor Pirri F Et Al Konferenz Workshop on Solutions for Automatic Gaze Data Analysis (SAGA), Bielefeld, 2013 -
2015
Titel Saliency-Based Object Discovery on RGB-D Data with a Late-Fusion Approach DOI 10.1109/icra.2015.7139441 Typ Conference Proceeding Abstract Autor Garcíal G Seiten 1866-1873 -
2011
Titel Language-modulated attention and its tight coupling to visual processes (poster). Typ Conference Proceeding Abstract Autor Potapova E Konferenz Rovereto Attention Workshop: Attention and Objects, 2011 -
2014
Titel Incremental Attention-Driven Object Segmentation**The research leading to these results has received funding from the Austrian Science Fund (FWF) under grant agreement No. TRP 139-N23 InSitu and from the European Community's Seventh Framework Pro DOI 10.1109/humanoids.2014.7041368 Typ Conference Proceeding Abstract Autor Potapova E Seiten 252-258 -
2014
Titel Learning to Recognize Novel Objects in One Shot through Human-Robot Interactions in Natural Language Dialogues. Typ Conference Proceeding Abstract Autor Karuse E Konferenz Twenty-Eighth Conference on Artificial Intelligence (AAAI) -
2014
Titel Attention-Driven Object Detection and Segmentation of Cluttered Table Scenes using 2.5D Symmetry DOI 10.1109/icra.2014.6907584 Typ Conference Proceeding Abstract Autor Potapova E Seiten 4946-4952 -
2012
Titel Attention-driven Segmentation of Cluttered 3D Scenes. Typ Conference Proceeding Abstract Autor Potapova E Konferenz Proc. of the 21st Int. Conf. on Pattern Recognition (ICPR), Tsukuba, Japan, 2012 -
2012
Titel Web Mining Driven Object Locality Knowledge Acquisition for Efficient Robot Behavior. Typ Conference Proceeding Abstract Autor Vincze M Et Al -
2012
Titel My Robot is Smarter than Your Robot - On the Need for a Total Turing Test for Robots. Typ Conference Proceeding Abstract Autor Zillich M Konferenz AISB/IACAP Symposium - Revisiting Turing and his Test: Comprehensiveness, Qualia, and the Real World, Birmingham, UK, 2012 -
2012
Titel Robust Multiple Model Estimation with Jensen-Shannon Divergence. Typ Conference Proceeding Abstract Autor Vincze M Et Al Konferenz Proc. of the 21st Int. Conf. on Pattern Recognition (ICPR), Tsukuba, Japan, 2012, 4 p, ISBN -
2015
Titel What We Can Learn From the Primate’s Visual System DOI 10.1007/s13218-014-0345-9 Typ Journal Article Autor Krüger N Journal KI - Künstliche Intelligenz Seiten 9-18 -
2014
Titel 4D Space-Time Mereotopogeometry-Part Connectivity Calculus for Visual Object Representation DOI 10.1109/icpr.2014.740 Typ Conference Proceeding Abstract Autor Varadarajan K Seiten 4316-4321 -
2014
Titel What Vision Can, Can’t and Should Do DOI 10.1007/978-3-319-06614-1_9 Typ Book Chapter Autor Zillich M Verlag Springer Nature Seiten 119-131