• Zum Inhalt springen (Accesskey 1)
  • Zur Suche springen (Accesskey 7)
FWF — Österreichischer Wissenschaftsfonds
  • Zur Übersichtsseite Entdecken

    • Forschungsradar
      • Historisches Forschungsradar 1974–1994
    • Entdeckungen
      • Emmanuelle Charpentier
      • Adrian Constantin
      • Monika Henzinger
      • Ferenc Krausz
      • Wolfgang Lutz
      • Walter Pohl
      • Christa Schleper
      • Elly Tanaka
      • Anton Zeilinger
    • Impact Stories
      • Verena Gassner
      • Wolfgang Lechner
      • Georg Winter
    • scilog-Magazin
    • Austrian Science Awards
      • FWF-Wittgenstein-Preise
      • FWF-ASTRA-Preise
      • FWF-START-Preise
      • Auszeichnungsfeier
    • excellent=austria
      • Clusters of Excellence
      • Emerging Fields
    • Im Fokus
      • 40 Jahre Erwin-Schrödinger-Programm
      • Quantum Austria
      • Spezialforschungsbereiche
    • Dialog und Diskussion
      • think.beyond Summit
      • Am Puls
      • Was die Welt zusammenhält
      • FWF Women’s Circle
      • Science Lectures
    • Wissenstransfer-Events
    • E-Book Library
  • Zur Übersichtsseite Fördern

    • Förderportfolio
      • excellent=austria
        • Clusters of Excellence
        • Emerging Fields
      • Projekte
        • Einzelprojekte
        • Einzelprojekte International
        • Klinische Forschung
        • 1000 Ideen
        • Entwicklung und Erschließung der Künste
        • FWF-Wittgenstein-Preis
      • Karrieren
        • ESPRIT
        • FWF-ASTRA-Preise
        • Erwin Schrödinger
        • doc.funds
        • doc.funds.connect
      • Kooperationen
        • Spezialforschungsgruppen
        • Spezialforschungsbereiche
        • Forschungsgruppen
        • International – Multilaterale Initiativen
        • #ConnectingMinds
      • Kommunikation
        • Top Citizen Science
        • Wissenschaftskommunikation
        • Buchpublikationen
        • Digitale Publikationen
        • Open-Access-Pauschale
      • Themenförderungen
        • AI Mission Austria
        • Belmont Forum
        • ERA-NET HERA
        • ERA-NET NORFACE
        • ERA-NET QuantERA
        • ERA-NET TRANSCAN
        • Ersatzmethoden für Tierversuche
        • Europäische Partnerschaft Biodiversa+
        • Europäische Partnerschaft ERA4Health
        • Europäische Partnerschaft ERDERA
        • Europäische Partnerschaft EUPAHW
        • Europäische Partnerschaft FutureFoodS
        • Europäische Partnerschaft OHAMR
        • Europäische Partnerschaft PerMed
        • Europäische Partnerschaft Water4All
        • Gottfried-und-Vera-Weiss-Preis
        • netidee SCIENCE
        • Projekte der Herzfelder-Stiftung
        • Quantum Austria
        • Rückenwind-Förderbonus
        • WE&ME Award
        • Zero Emissions Award
      • Länderkooperationen
        • Belgien/Flandern
        • Deutschland
        • Frankreich
        • Italien/Südtirol
        • Japan
        • Luxemburg
        • Polen
        • Schweiz
        • Slowenien
        • Taiwan
        • Tirol–Südtirol–Trentino
        • Tschechien
        • Ungarn
    • Schritt für Schritt
      • Förderung finden
      • Antrag einreichen
      • Internationales Peer-Review
      • Förderentscheidung
      • Projekt durchführen
      • Projekt beenden
      • Weitere Informationen
        • Integrität und Ethik
        • Inklusion
        • Antragstellung aus dem Ausland
        • Personalkosten
        • PROFI
        • Projektendberichte
        • Projektendberichtsumfrage
    • FAQ
      • Projektphase PROFI
      • Projektphase Ad personam
      • Auslaufende Programme
        • Elise Richter und Elise Richter PEEK
        • FWF-START-Preise
  • Zur Übersichtsseite Über uns

    • Leitbild
    • FWF-Film
    • Werte
    • Zahlen und Daten
    • Jahresbericht
    • Aufgaben und Aktivitäten
      • Forschungsförderung
        • Matching-Funds-Förderungen
      • Internationale Kooperationen
      • Studien und Publikationen
      • Chancengleichheit und Diversität
        • Ziele und Prinzipien
        • Maßnahmen
        • Bias-Sensibilisierung in der Begutachtung
        • Begriffe und Definitionen
        • Karriere in der Spitzenforschung
      • Open Science
        • Open-Access-Policy
          • Open-Access-Policy für begutachtete Publikationen
          • Open-Access-Policy für begutachtete Buchpublikationen
          • Open-Access-Policy für Forschungsdaten
        • Forschungsdatenmanagement
        • Citizen Science
        • Open-Science-Infrastrukturen
        • Open-Science-Förderung
      • Evaluierungen und Qualitätssicherung
      • Wissenschaftliche Integrität
      • Wissenschaftskommunikation
      • Philanthropie
      • Nachhaltigkeit
    • Geschichte
    • Gesetzliche Grundlagen
    • Organisation
      • Gremien
        • Präsidium
        • Aufsichtsrat
        • Delegiertenversammlung
        • Kuratorium
        • Jurys
      • Geschäftsstelle
    • Arbeiten im FWF
  • Zur Übersichtsseite Aktuelles

    • News
    • Presse
      • Logos
    • Eventkalender
      • Veranstaltung eintragen
      • FWF-Infoveranstaltungen
    • Jobbörse
      • Job eintragen
    • Newsletter
  • Entdecken, 
    worauf es
    ankommt.

    FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

    SOCIAL MEDIA

    • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
    • , externe URL, öffnet sich in einem neuen Fenster
    • Facebook, externe URL, öffnet sich in einem neuen Fenster
    • Instagram, externe URL, öffnet sich in einem neuen Fenster
    • YouTube, externe URL, öffnet sich in einem neuen Fenster

    SCILOG

    • Scilog — Das Wissenschaftsmagazin des Österreichischen Wissenschaftsfonds (FWF)
  • elane-Login, externe URL, öffnet sich in einem neuen Fenster
  • Scilog externe URL, öffnet sich in einem neuen Fenster
  • en Switch to English

  

InSitu - Integriertes Situiertes Bild- und Sprachverstehen für Mensch-Roboter Interaktion

InSitu - Integrated Situated Visual Scene and Natural Language Understanding for Human Robot Interaction

Michael Zillich (ORCID: )
  • Grant-DOI 10.55776/TRP139
  • Förderprogramm Translational-Research-Programm
  • Status beendet
  • Projektbeginn 01.03.2011
  • Projektende 28.02.2015
  • Bewilligungssumme 369.306 €

Wissenschaftsdisziplinen

Elektrotechnik, Elektronik, Informationstechnik (20%); Informatik (50%); Sprach- und Literaturwissenschaften (30%)

Keywords

    Computer Vision, Cognitive Systems, Natural language Understanding, Integration, Robotics

Abstract Endbericht

Die vergangenen Jahre brachten beachtliche Fortschritte im Bereich persönlicher Roboter (seien es Haushaltsroboter oder Roboter im Bereich der Altenpflege). Wir sind aber immer noch weit entfernt von natürlicher Mensch-Maschine Interaktion in alltäglichen Situationen. Robustes visuelles Verstehen der Szene und Verstehen natürlicher Sprache sind zwei der größten Problemfelder. Wir glauben, das rührt zum Teil daher, daß diese beiden oft separat behandelt werden. Ein typischer Dialog zwischen Menschen situiert in derselben Szene beinhaltet viele Fälle wo Sehen und Sprache zusammen benutzt werden um ein gemeinsames Verstehen aufzubauen. Menschen blicken üblicherweise in Richtung eines Objekts, das gerade im Dialog erwähnt wird, und leiten so die Aufmerksamkeit des Gesprächspartners darauf. Weiters leiten Objektattribute aus (auch nur unvollständig) verstandenen Äußerungen "Gibst Du mir bitte das rote ...`` die Suche nach dem jeweiligen Objekt. Umgekehrt unterstützt das visuelle Verstehen einer Szene das Verstehen von mehrdeutigen oder unterspezifizierten Äußerungen - "das rote Buch auf dem Boden`` wird viel eher das Buch im Sichtfeld des Sprechers meinen, als dasjenige hinter ihrem Rücken. Somit können sich Bildverstehen und das Verstehen natürlicher Sprache gegenseitig und inkrementell unterstützen. Diese Projekt widmet sich dem engen Verzahnen von visuellem Verstehen der Szene mit dem Verstehen natürlicher Sprache. Wir glauben, daß Bildverstehen, Sprachverstehen und auch Handlungs- Subsysteme der Roboter Architektur sehr eng integriert sein müssen, um sich gegenseitig untersützen zu können. Das erfordert wiederum parallele Verarbeitung von Bildverstehen, Sprache und Handlungen, wobei alle Algorithmen in Lage sein müssen, neue Informationen jederzeit inkrementell einzubauen. Es erfordert weiterhin ein Software Framework, das nahtloses Verzahnen von Komponenten und Algorithmen in einem sehr engen zeitlichen Rahmen erlaubt. Eine derartige enge Integration wird es Robotern erlauben Objekte schneller zu finden, Referenzen zu Objekten schneller aufzulösen, eigene Handlungen schneller auszuführen und letztlich weit natürlichere Dialoge mit Menschen in alltäglichen Umgebungen zu führen.

Das Projekt InSitu beschäftigte sich mit der engen Integration von maschinellem Sehen und maschineller Spracherkennung. Beides sind für sich genommen schwierige Problemstellungen, v.a. im Kontext von autonomen Robotern, die in unstrukturierten Alltagsumgebungen Aufgaben ausführen sollen, wie Stelle die gelbe Tasse auf dem Tisch in das Regal. Ein Mensch, der diese Aufgabe gestellt bekäme, würde schon während der Satz noch gesprochen wird dem Blick oder der Geste des Gegenübers folgen und nach etwas gelbem Suchen.In InSitu wurden daher diese beiden Teilprobleme Sehen und Sprache gemeinsam bearbeitet. Hinweise aus (unter Umständen nur zum Teil) erkannten sprachlichen Äußerungen helfen der Bildverarbeitung, indem die Arbeit auf die relevanten Bildteile konzentriert wird, etwa auf gelbe Objekte im obigen Beispiel. Die Analyse einer gesamten komplexen 3-dimensionalen Szene kann mitunter lange dauern (etliche Sekunden auch auf modernen Rechnern). Wir konnten zeigen, dass mit einer derartigen situationsgerecht gesteuerten Aufmerksamkeit in Kombination mit inkrementellen Verarbeitungs-Methoden die Detektion von relevanten Objekten deutlich beschleunigt wird. Je nach Situation und Aufgabe sind hierbei verschiedene Aufmerksamkeitskanäle wichtig, wie z.B. Farbe, Form, oder auch Position (... die linke Tasse ...).Umgekehrt fließen visuelle Hinweise aus der Szene in die Spracherkennung ein. Wir konnten zeigen wie aus Äußerungen wie ein Erste Hilfe Koffer ist eine weiße Schachtel mit eine Griff und mit einem roten Kreuz darauf in einem einzigen Schritt Objekt-Klassen anhand von sprachlich beschreibbaren visuellen Merkmalen (Kreuz, rot) gelernt werden. Solcherart gelernte Klassen verallgemeinern auf qualitativ ähnliche Objekte und lassen Überlegungen zu wie Das Kreuz ist grün ist das immer noch ein Erste Hilfe Koffer?. Derartig semantisch tiefe Repräsentationen gehen damit über die sonst üblichen statistischen Methoden hinaus, die aus einer Vielzahl von Beispielen ähnliche Objekte lernen, ohne explizit beschreiben zu können worin die Ähnlichkeit besteht.Von besonderer Bedeutung sind hierbei Merkmale, die eine funktionale Relevanz haben (sogenannte affordances), wie z.B. Griffe (zum Greifen) oder Aushöhlungen (wie das Innere einer Tasse, als Behälter). Im Rahmen des Projektes wurde eine Systematik solcher affordances entwickelt, mit der sich Gegenstände in typischen Alltagsumgebungen beschreiben lassen, sowie Methoden um diese Merkmale in 3D Szenen zu detektieren.Die im Rahmen des Projektes entwickelten Methoden wurden auf 3 unterschiedlichen Robotern bei den beteiligten Partnern TU Wien und Tufts University / Boston getestet.

Forschungsstätte(n)
  • Technische Universität Wien - 100%

Research Output

  • 192 Zitationen
  • 28 Publikationen
Publikationen
  • 2013
    Titel Spatial Structure Analysis for Autonomous Robotic Vision Systems
    DOI 10.1109/worv.2013.6521933
    Typ Conference Proceeding Abstract
    Autor Zhou K
    Seiten 165-170
  • 2013
    Titel Geometric data abstraction using B-splines for range image segmentation
    DOI 10.1109/icra.2013.6630569
    Typ Conference Proceeding Abstract
    Autor Morwald T
    Seiten 148-153
  • 2013
    Titel Local 3D Symmetry for Visual Saliency in 2.5D Point Clouds
    DOI 10.1007/978-3-642-37331-2_33
    Typ Book Chapter
    Autor Potapova E
    Verlag Springer Nature
    Seiten 434-445
  • 2013
    Titel Advances in real-time object tracking
    DOI 10.1007/s11554-013-0388-4
    Typ Journal Article
    Autor Mörwald T
    Journal Journal of Real-Time Image Processing
    Seiten 683-697
    Link Publikation
  • 2014
    Titel Learning of perceptual grouping for object segmentation on RGB-D data
    DOI 10.1016/j.jvcir.2013.04.006
    Typ Journal Article
    Autor Richtsfeld A
    Journal Journal of Visual Communication and Image Representation
    Seiten 64-73
    Link Publikation
  • 2014
    Titel Incremental Attention-driven Object Segmentation.
    Typ Conference Proceeding Abstract
    Autor Potapova E
  • 2014
    Titel From Animals to Robots and Back: Reflections on Hard Problems in the Study of Cognition, A Collection in Honour of Aaron Sloman
    DOI 10.1007/978-3-319-06614-1
    Typ Book
    editors Wyatt J, Petters D, Hogg D
    Verlag Springer Nature
  • 2012
    Titel Web Mining Driven Object Locality Knowledge Acquisition for Efficient Robot Behavior
    DOI 10.1109/iros.2012.6385931
    Typ Conference Proceeding Abstract
    Autor Zhou K
    Seiten 3962-3969
  • 2011
    Titel Learning What Matters: Combining Probabilistic Models of 2D and 3D Saliency Cues
    DOI 10.1007/978-3-642-23968-7_14
    Typ Book Chapter
    Autor Potapova E
    Verlag Springer Nature
    Seiten 132-142
  • 2013
    Titel Anytime Perceptual Grouping of 2D Features into 3D Basic Shapes
    DOI 10.1007/978-3-642-39402-7_8
    Typ Book Chapter
    Autor Richtsfeld A
    Verlag Springer Nature
    Seiten 73-82
  • 2013
    Titel 3D Information as a Way to Improve the Quality of Attention Points.
    Typ Conference Proceeding Abstract
    Autor Potapova E
    Konferenz Proc. of the Austrian Robotics Workshop, Graz, 2013
  • 2013
    Titel Incrementally Biasing Visual Search Using Natural Language Input.
    Typ Conference Proceeding Abstract
    Autor Krause E
    Konferenz Proc. of the 12th International Conference on Autonomous Agents and Multiagent Systems (AAMAS)
  • 2013
    Titel Gaussian-weighted Jensen–Shannon divergence as a robust fitness function for multi-model fitting
    DOI 10.1007/s00138-013-0513-1
    Typ Journal Article
    Autor Zhou K
    Journal Machine Vision and Applications
    Seiten 1107-1119
    Link Publikation
  • 2013
    Titel Probabilistic Cue Integration for Real-Time Object Pose Tracking
    DOI 10.1007/978-3-642-39402-7_26
    Typ Book Chapter
    Autor Prankl J
    Verlag Springer Nature
    Seiten 254-263
  • 2013
    Titel Advances in real-time object tracking - Extensions for robust object tracking with a Monte-Carlo particle filter.
    Typ Journal Article
    Autor Mörwald T
  • 2013
    Titel A Pilot Study on Eye-tracking in 3D Search Tasks.
    Typ Conference Proceeding Abstract
    Autor Pirri F Et Al
    Konferenz Workshop on Solutions for Automatic Gaze Data Analysis (SAGA), Bielefeld, 2013
  • 2015
    Titel Saliency-Based Object Discovery on RGB-D Data with a Late-Fusion Approach
    DOI 10.1109/icra.2015.7139441
    Typ Conference Proceeding Abstract
    Autor Garcíal G
    Seiten 1866-1873
  • 2011
    Titel Language-modulated attention and its tight coupling to visual processes (poster).
    Typ Conference Proceeding Abstract
    Autor Potapova E
    Konferenz Rovereto Attention Workshop: Attention and Objects, 2011
  • 2014
    Titel Incremental Attention-Driven Object Segmentation**The research leading to these results has received funding from the Austrian Science Fund (FWF) under grant agreement No. TRP 139-N23 InSitu and from the European Community's Seventh Framework Pro
    DOI 10.1109/humanoids.2014.7041368
    Typ Conference Proceeding Abstract
    Autor Potapova E
    Seiten 252-258
  • 2014
    Titel Learning to Recognize Novel Objects in One Shot through Human-Robot Interactions in Natural Language Dialogues.
    Typ Conference Proceeding Abstract
    Autor Karuse E
    Konferenz Twenty-Eighth Conference on Artificial Intelligence (AAAI)
  • 2014
    Titel Attention-Driven Object Detection and Segmentation of Cluttered Table Scenes using 2.5D Symmetry
    DOI 10.1109/icra.2014.6907584
    Typ Conference Proceeding Abstract
    Autor Potapova E
    Seiten 4946-4952
  • 2012
    Titel Attention-driven Segmentation of Cluttered 3D Scenes.
    Typ Conference Proceeding Abstract
    Autor Potapova E
    Konferenz Proc. of the 21st Int. Conf. on Pattern Recognition (ICPR), Tsukuba, Japan, 2012
  • 2012
    Titel Web Mining Driven Object Locality Knowledge Acquisition for Efficient Robot Behavior.
    Typ Conference Proceeding Abstract
    Autor Vincze M Et Al
  • 2012
    Titel My Robot is Smarter than Your Robot - On the Need for a Total Turing Test for Robots.
    Typ Conference Proceeding Abstract
    Autor Zillich M
    Konferenz AISB/IACAP Symposium - Revisiting Turing and his Test: Comprehensiveness, Qualia, and the Real World, Birmingham, UK, 2012
  • 2012
    Titel Robust Multiple Model Estimation with Jensen-Shannon Divergence.
    Typ Conference Proceeding Abstract
    Autor Vincze M Et Al
    Konferenz Proc. of the 21st Int. Conf. on Pattern Recognition (ICPR), Tsukuba, Japan, 2012, 4 p, ISBN
  • 2015
    Titel What We Can Learn From the Primate’s Visual System
    DOI 10.1007/s13218-014-0345-9
    Typ Journal Article
    Autor Krüger N
    Journal KI - Künstliche Intelligenz
    Seiten 9-18
  • 2014
    Titel 4D Space-Time Mereotopogeometry-Part Connectivity Calculus for Visual Object Representation
    DOI 10.1109/icpr.2014.740
    Typ Conference Proceeding Abstract
    Autor Varadarajan K
    Seiten 4316-4321
  • 2014
    Titel What Vision Can, Can’t and Should Do
    DOI 10.1007/978-3-319-06614-1_9
    Typ Book Chapter
    Autor Zillich M
    Verlag Springer Nature
    Seiten 119-131

Entdecken, 
worauf es
ankommt.

Newsletter

FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

Kontakt

Österreichischer Wissenschaftsfonds FWF
Georg-Coch-Platz 2
(Eingang Wiesingerstraße 4)
1010 Wien

office(at)fwf.ac.at
+43 1 505 67 40

Allgemeines

  • Jobbörse
  • Arbeiten im FWF
  • Presse
  • Philanthropie
  • scilog
  • Geschäftsstelle
  • Social Media Directory
  • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
  • , externe URL, öffnet sich in einem neuen Fenster
  • Facebook, externe URL, öffnet sich in einem neuen Fenster
  • Instagram, externe URL, öffnet sich in einem neuen Fenster
  • YouTube, externe URL, öffnet sich in einem neuen Fenster
  • Cookies
  • Hinweisgeber:innensystem
  • Barrierefreiheitserklärung
  • Datenschutz
  • Impressum
  • IFG-Formular
  • Social Media Directory
  • © Österreichischer Wissenschaftsfonds FWF
© Österreichischer Wissenschaftsfonds FWF