Künstliches Sprachverstehen in Robotern
ArTificial Language uNdersTanding In robotS ATLANTIS
ERA-Net: CHIST ERA
Wissenschaftsdisziplinen
Elektrotechnik, Elektronik, Informationstechnik (20%); Informatik (50%); Sprach- und Literaturwissenschaften (30%)
Keywords
-
Language Grounding,
Multi-Modal Language Learning,
Construction Grammar,
Multi-Modal Language Understanding,
Ontogenetic Ritualisation,
Multi-Modal Object Reference
ATLANTIS zielt darauf ab, die ersten Phasen des grounded Language Learnings, wie wir sie bei Kindern bis zum dritten Lebensjahr sehen, zu verstehen und zu modellieren: wie Zeigegesten und andere symbolische Gesten aus ontogenetischen Ritualisierungen instrumenteller Aktionen entstehen, wie Wörter sehr schnell in kontextualisierten Sprachspielen (Language Games) gelernt werden, und wie sich die ersten grammatischen Konstruktionen aus konkreten Sätzen entwickeln. All dies erfordert eine globale computationelle Theorie der symbolischen Entwicklung, die uns darüber informiert, welche Kräfte die sprachliche Entwicklung motivieren, welche Strategien in Lerner-Tutor- Interaktionen ausgenutzt werden, um komplexere kompositionelle Bedeutungen zu erzeugen, wie neue grammatische Strukturen und neue Interaktionsmuster gebildet werden, und wie die Vielzahl der beim Menschen beobachtbaren Entwicklungsstränge zu einem voll ausgeprägten System multimodaler Kommunikationsfähigkeiten werden. Dieses hochgesteckte Ziel kann nun in Angriff genommen werden, da gerade in letzter Zeit erhebliche Fortschritte bei humanoiden Robotern und in der Entwicklung von Sensor-Motor- Kompetenz (sensory-motor competence) erzielt werden konnten. Damit ist die Zeit reif, all dies auf eine höhere Ebene von symbolischer Intelligenz zu heben, einfache Sensor-Motor- Zyklen oder musterbasierte Intelligenz zu überwinden und sich gegroundeter Semantik (grounded semantics), sowie inkrementellem, autonomen Langzeitsprachlernen zuzuwenden.
Gesamtziel des internationalen Projektes ATLANTIS war, die ersten Phasen des Sprachlernens beim Kind bis zum Alter von ungefähr drei Jahren so weit zu verstehen, dass diese am Computer, respektive Roboter, simuliert werden können. Dazu gehören: das Verständnis wie das Kind lernt, Zeigegesten als Teil der menschlichen Kommunikation zu verstehen; welche Mechanismen es dem Kind erlauben, in relativ kurzer Zeit viele Wörter zu lernen; und wie erste grammatische Konstruktionen, wie z.B. Flasche nehmen, gelernt werden. Dies ist erstrebenswert, weil es einerseits Grundlagen schafft, dass Roboter in Zukunft durch Lernen vom Menschen in alltäglichen Situationen ein grundlegendes Sprachverständnis und ein Verständnis für die Beziehungen zwischen Sprache und konkreter Situation erwerben können und somit viel flexibler einsetzbar sind als bisher. Abgesehen vom anwendungspraktischen Vorteil, ist die Umsetzung theoretischer Einsichten in am Computer verarbeitbare Modelle eine Möglichkeit diese zu validieren. Das führt wiederum zu einer Verfeinerung der Ausgangshypothesen und trägt in iterativen Schritten zur Vertiefung der wissenschaftlichen Erkenntnisse bei. Der Beitrag des Österreichischen Forschungsinstituts für Artificial Intelligence (OFAI) zum Gesamtprojekt beschäftigte sich mit der Untersuchung, Modellierung und Implementierung von Mechanismen, die es dem Menschen erlauben, eine Beziehung zwischen sprachlichen Äußerungen und Objekten in der Welt herzustellen. Man stelle sich vor, jemand sagt: gib mir das grüne Ding dort drüben. Welche Information ist nötig, damit die angesprochene Person verstehen kann, auf welches Objekt sich der/die Sprecher/in bezogen hat? Erst muss man verstehen, wo dort drüben ist, z.B. aufgrund einer Zeigegeste, eines Blicks, einer Kopfbewegung des Sprechers / der Sprecherin; dann muss man sehen, ob sich dort ein grünes Objekt befindet, und so fort. All das macht, im Gegensatz zu Computern, Menschen keine Schwierigkeiten. Um ein Verständnis von Mechanismen zu erreichen, die es Menschen ermöglichen, sprachliche Objektreferenzen aufzulösen, untersuchte das OFAI Videomaterial von Szenen, in denen Menschen anderen Menschen einfache Aufgaben vorzeigen und erklären. Daraus wurden Modelle abgeleitet, wie sprachliche Äußerung, Gestik und Situation zusammenwirken, und dann am Computer implementiert. Darüber hinaus wurde eine Komponente implementiert, die es einem Roboter erlaubt, in solchen Tutoring-Situationen neue Wörter für Objekte zu lernen.
- Ann Nowe, Vrije Universiteit Brussel - Belgien
- Luc Steels, Vrije Universiteit Brussel - Belgien
- Thierry Poibeau, Ecole Normale Supérieure - Frankreich
- Remi Van Trijp, SONY CLS-Paris - Frankreich
Research Output
- 4 Zitationen
- 1 Publikationen
-
2018
Titel Grounded Word Learning on a Pepper Robot DOI 10.1145/3267851.3267903 Typ Conference Proceeding Abstract Autor Hirschmanner M Seiten 351-352