Ein multimodales Sprach-Interface zum Zugriff auf Web-Seiten
A multimodal speech interface for accessing web pages
Wissenschaftsdisziplinen
Informatik (90%); Sprach- und Literaturwissenschaften (10%)
Keywords
-
ARTIFICIAL INTELLIGENCE,
MULTIMODAL INTERFACES,
LANGUAGE ENGINEERING,
WEB INTERFACES
Im täglichen Leben kommuniziert der Mensch mit seiner Umgebung durch gespro-chene und geschriebene Sprache, ergänzt durch Symbole und Gesten. Dagegen ist die Mensch-Computer-Interaktion derzeit noch wesentlich eingeschränkter. Graphi-sche Benutzerschnittstellen, die heutzutage als de-facto-Standard angesehen werden können, sind zwar schon ein großer Fortschritt im Vergleich zu befehlsgesteuerten Systemen wie MS- DOS. Trotzdem besteht der Bedarf nach einer vielfältigeren und natürlicheren Interaktion. Um diese zu erreichen, stellt die Einbindung von Spra-che den logisch nächsten Schritt dar. Die Notwendigkeit für eine derart qualitativ verbesserte Interaktion wird in anschaulicher Weise durch das World Wide Web (WWW) demonstriert, dessen Bedeutung in der heutigen Informationsgesellschaft in rasanter Weise zunimmt: Während die Entwickler von Webseiten auf eine Vielzahl von Präsentationsmodalitäten - Text-, Sprach-, Bild-, Audio- und Videodaten - zurückgreifen können, ist die Reaktionsmöglichkeit des Benutzers größtenteils auf Zeigen und Klicken mit der Maus eingeschränkt. Nun ist das Web ein hoch interaktives Medium, und komplexe Interaktionen können nicht durch Mausklicks und die Eingabe einfacher Phrasen bewerkstelligt werden. Durch die Zurverfügungstellung einer Sprachschnittstelle kann die Kluft zwischen reiner Navigation und echter Interaktion in einer kommunikativen Situation überbrückt werden. Sprachbasierte Abfragemöglichkeit bietet auch den Vorteil, hinter die Hypertextstruktur zur aktuell benötigten Information vorzudringen. Dadurch wird der Benutzer von der Abhängigkeit von der durch den Informationsanbieter vorgegebenen Struktur befreit, was sehr vorteilhaft ist, da sich die Intentionen des Informationsanbieters mit denen des Informationsverwenders oft nicht decken. Gleichzeitig ist der Benutzer an keine vordefinierte Formulierung gebunden. Das hier vorgeschlagene Projekt wird neue Wege aufzeigen, wie Sprache und Text mit klassischen Zugriffsverfahren integriert werden können, wobei Nachteile und Vorteile verschiedener Kombinationen untersucht und gegeneinander abgewogen werden sollen. Da beim derzeitigen State of the Art der Spracherkennung ein universeller sprachgesteuerter Webbrowser mit akzeptabler Fehlerrate nicht realisierbar ist, schlagen wir als Testbett ein System vor, das den Zugriff auf online verfügbare deutschsprachige Zeitungen einschränkt. Neue Beiträge zur Wissenschaft sind dabei in drei Bereichen zu erwarten. Zunächst sollen empirisch fundierte Prä- Design-Studien Erkenntnisse über die adäquate Rolle gesprochener Sprache in einem multimodalen System für Zugriff auf das WWW liefern. Zweitens sollen die hier betriebenen Forschungen Einsichten in die Mechanismen zur Sprachanalyse im Kontext einer multimodalen Umgebung vermitteln. Während die Erkennung von Spontansprache üblicherweise störend hohe Wortfehlerraten aufweist, erwarten wir, daß das durch den Systemzustand gegebene Hintergrundwissen dazu beitragen wird, die intendierte Äußerung weitgehend eindeutig identifizieren zu können., Schließlich soll ein prototypisches System zum Zugriff auf das WWW entwickelt werden, das textuelle und (akustisch-)sprachliche Interaktion inkludiert und Fragen erlaubt, die sich sowohl auf die Browsingfunktionalität, als auch auf Struktur und Inhalt beziehen können.