Projektdetail

Wissenschaftsdisziplinen

Informatik (40%); Sprach- und Literaturwissenschaften (60%)

Keywords

Automatic Speech Recognition, Spontaneous Speech, Pronunciation Variation, Austrian German, Linguistic Models, Dutch

Abstract

Endbericht

Systeme zur automatischen Spracherkennung wurden ursprünglich so entwickelt, dass sie mit sorgfältig artikulierter Sprache umgehen können. In Folge dessen können diese Systeme nicht gut mit der gewaltigen Aussprachevariation, die für spontane Alltagssprache üblich ist, umgehen. Gelesene und spontane Sprache unterscheiden sich in vielen Aspekten. Die charakteristischen Eigenschaften der Spontansprache sind, unter anderem, eine hohe Frequenz von Äußerungen, die als "ungrammatikalisch" erachtet werden könnten, und das Auftreten von Reformulierungen und Wortwiederholungen. In phonetischer Hinsicht ist ein viel höheres Maß an Aussprachevariation in der spontanen als in der gelesenen Sprache zu beobachten. In der Spontansprache sind die Worte im Vergleich zu ihrer Standardaussprache häufig akustisch reduziert, sodass zum Beispiel das Wort haben wie ham ausgesprochen sein kann. Da die meisten Anwendungen von automatischen Spracherkennern jedoch die Erkennung von Spontansprache erfordern (z.B. Spracheingabehilfsmittel für körperlich Behinderte, medizinische Diktiersysteme, Sprachdialogsysteme etc.), ist die Entwicklung von Methoden, die die Integrierung von Aussprachevariation ermöglichen, ein wichtiges Forschungsthema im Bereich der Sprachtechnologie. Auch phonetische, sprachwissenschaftliche und psycholinguistische Studien analysieren spontane Gespräche auf der Suche nach einer Antwort darauf, welchen Regeln die Produktion und Perzeption von Sprache in alltälglichen Situtationen unterliegen. Studien, die auf großen Sprachkorpora beruhen, haben gezeigt, dass die Details der phonetischen Realisierung mit den grammatikalischen und funktionellen Eigenschaften einer Aussage in Zusammenhang stehen. Es ist wahrscheinlich, dass die neuen Möglichkeiten zur quantitativen Analyse noch weitere Faktoren ans Tageslicht bringen, die die Aussprachevariation beeinflussen. Das vorliegende Projekt hat zum Ziel die grammatikalischen Bedingungen für das Auftreten von phonetischen Prozessen in Spontansprache mit Hilfe von quantitativen Methoden zu bestimmen und dieses erlangte Wissen zu verwenden um einen automatischen Spracherkenner zu verbessern. Die meisten Spracherkenner behandeln die akustischen und sprachstrukturellen Eigenschaften unabhängig voneinander. Im Rahmen dieses Projektes soll untersucht werden, ob sich diese Systeme verbessern, wenn sie die Wechselwirkungen zwischen diesen Ebenen mitberücksichtigen ("cross-layer"). Für diese Untersuchungen wird niederländisches und österreichisches Sprachmaterial herangezogen um sprachspezifische von sprachübergreifenden Phänomenen zu differenzieren. Sowohl das erstellte Sprachmaterial als auch die Softwareprogramme zur automatischen phonetischen und morpho- syntaktischen Transkription, die im Rahmen dieses Projektes entwickelt würden, stünden zukünftigen sprachwissenschaftlichen und technischen Studien zur Verfügung.

Systeme zur automatischen Spracherkennung wurden ursprünglich so entwickelt, dass sie mit sorgfältig artikulierter Sprache umgehen können. Die meisten Anwendungen von automatischen Spracherkennern erfordern jedoch die Erkennung von Spontansprache (z.B. Spracheingabehilfsmittel für körperlich Behinderte, medizinische Diktiersysteme, Sprachdialogsysteme etc.). Im Vergleich zu gelesener Sprache unterscheidet sich die Spontansprache unter anderem durch eine hohe Frequenz von Äußerungen, die als "ungrammatikalisch" erachtet werden könnten und das Auftreten von Reformulierungen und Wortwiederholungen wie z.B. in ...hmm, naja..ich glaube, weisst eh... Weiters ist ein viel höheres Maß an Aussprachevariation zu beobachten, wobei die Variation von Faktoren wie regionaler Herkunft, Sprachsituation und Worthäufigkeit abhängt. Das häufig vorkommende Wort haben wird z.B. in alltäglichen, informellen Situationen eher als ham ausgesprochen.Das Ziel dieses Projektes war es, interdisziplinäre Methoden (linguistische, phonetische und sprach-technologische) für die Modellierung der Faktoren für Aussprachevariation zu entwickeln und so Spracherkenner für Spontansprache zu verbessern. Zu Beginn des Projektes erstellten wir die erste große Sprachdatenbank für gesprochenes österreichisches Deutsch. Diese ist reich an Aussprachevariation da sie 1900 Minuten an gelesenen Sätzen, kurzen spontanen Kommandos und spontanen Gesprächen von 38 Sprechern aus 5 Bundesländern beinhaltet. Sowohl die Datenbank als auch die entwickelten Methoden zu deren Annotation stehen nun auch anderen Forschern zur Verfügung. In weiterer Folge, haben wir die Faktoren für die Aussprachevariation anhand der erstellten österreichischen Datenbank und bereits Existierender für Deutsch und Niederländisch untersucht. Eines der Untersuchungsergebnisse war, dass die morphologischen Eigenschaften und die grammatikalische Funktion der Wörter ihre Aussprache beeinflusst. Z.B.: Das Wort der wird in spontaner Sprache unterschiedlich ausgesprochen, je nachdem ob es im Satz als Artikel, Relativpronomen oder Demonstrativpronomen fungiert. Dieses und weitere phonetische Untersuchungsergebnisse werden verwendet um einen Spracherkenner zu verbessern. Unsere Arbeit zeigt jedoch nicht lediglich neue Methoden zur Verbesserung dieser Systeme, sie vermittelt einen Perspektivenwechsel: Bisher wurde die Aussprachevariation in der Spontansprache als Problem für die automatische Spracherkennung gesehen. Wir hingegen sehen sie als bedeutungstragende Ressource, die die gelesene Sprache nicht beinhaltet. Dieser Perspektivenwechsel wird unsere zukünftigen Forschungspläne leiten.

Forschungsstätte(n)

Technische Universität Graz - 100%

Internationale Projektbeteiligte

Mirjam Ernestus, Radboud University - Niederlande

Research Output

40 Zitationen
13 Publikationen

Publikationen

Titel	On the use of acoustic features for automatic disambiguation of homophones in spontaneous German
DOI	10.1016/j.csl.2017.12.011
Typ	Journal Article
Autor	Schuppler B
Journal	Computer Speech & Language
Seiten	209-224

Titel	Rethinking classification results based on read speech, or: why improvements do not always transfer to other speaking styles
DOI	10.1007/s10772-017-9436-y
Typ	Journal Article
Autor	Schuppler B
Journal	International Journal of Speech Technology
Seiten	699-713
Link	Publikation

Titel	A corpus of read and conversational Austrian German
DOI	10.1016/j.specom.2017.09.003
Typ	Journal Article
Autor	Schuppler B
Journal	Speech Communication
Seiten	62-74

Titel	Automatic detection of uncertainty in spontaneous German dialogue.
Typ	Conference Proceeding Abstract
Autor	Schrank T
Konferenz	Proceedings of Interspeech

Titel	Pronunciation Variation in Read and Conversational Austrian German.
Typ	Conference Proceeding Abstract
Autor	Morales-Cordovilla Ja Et Al
Konferenz	Proceedings of Interspeech

Titel	Automatic Phonetic Transcription in Two Steps: Forced Alignment and Burst Detection
DOI	10.1007/978-3-319-11397-5_10
Typ	Book Chapter
Autor	Schuppler B
Verlag	Springer Nature
Seiten	132-143

Titel	Acoustic correlates of stress and accent in Standard Austrian German.
Typ	Book Chapter
Autor	El Zarka D

Titel	GRASS: The Graz Corpus of Read and Spontaneous Speech.
Typ	Conference Proceeding Abstract
Autor	Pessentheiner H Et Al
Konferenz	Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14).

Titel	Where /aR/ the /R/s in Standard Austrian German?
Typ	Conference Proceeding Abstract
Autor	Jackschina A
Konferenz	Proceedings of Interspeech

Titel	Statistical Language and Speech Processing, Second International Conference, SLSP 2014, Grenoble, France, October 14-16, 2014, Proceedings
DOI	10.1007/978-3-319-11397-5
Typ	Book
Verlag	Springer Nature

Titel	How extra-linguistic factors affect pronunciation variation in different speaking styles.
Typ	Conference Proceeding Abstract
Autor	Schuppler B
Konferenz	22Nd Czech-German Workshop on Speech Communication.

Titel	Informal speech processes can be categorical in nature, even if they affect many different words
DOI	10.1121/1.4790352
Typ	Journal Article
Autor	Hanique I
Journal	The Journal of the Acoustical Society of America
Seiten	1644-1655
Link	Publikation

Titel	The challenge of manner classification in conversational speech.
Typ	Conference Proceeding Abstract
Autor	Boves L Et Al
Konferenz	Proceedings of the Workshop on Speech Production in Automatic Speech Recognition, Satellite Workshop of Interspeech

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Cross-layer Aussprachemodelle für Spontansprache

Cross-layer pronunciation modeling for conversational speech

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Cross-layer Aussprachemodelle für Spontansprache

Cross-layer pronunciation modeling for conversational speech

Wissenschaftsdisziplinen

Keywords

Research Output