Cross-layer Aussprachemodelle für Spontansprache
Cross-layer pronunciation modeling for conversational speech
Wissenschaftsdisziplinen
Informatik (40%); Sprach- und Literaturwissenschaften (60%)
Keywords
-
Automatic Speech Recognition,
Spontaneous Speech,
Pronunciation Variation,
Austrian German,
Linguistic Models,
Dutch
Systeme zur automatischen Spracherkennung wurden ursprünglich so entwickelt, dass sie mit sorgfältig artikulierter Sprache umgehen können. In Folge dessen können diese Systeme nicht gut mit der gewaltigen Aussprachevariation, die für spontane Alltagssprache üblich ist, umgehen. Gelesene und spontane Sprache unterscheiden sich in vielen Aspekten. Die charakteristischen Eigenschaften der Spontansprache sind, unter anderem, eine hohe Frequenz von Äußerungen, die als "ungrammatikalisch" erachtet werden könnten, und das Auftreten von Reformulierungen und Wortwiederholungen. In phonetischer Hinsicht ist ein viel höheres Maß an Aussprachevariation in der spontanen als in der gelesenen Sprache zu beobachten. In der Spontansprache sind die Worte im Vergleich zu ihrer Standardaussprache häufig akustisch reduziert, sodass zum Beispiel das Wort haben wie ham ausgesprochen sein kann. Da die meisten Anwendungen von automatischen Spracherkennern jedoch die Erkennung von Spontansprache erfordern (z.B. Spracheingabehilfsmittel für körperlich Behinderte, medizinische Diktiersysteme, Sprachdialogsysteme etc.), ist die Entwicklung von Methoden, die die Integrierung von Aussprachevariation ermöglichen, ein wichtiges Forschungsthema im Bereich der Sprachtechnologie. Auch phonetische, sprachwissenschaftliche und psycholinguistische Studien analysieren spontane Gespräche auf der Suche nach einer Antwort darauf, welchen Regeln die Produktion und Perzeption von Sprache in alltälglichen Situtationen unterliegen. Studien, die auf großen Sprachkorpora beruhen, haben gezeigt, dass die Details der phonetischen Realisierung mit den grammatikalischen und funktionellen Eigenschaften einer Aussage in Zusammenhang stehen. Es ist wahrscheinlich, dass die neuen Möglichkeiten zur quantitativen Analyse noch weitere Faktoren ans Tageslicht bringen, die die Aussprachevariation beeinflussen. Das vorliegende Projekt hat zum Ziel die grammatikalischen Bedingungen für das Auftreten von phonetischen Prozessen in Spontansprache mit Hilfe von quantitativen Methoden zu bestimmen und dieses erlangte Wissen zu verwenden um einen automatischen Spracherkenner zu verbessern. Die meisten Spracherkenner behandeln die akustischen und sprachstrukturellen Eigenschaften unabhängig voneinander. Im Rahmen dieses Projektes soll untersucht werden, ob sich diese Systeme verbessern, wenn sie die Wechselwirkungen zwischen diesen Ebenen mitberücksichtigen ("cross-layer"). Für diese Untersuchungen wird niederländisches und österreichisches Sprachmaterial herangezogen um sprachspezifische von sprachübergreifenden Phänomenen zu differenzieren. Sowohl das erstellte Sprachmaterial als auch die Softwareprogramme zur automatischen phonetischen und morpho- syntaktischen Transkription, die im Rahmen dieses Projektes entwickelt würden, stünden zukünftigen sprachwissenschaftlichen und technischen Studien zur Verfügung.
Systeme zur automatischen Spracherkennung wurden ursprünglich so entwickelt, dass sie mit sorgfältig artikulierter Sprache umgehen können. Die meisten Anwendungen von automatischen Spracherkennern erfordern jedoch die Erkennung von Spontansprache (z.B. Spracheingabehilfsmittel für körperlich Behinderte, medizinische Diktiersysteme, Sprachdialogsysteme etc.). Im Vergleich zu gelesener Sprache unterscheidet sich die Spontansprache unter anderem durch eine hohe Frequenz von Äußerungen, die als "ungrammatikalisch" erachtet werden könnten und das Auftreten von Reformulierungen und Wortwiederholungen wie z.B. in ...hmm, naja..ich glaube, weisst eh... Weiters ist ein viel höheres Maß an Aussprachevariation zu beobachten, wobei die Variation von Faktoren wie regionaler Herkunft, Sprachsituation und Worthäufigkeit abhängt. Das häufig vorkommende Wort haben wird z.B. in alltäglichen, informellen Situationen eher als ham ausgesprochen.Das Ziel dieses Projektes war es, interdisziplinäre Methoden (linguistische, phonetische und sprach-technologische) für die Modellierung der Faktoren für Aussprachevariation zu entwickeln und so Spracherkenner für Spontansprache zu verbessern. Zu Beginn des Projektes erstellten wir die erste große Sprachdatenbank für gesprochenes österreichisches Deutsch. Diese ist reich an Aussprachevariation da sie 1900 Minuten an gelesenen Sätzen, kurzen spontanen Kommandos und spontanen Gesprächen von 38 Sprechern aus 5 Bundesländern beinhaltet. Sowohl die Datenbank als auch die entwickelten Methoden zu deren Annotation stehen nun auch anderen Forschern zur Verfügung. In weiterer Folge, haben wir die Faktoren für die Aussprachevariation anhand der erstellten österreichischen Datenbank und bereits Existierender für Deutsch und Niederländisch untersucht. Eines der Untersuchungsergebnisse war, dass die morphologischen Eigenschaften und die grammatikalische Funktion der Wörter ihre Aussprache beeinflusst. Z.B.: Das Wort der wird in spontaner Sprache unterschiedlich ausgesprochen, je nachdem ob es im Satz als Artikel, Relativpronomen oder Demonstrativpronomen fungiert. Dieses und weitere phonetische Untersuchungsergebnisse werden verwendet um einen Spracherkenner zu verbessern. Unsere Arbeit zeigt jedoch nicht lediglich neue Methoden zur Verbesserung dieser Systeme, sie vermittelt einen Perspektivenwechsel: Bisher wurde die Aussprachevariation in der Spontansprache als Problem für die automatische Spracherkennung gesehen. Wir hingegen sehen sie als bedeutungstragende Ressource, die die gelesene Sprache nicht beinhaltet. Dieser Perspektivenwechsel wird unsere zukünftigen Forschungspläne leiten.
- Technische Universität Graz - 100%
- Mirjam Ernestus, Radboud University - Niederlande
Research Output
- 40 Zitationen
- 13 Publikationen
-
2017
Titel Acoustic correlates of stress and accent in Standard Austrian German. Typ Book Chapter Autor El Zarka D -
2015
Titel Automatic detection of uncertainty in spontaneous German dialogue. Typ Conference Proceeding Abstract Autor Schrank T Konferenz Proceedings of Interspeech -
2017
Titel A corpus of read and conversational Austrian German DOI 10.1016/j.specom.2017.09.003 Typ Journal Article Autor Schuppler B Journal Speech Communication Seiten 62-74 -
2017
Titel Rethinking classification results based on read speech, or: why improvements do not always transfer to other speaking styles DOI 10.1007/s10772-017-9436-y Typ Journal Article Autor Schuppler B Journal International Journal of Speech Technology Seiten 699-713 Link Publikation -
2018
Titel On the use of acoustic features for automatic disambiguation of homophones in spontaneous German DOI 10.1016/j.csl.2017.12.011 Typ Journal Article Autor Schuppler B Journal Computer Speech & Language Seiten 209-224 -
2014
Titel Pronunciation Variation in Read and Conversational Austrian German. Typ Conference Proceeding Abstract Autor Morales-Cordovilla Ja Et Al Konferenz Proceedings of Interspeech -
2013
Titel Informal speech processes can be categorical in nature, even if they affect many different words DOI 10.1121/1.4790352 Typ Journal Article Autor Hanique I Journal The Journal of the Acoustical Society of America Seiten 1644-1655 Link Publikation -
2014
Titel Automatic Phonetic Transcription in Two Steps: Forced Alignment and Burst Detection DOI 10.1007/978-3-319-11397-5_10 Typ Book Chapter Autor Schuppler B Verlag Springer Nature Seiten 132-143 -
2013
Titel The challenge of manner classification in conversational speech. Typ Conference Proceeding Abstract Autor Boves L Et Al Konferenz Proceedings of the Workshop on Speech Production in Automatic Speech Recognition, Satellite Workshop of Interspeech -
2014
Titel Where /aR/ the /R/s in Standard Austrian German? Typ Conference Proceeding Abstract Autor Jackschina A Konferenz Proceedings of Interspeech -
2014
Titel How extra-linguistic factors affect pronunciation variation in different speaking styles. Typ Conference Proceeding Abstract Autor Schuppler B Konferenz 22Nd Czech-German Workshop on Speech Communication. -
2014
Titel GRASS: The Graz Corpus of Read and Spontaneous Speech. Typ Conference Proceeding Abstract Autor Pessentheiner H Et Al Konferenz Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). -
2014
Titel Statistical Language and Speech Processing, Second International Conference, SLSP 2014, Grenoble, France, October 14-16, 2014, Proceedings DOI 10.1007/978-3-319-11397-5 Typ Book Verlag Springer Nature