Projektdetail

Grant-DOI 10.55776/V638
Bewilligungssumme Elise Richter
Status Beendet
Projektbeginn 01.10.2018
Projektende 30.11.2021
Bewilligungssumme 271.184 €
Projekt-Website

Wissenschaftsdisziplinen

Informatik (20%); Sprach- und Literaturwissenschaften (80%)

Keywords

Conversational Speech,
Prosodic Models,
Automatic Speech Recognition,
Austrian German,
Pronunciation Variation,
Machine Learning

Abstract

Zusammenfassung

Systeme zur automatischen Spracherkennung wurden ursprünglich so entwickelt dass sie mit sorgfältig artikulierter Sprache umgehen können. Die meisten Anwendungen von automatischen Spracherkennern erfordern jedochdieErkennung von Spontansprache (z.B. Spracheingabehilfsmittel für körperlichBehinderte, Sprachdialogsysteme,medizinische Diktiersysteme, etc.). Im Vergleich zur gelesenen Sprache unterscheidet sich die Spontansprache unter anderem durch eine hohe Frequenz von Äußerungen die als "ungrammatikalisch" erachtet werden könnten und durch das Auftreten von Reformulierungen und Wortwiederholungen wie z.B. in ...hmm, naja..ich glaube, weisst eh... Das Wort haben wird in alltäglichen, informellen Situationen z.B. eher als ham ausgesprochen. Diese Aussprachevariation hängt von gut untersuchten Faktoren wie regionaler Herkunft, Sprachsituation und Worthäufigkeit ab. Eine noch wenig untersuchte Kategorie von Faktoren sind die prosodischen Eigenschaften des Wortes im Satz. Solche prosodischenEigenschaftenbeschreiben denSprachrhythmus unddie Sprachmelodie des Satzes und z.B. ob ein Wort betont wird oder nicht. Das Ziel dieses Projektes ist es, interdisziplinäre Methoden (linguistische, phonetische und sprach-technologische) für die Modellierung der prosodischen Faktoren für Aussprachevariation zu entwickeln und so Spracherkenner für Spontansprache zu verbessern. Dafür verwenden wir Sprachmaterial von Deutschen und Österreichischen Sprechern. Im Gegensatz zu den meisten Studien im Bereich Prosodie, welche gelesene oder gut vorbereitete Laborsprache verwendet haben, werden wir unvorbereitete Dialoge zu alltäglichen Themen zwischen Gesprächspartnern die sie gut kennen (d.h. Spontansprache) untersuchen. Derartiges Sprachmaterial ist nicht nur natürlicher, sondern auch reicher an Aussprachevariation. Im geplanten Projekt werden wir die erste prosodisch annotierte Sprachdatenbank für spontanes Österreichisches Deutsch erstellen welche danach gemeinsam mit den automatischen Werkzeugen zu deren Annotation auch anderen Forschern zur Verfügung gestellt wird. Weiters werden die gewonnenen Erkenntnisse in Modelle in einen prosodie-abhängigen Spracherkenner für Spontansprache von Deutschen und Österreichischen Sprechern integriert.

Systeme zur automatischen Spracherkennung wurden ursprünglich so entwickelt dass sie mit sorgfältig artikulierter Sprache umgehen können. Die meisten Anwendungen von automatischen Spracherkennern erfordern jedoch die Erkennung von Spontansprache (z.B. Spracheingabehilfsmittel für körperlich Behinderte, Sprachdialogsysteme, medizinische Diktiersysteme, etc.). Im Vergleich zur gelesenen Sprache unterscheidet sich die Spontansprache unter anderem durch eine hohe Frequenz von Äußerungen die als "ungrammatikalisch" erachtet werden könnten und durch das Auftreten von Reformulierungen und Wortwiederholungen wie z.B. in ...hmm, naja..ich glaube, weisst eh... Das Wort "haben" wird in alltäglichen, informellen Situationen z.B. eher als "ham" ausgesprochen. Diese Aussprachevariation hängt von gut untersuchten Faktoren wie regionaler Herkunft, Sprachsituation und Worthäufigkeit ab. Eine noch wenig untersuchte Kategorie von Faktoren sind die prosodischen Eigenschaften des Wortes im Satz. Solche prosodischen Eigenschaften beschreiben den Sprachrhythmus und die Sprachmelodie des Satzes und z.B. ob ein Wort betont wird oder nicht. Das Ziel dieses Projektes war es, interdisziplinäre Methoden (linguistische, phonetische und sprach-technologische) für die Modellierung der prosodischen Faktoren für Aussprachevariation zu entwickeln und so Spracherkenner für Spontansprache zu verbessern. Dafür verwendeten wir Sprachmaterial von Deutschen und Österreichischen Sprechern. Im Gegensatz zu den meisten Studien im Bereich Prosodie, welche gelesene oder gut vorbereitete Laborsprache verwendet haben, haben wir unvorbereitete Dialoge zu alltäglichen Themen zwischen Gesprächspartnern die sich gut kennen (d.h. Spontansprache) untersucht, und Vergleichsstudien zu gelesener Sprache durchgeführt. Dabei haben wir herausgefunden, das von einem prosodischen Gesichtspunkt her, sich spontane Gespräche von Deutschen und Österreichischen Sprechern sehr ähnlich sind, und der Sprachstil (gelesen vs. spontan) mehr Einfluss hat auf die untersuchten prosodischen Eigenschaften als die regionale Herkunft der SprecherInnen. Weiters haben wir im Elise-Richter Projekt die erste prosodisch annotierte Sprachdatenbank für spontanes Österreichisches Deutsch erstellt, welche nun gemeinsam mit automatischen Werkzeugen zu deren Annotation auch anderen Forschern zur Verfügung steht. Innerhalb dieses Projektes wurde die Datenbank weitergehend zur Entwicklung eines Spracherkenners für spontanes Österreichisch verwendet. Die erstellten Sprachdaten und Werkzeuge werden aber sowohl bereits von zahlreichen SprachwissenschaftlerInnen als auch von SprachtechnologInnen in nationalen und internationalen Forschungsinstitutionen verwendet.

Forschungsstätte(n)

Technische Universität Graz - 100%

Internationale Projektbeteiligte

Margaret Zellers, University of Stockholm - Schweden
Philip Garner, Idiap Research Institute - Schweiz

Research Output

16 Zitationen
11 Publikationen
1 Policies
2 Methoden & Materialien
1 Disseminationen
3 Wissenschaftliche Auszeichnungen

Publikationen

Titel	The prosody of theme, rheme and focus in Egyptian Arabic: A quantitative investigation of tunes, configurations and speaker variability
DOI	10.1016/j.specom.2024.103082
Typ	Journal Article
Autor	Zarka D
Journal	Speech Communication
Seiten	103082
Link	Publikation

Titel	Prosodic Effects on Plosive Duration in German and Austrian German
DOI	10.21437/interspeech.2019-2197
Typ	Conference Proceeding Abstract
Autor	Schuppler B
Seiten	1736-1740

Titel	Acoustic Cues to Topic and Narrow Focus in Egyptian Arabic
DOI	10.21437/interspeech.2019-1189
Typ	Conference Proceeding Abstract
Autor	Zarka D
Seiten	1771-1775

Titel	An introduction to pluricentric languages in speech science and technology
DOI	10.1016/j.specom.2023.103007
Typ	Journal Article
Autor	Schuppler B
Journal	Speech Communication
Seiten	103007
Link	Publikation

Titel	An analysis of prosodic boundary detection in German and Austrian German read speech,
Typ	Conference Proceeding Abstract
Autor	Schuppler B.
Konferenz	Speeh Prosody
Seiten	990-994
Link	Publikation

Titel	Towards building a cross-lingual speech recognition system for Slovenian and Austrian German,
Typ	Journal Article
Autor	A. Žgank
Journal	The Phonetician
Link	Publikation

Titel	Automatic detection of prosodic boundaries in two varieties of German
Typ	Conference Proceeding Abstract
Autor	Ludusan B.
Konferenz	Interspeech 2019 Satellite Workshop on 'Pluricentric Languages in Speech Technology'
Link	Publikation

Titel	Towards automatic annotation of prosodic prominence levels in Austrian German
DOI	10.21437/speechprosody.2020-204
Typ	Conference Proceeding Abstract
Autor	Linke J
Seiten	1000-1004

Titel	Microprosodic Variability in Plosives in German and Austrian German
DOI	10.21437/interspeech.2020-2353
Typ	Conference Proceeding Abstract
Autor	Zellers M
Seiten	656-660

Titel	Developing an Annotation System for Communicative Functions for a Cross-Layer ASR System
Typ	Conference Proceeding Abstract
Autor	Schuppler B.
Konferenz	ESSLLI Workshop "Integrating Perspectives on Discourse Annotation" (DiscAnn)
Link	Publikation

Titel	An analysis of prosodic boundary detection in German and Austrian German read speech
DOI	10.21437/speechprosody.2020-202
Typ	Conference Proceeding Abstract
Autor	Schuppler B
Seiten	990-994

Policies

Titel	ELRC
Typ	Membership of a guideline committee

Methoden & Materialien

Öffentlich zugänglich
Titel	GRASS corpus
Typ	Improvements to research infrastructure

Öffentlich zugänglich
Titel	Prosodic Boundary Annotation Tool
Typ	Improvements to research infrastructure

Disseminationen

Titel	Radio interview
Typ	A press release, press conference or response to a media enquiry/interview

Wissenschaftliche Auszeichnungen

Titel	Guest Professor
Typ	Attracted visiting staff or user to your research group
Bekanntheitsgrad	National (any country)

Titel	Speech Communication Editor
Typ	Appointed as the editor/advisor to a journal or book series
Bekanntheitsgrad	Continental/International

Titel	Keynote speech
Typ	Personally asked as a key note speaker to a conference
Bekanntheitsgrad	National (any country)

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Cross-layer Prosodie Modelle für Spontansprache

Cross-layer prosodic models for conversational speech

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Cross-layer Prosodie Modelle für Spontansprache

Cross-layer prosodic models for conversational speech

Wissenschaftsdisziplinen

Keywords

Research Output