Projektdetail

Grant-DOI 10.55776/P32700
Bewilligungssumme Einzelprojekte
Status beendet
Projektbeginn 01.11.2019
Projektende 31.10.2024
Bewilligungssumme 593.189 €

Wissenschaftsdisziplinen

Elektrotechnik, Elektronik, Informationstechnik (40%); Sprach- und Literaturwissenschaften (60%)

Keywords

Conversational Speech,
Automatic Speech Recognition,
Language Modeling,
Speech Perception,
Prosody,
Communicative Functions

Abstract

Zusammenfassung

Während sich Sprachwissenschaftler über lange Zeit hinweg auf sorgsam ausgesprochene Sprache fokussierten, hat sich das Interesse allmählich auf die Frage hin verschoben, wie Sprache in natürlichen Konversationen verwendet wird. Dafür gibt es zwei Gründe. Vom technischen Standpunkt betrachtet steigt die Nachfrage nach sozialen Robotern, welche, um interaktiver und sozialer zu agieren, auch fähig sein müssen, Sprache auf eine natürliche Weise zu verwenden. Bei Sprachwissenschaftlern steigt das Interesse an spontanen Gesprächen, da diese zusätzliche Erkenntnisse zu kontrollierten Experimenten hinsichtlich darüber liefern, wie Sprache im Gehirn verarbeitet wird. Die Hauptziele dieses Projektes sind die automatische Erkennung von Spontansprache zu verbessern, das Wissen über die Produktion und Wahrnehmung von Spontansprache zu erweitern und einen Beitrag zu den Ressourcen und Erkenntnissen über gesprochenes Österreichisches Deutsch zu vergrößern. Basierend auf deutschen und österreichischen Sprachdatenbanken, entwickeln wir cross-layer Sprachmodelle, welche, wie Menschen auch, gleichzeitig von den akustischen Informationen wie auch vom semantischen Kontext Gebrauch machen. Quantitative phonetische Erkenntnisse werden in diese Modelle integriert und in weiterer Folge in der maschinellen und menschlichen Spracherkennung getestet. Auch in den linguistischen Studien werden Sprachtechnologien verwendet: zum Erstellen automatischer Annotationen, um akustische Merkmale zu extrahieren und Datenanalysen zu betreiben. Die dadurch erhaltenen linguistischen Erkenntnisse werden wiederum in die Sprachmodelle integriert. Diese Herangehensweise verlangt nach einem interdisziplinären Team (Ingenieure und Sprachwissenschaftler), das eng zusammenarbeitet. Dr. Barbara Schuppler (Technische Universität Graz) ist eine junge interdisziplinäre Sprachtechnologin, welche bereits in zwei vorangegangenen FWF Projekten bewiesen hat, dass ihr cross-layer Prinzip gute Ergebnisse für Aussprach- und Prosodiemodelle liefert. Das geplante Projekt gibt ihr sowohl die Möglichkeit das cross-layer Konzept auf Sprachmodelle zu erweitern als auch eine Forschungsgruppe zu Spontansprache in Österreich aufzubauen. Die nationalen Partner Prof. Dina El Zarka (Institut für Sprachwissenschaft, Universität Graz) und Dr. Roman Kern (Know-Center GmbH) lassen jahrelange Erfahrung mit in das Projekt einfließen. Gemeinsam decken sie die Bereiche Sprachtechnologie, Sprachwissenschaft, Phonetik und maschinelle Sprachverarbeitung ab.

Im letzten Jahrzehnt hat Sprache -- wie sie in natürlichen Gesprächen vorkommt -- viel Aufmerksamkeit in der Sprachforschung erhalten. Einerseits sind präzise automatische Spracherkennungssysteme entscheidend für sprechende Roboter, da diese zunehmend interaktiv und sozial werden sollen, anstatt nur transaktional zu agieren. Andererseits untersuchen Linguisten natürliche Gespräche, da diese zusätzliche Einblicke im Vergleich zu kontrollierten Experimenten darüber liefern, wie die menschliche Sprachverarbeitung funktioniert. Die Arbeiten dieses Projekts erforschen gesprochene Gespräche, um unser Wissen über spontan gesprochenes Österreichisches Deutsch zu erweitern und dieses Wissen zur Verbesserung von Sprachmodellen zu nutzen. Zu diesem Zweck wurde das GRASS-Korpus, eine groß angelegte Datenbank mit Österreichisch Deutschen Gesprächen zwischen jeweils zwei sich gut kennenden Personen, bezüglich der kommunikativen Funktions der einzelnen Satzteile annotiert. Die neu entwickelte Annotationsmethode ist für die qualitative und quantitative Analyse der Konversationsdynamik geeignet. Die Arbeit des Projektes zeigt, dass die prosodische Variation in der spontanen Gesprächen systematisch ist und im Zusammenhang mit dem semantischem und pragmatischem Kontext steht. Aber wie empfindlich sind Sprachmodelle gegenüber prosodischen Hinweisen und dem Gesprächskontext? Die Arbeiten dieses Projektes legt nahe, dass die Integration von sowohl datengestützten als auch theoriegestützten Komponenten, einschließlich linguistischem Wissen, die Spracherkennung verbessern kann. Dies ist insbesondere für kurze Äußerungen der Fall, bei denen Spracherkennungssysteme zudem auch von der Information des davorigen Gesprächskontextes profitieren. Vergleichsstudien dazu wie Menschen und Spracherkennungssysteme die gleichen Sätze aus spontanen Gesprächen transkribieren zeigten, dass Mensch und Maschine mit denselben Merkmalen der konversationalen Sprache zu kämpfen haben (z. B. unflüssige Sätze, dialektale Aussprache, schnelle Sprechgeschwindigkeit), jedoch in unterschiedlichem Maße. Schließlich liefert das Projekt wertvolle Erkenntnisse auch für jene Forscher:innen die an anderen Sprachen arbeiten, da die entwickelten Methoden für all jene interessant sind die an ressourcenarmen Sprachen und Dialekten forschen sowie in Bereichen der Sprachforschung in denen kleine Datensätzen mit hohem Variationsgrad unumgänglich sind (z. B. pathologische Sprache, Kindersprache).

Forschungsstätte(n)

Nationale Projektbeteiligte

Roman Kern, Technische Universität Graz , assoziierte:r Forschungspartner:in
Dina El Zarka, Universität Graz , assoziierte:r Forschungspartner:in

Internationale Projektbeteiligte

Benno Maria Stein, Bauhaus-Universität Weimar - Deutschland
Bogdan Ludusan, Universität Bielefeld - Deutschland
Margaret Zellers, University of Stockholm - Schweden
Dimitra Vergyri, SRI International - Vereinigte Staaten von Amerika

Research Output

30 Zitationen
45 Publikationen
1 Methoden & Materialien
3 Software
12 Disseminationen
6 Wissenschaftliche Auszeichnungen
6 Weitere Förderungen

Publikationen

Titel	What’s so complex about conversational speech? A comparison of HMM-based and transformer-based ASR architectures
DOI	10.1016/j.csl.2024.101738
Typ	Journal Article
Autor	Linke J
Journal	Computer Speech & Language
Seiten	101738
Link	Publikation

Titel	What's so complex about conversational speech? Prosodic Prominence and Speech Recognition Challenges
Typ	PhD Thesis
Autor	Julian Linke

Titel	Cross-layer models for conversational speech
Typ	Postdoctoral Thesis
Autor	Barbara Schuppler

Titel	Uncertainty prediction for prominence classification with chroma features
Typ	Conference Proceeding Abstract
Autor	Linke J.
Konferenz	ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
Seiten	1 - 5
Link	Publikation

Titel	Uncertainty prediction for prominence classification with chroma features
Typ	Conference Proceeding Abstract
Autor	Linke J.
Konferenz	Event 2025 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP

Titel	Turn-taking annotation for quantitative and qualitative analyses of conversation
Typ	Other
Autor	Kelterer A.
Seiten	1 - 41
Link	Publikation

Titel	Turn-taking annotation for quantitative and qualitative analyses of conversation
Typ	Other
Autor	Kelterer A.

Titel	Slicer - A Tool for Efficient Stimuli Extraction from Large Speech Corpora
Typ	Conference Proceeding Abstract
Autor	Eckert L
Konferenz	Forum Acusticum Euronoise 2025

Titel	On the Role of Priors in Bayesian Causal Learning
DOI	10.1109/tai.2024.3522867
Typ	Journal Article
Autor	Geiger B
Journal	IEEE Transactions on Artificial Intelligence
Seiten	1439-1445
Link	Publikation

Titel	Exploring Graph Theory Methods For the Analysis of Pronunciation Variation in Spontaneous Speech
DOI	10.21437/interspeech.2023-1398
Typ	Conference Proceeding Abstract
Autor	Geiger B
Seiten	596-600

Titel	(Dis)agreement and Preference Structure are Reflected in Matching Along Distinct Acoustic-prosodic Features
DOI	10.21437/interspeech.2023-1538
Typ	Conference Proceeding Abstract
Autor	Kelterer A
Seiten	4768-4772

Titel	What do self-supervised speech representations encode? An analysis of languages, varieties, speaking styles and speakers
DOI	10.21437/interspeech.2023-951
Typ	Conference Proceeding Abstract
Autor	Linke J
Seiten	5371-5375

Titel	Breath sounds and their relationship to turn-taking in conversational speech
Typ	Other
Autor	Menrath A.
Link	Publikation

Titel	Modelling Bachchannels for Human-Robot Interaction
Typ	Other
Autor	Paierl M.
Link	Publikation

Titel	Towards Improving ASR Outputs of Spontaneous Speech with LLMs
Typ	Conference Proceeding Abstract
Autor	Karner M.
Konferenz	20th Conference on Natural Language Processing (KONVENS 2024),
Seiten	339 - 348
Link	Publikation

Titel	Version Control for Speech Corpora
Typ	Conference Proceeding Abstract
Autor	Boehm M.
Konferenz	20th Conference on Natural Language Processing (KONVENS 2024)
Seiten	303 - 308
Link	Publikation

Titel	Towards causal data science for non-independent data
Typ	Postdoctoral Thesis
Autor	Roman Kern

Titel	Using Kaldi for Automatic Speech Recognition of Conversational Austrian German
DOI	10.48550/arxiv.2301.06475
Typ	Preprint
Autor	Linke J

Titel	Reconsidering Read and Spontaneous Speech: Causal Perspectives on the Generation of Training Data for Automatic Speech Recognition
DOI	10.3390/info14020137
Typ	Journal Article
Autor	Gabler P
Journal	Information
Seiten	137
Link	Publikation

Titel	On Disfluency and Non-lexical Sound Labeling for End-to-end Automatic Speech Recognition
DOI	10.21437/interspeech.2024-2157
Typ	Conference Proceeding Abstract
Autor	Meng Y
Seiten	1270-1274

Titel	Uncertainty prediction for prominence classification with chroma features
DOI	10.1109/icassp49660.2025.10887992
Typ	Conference Proceeding Abstract
Autor	Linke J
Seiten	1-5

Titel	Speaker interpolation based data augmentation for automatic speech recognition
Typ	Conference Proceeding Abstract
Autor	Kerle L.
Konferenz	Proceedings of the 20th International Congress of Phonetic Sciences - ICPhS 2023
Seiten	3126 - 3130
Link	Publikation

Titel	creapy: A Python-based tool for the detection of creak in conversational speech
Typ	Conference Proceeding Abstract
Autor	Paierl M
Konferenz	20th International Congress on Phonetic Sciences (ICPhS)
Seiten	1716-1720
Link	Publikation

Titel	Points of maximum grammatical control - The prosody of a turn-holding practice
Typ	Conference Proceeding Abstract
Autor	Kelterer A
Konferenz	20th International Congress on Phonetic Sciences (ICPhS)
Seiten	3467-3471
Link	Publikation

Titel	Single Channel Source Separation in the Wild -- Conversational Speech in Realistic Environments
Typ	Conference Proceeding Abstract
Autor	Berger E.
Konferenz	ITG-Fachbericht 312: Speech Communication
Seiten	96 - 100
Link	Publikation

Titel	Using word-level features for prosodic prominence detection in conversational speech
Typ	Conference Proceeding Abstract
Autor	Kubin G.
Konferenz	Proceedings of the 20th International Congress of Phonetic Sciences - ICPhS 2023
Seiten	3101 - 3105
Link	Publikation

Titel	10 Years of GRASS development: Experiences from annotating a large corpus of conversational Austrian German
Typ	Conference Proceeding Abstract
Autor	Kelterer A.
Konferenz	Österreichische Linguistiktagung : Austrian Meeting on Digital Linguistics: Recent Developments in Austria - Institut fuer Linguistik, Graz, Austria
Link	Publikation

Titel	Speechcake: Version control for speech corpora
Typ	Other
Autor	Dumitru V.A.
Link	Publikation

Titel	Prosodic cues to agreement and disagreement prefaces in Austrian German conversations
DOI	10.21437/tai.2021-22
Typ	Conference Proceeding Abstract
Autor	Kelterer A
Seiten	107-111

Titel	An Analysis of Prosodic Prominence Cues to Information Structure in Egyptian Arabic
DOI	10.21437/interspeech.2020-2322
Typ	Conference Proceeding Abstract
Autor	Kelterer A
Seiten	1883-1887

Titel	Automatic Speech Segmentation using KALDI
Typ	Other
Autor	Wasserfall S.
Link	Publikation

Titel	Information-theoretic approaches in model reduction and machine learning
Typ	Postdoctoral Thesis
Autor	Bernhard Geiger

Titel	An analysis of prosodic boundaries across speaking styles in two varieties of German
DOI	10.1016/j.specom.2022.05.002
Typ	Journal Article
Autor	Ludusan B
Journal	Speech Communication
Seiten	93-106

Titel	To laugh or not to laugh? The use of laughter to mark discourse structure
DOI	10.18653/v1/2022.sigdial-1.8
Typ	Conference Proceeding Abstract
Autor	Ludusan B
Seiten	76-82

Titel	How prosody affects ASR performance in conversational Austrian German
DOI	10.21437/speechprosody.2022-40
Typ	Conference Proceeding Abstract
Autor	Schuppler B
Seiten	195-199

Titel	Analyzing the different meanings of laughter in conversational speech
Typ	Other
Autor	Schmallegger E.
Link	Publikation

Titel	Speaker interpolation based data augmentation for Automatic Speech Recognition
Typ	Other
Autor	Kerle L.
Link	Publikation

Titel	Text Complexity in the Digital Humanities - A Case Study on 18th Century Periodicals
Typ	Other
Autor	Geiger B
Link	Publikation

Titel	Context is all you need? Low-resource conversational ASR profits from context, coming from the same or from the other speaker
Typ	Conference Proceeding Abstract
Autor	Linke J.
Konferenz	Interspeech 2024

Titel	What the Filler? Both ASR Systems and Humans Struggle More With Other Kinds of Disfluencies Than With Filler Particles
Typ	Conference Proceeding Abstract
Autor	Eckert L
Konferenz	Interspeech 2025

Titel	Prominence-aware automatic speech recognition for conversational speech
Typ	Conference Proceeding Abstract
Autor	Kubin G.
Konferenz	Interspeech 2024

Titel	Continuous prediction of backchannel timing for human-robot interaction
Typ	Conference Proceeding Abstract
Autor	Hagmueller M.
Konferenz	Interspeech 2024

Titel	(When) Does it harm to be incomplete? Human and automatic speech recognition of syntactically disfluent structures
Typ	Journal Article
Autor	Lennkh S
Journal	Speech Communication

Titel	Developing an Annotation System for Communicative Functions for a Cross-Layer ASR System
Typ	Conference Proceeding Abstract
Autor	Kelterer A.
Konferenz	ESSLLI Workshop "Integrating Perspectives on Discourse Annotation" (DiscAnn)
Link	Publikation

Titel	Towards automatic annotation of prosodic prominence levels in Austrian German
DOI	10.21437/speechprosody.2020-204
Typ	Conference Proceeding Abstract
Autor	Linke J
Seiten	1000-1004

Methoden & Materialien

Öffentlich zugänglich
Titel	Tool for Analysis of Self-supervised Speech Representations
DOI	10.21437/interspeech.2023-951
Typ	Improvements to research infrastructure
Link	Link

Software

Titel	pvlex
Link	Link

Titel	speechcake
Link	Link

Titel	creapy
Link	Link

Disseminationen

Titel	MINKT Labor a super science space for children
Typ	Participation in an activity, workshop or similar
Link	Link

Titel	Newsaper Article on AI for Dialect: Klipp Das Magazin
Typ	A press release, press conference or response to a media enquiry/interview
Link	Link

Titel	Speech AI for Styrian Dialect on "Radio Steiermark"
Typ	A broadcast e.g. TV/radio/film/podcast (other than news/press)
Link	Link

Titel	Podcast in Oe1 DIGITAL Leben
Typ	A broadcast e.g. TV/radio/film/podcast (other than news/press)
Link	Link

Titel	Invited talk at Bielefeld University
Typ	A talk or presentation

Titel	Newsaper Article on AI for Austrian German: Der Standard
Typ	A press release, press conference or response to a media enquiry/interview
Link	Link

Titel	GEED Graz Electrical Engineering Days
Typ	Participation in an open day or visit at my research institution
Link	Link

Titel	Special Session at "Phonetics and Phonology in Europe" 2021
Typ	Participation in an activity, workshop or similar
Link	Link

Titel	Initiation of the "Graz-Vienna Speechworkshop" Series
Typ	Participation in an activity, workshop or similar

Titel	Newspaper Article in Kleine Zeitung on KI for Styrian Dialect
Typ	A press release, press conference or response to a media enquiry/interview
Link	Link

Titel	Podcast about our work on Conversational Speech
Typ	A broadcast e.g. TV/radio/film/podcast (other than news/press)
Link	Link

Titel	AI and Dialect? Radio Interview in Oe3
Typ	A broadcast e.g. TV/radio/film/podcast (other than news/press)
Link	Link

Wissenschaftliche Auszeichnungen

Titel	Guest Professorship teaching the course: Speaker charisma: Analysis and training of acoustic-prosodic features within a sex-sensitive framework
Typ	Attracted visiting staff or user to your research group
Bekanntheitsgrad	Regional (any country)

Titel	Invited Speaker at "Ringvorlesung: Vielfalt im Zentrum der Forschung"
Typ	Personally asked as a key note speaker to a conference
Bekanntheitsgrad	Regional (any country)

Titel	Jury member of "Das österreichische Wort des Jahres"
Typ	Prestigious/honorary/advisory position to an external body
Bekanntheitsgrad	National (any country)

Titel	Invited participant to the student-meets experts event at DAGA 47. Jahrestagung fuer Akustik 2021
Typ	Personally asked as a key note speaker to a conference
Bekanntheitsgrad	Continental/International

Titel	Guest Professorship teaching the course: Experimental Methods in Phonetics
Typ	Attracted visiting staff or user to your research group
Bekanntheitsgrad	Regional (any country)

Titel	Speech Communication Editor
Typ	Appointed as the editor/advisor to a journal or book series
Bekanntheitsgrad	Continental/International

Weitere Förderungen

Titel	Reisekostenzuschuss für Interspeech 2023
Typ	Studentship
Förderbeginn	2023
Geldgeber	Austrian Research Association

Titel	Förderungsbeitrag für die Tagungsteilnahme
Typ	Studentship
Förderbeginn	2023
Geldgeber	Land Steiermark

Titel	ERASMUS+ Short-Term Mobility WASP Summer School 2024
Typ	Studentship
Förderbeginn	2024
Geldgeber	ERASMUS+ Short-Term Mobility International Office - Welcome Center, TU Graz

Titel	Prof. Margaret Zellers - teaching
Typ	Fellowship
Förderbeginn	2024
Geldgeber	University of Graz

Titel	Doktoratsfertigstellungsstipendium
Typ	Research grant (including intramural programme)
Förderbeginn	2024
Geldgeber	Literar Mechana

Titel	ICPhS 2023 Reisekostenübernahme Land Steiermark
Typ	Studentship
Förderbeginn	2023
Geldgeber	Land Steiermark

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Cross-layer Sprachmodelle für Spontansprache

Cross-layer language models for conversational speech

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Cross-layer Sprachmodelle für Spontansprache

Cross-layer language models for conversational speech

Wissenschaftsdisziplinen

Keywords

Research Output