Cross-layer Sprachmodelle für Spontansprache
Cross-layer language models for conversational speech
Wissenschaftsdisziplinen
Elektrotechnik, Elektronik, Informationstechnik (40%); Sprach- und Literaturwissenschaften (60%)
Keywords
-
Conversational Speech,
Automatic Speech Recognition,
Language Modeling,
Speech Perception,
Prosody,
Communicative Functions
Während sich Sprachwissenschaftler über lange Zeit hinweg auf sorgsam ausgesprochene Sprache fokussierten, hat sich das Interesse allmählich auf die Frage hin verschoben, wie Sprache in natürlichen Konversationen verwendet wird. Dafür gibt es zwei Gründe. Vom technischen Standpunkt betrachtet steigt die Nachfrage nach sozialen Robotern, welche, um interaktiver und sozialer zu agieren, auch fähig sein müssen, Sprache auf eine natürliche Weise zu verwenden. Bei Sprachwissenschaftlern steigt das Interesse an spontanen Gesprächen, da diese zusätzliche Erkenntnisse zu kontrollierten Experimenten hinsichtlich darüber liefern, wie Sprache im Gehirn verarbeitet wird. Die Hauptziele dieses Projektes sind die automatische Erkennung von Spontansprache zu verbessern, das Wissen über die Produktion und Wahrnehmung von Spontansprache zu erweitern und einen Beitrag zu den Ressourcen und Erkenntnissen über gesprochenes Österreichisches Deutsch zu vergrößern. Basierend auf deutschen und österreichischen Sprachdatenbanken, entwickeln wir cross-layer Sprachmodelle, welche, wie Menschen auch, gleichzeitig von den akustischen Informationen wie auch vom semantischen Kontext Gebrauch machen. Quantitative phonetische Erkenntnisse werden in diese Modelle integriert und in weiterer Folge in der maschinellen und menschlichen Spracherkennung getestet. Auch in den linguistischen Studien werden Sprachtechnologien verwendet: zum Erstellen automatischer Annotationen, um akustische Merkmale zu extrahieren und Datenanalysen zu betreiben. Die dadurch erhaltenen linguistischen Erkenntnisse werden wiederum in die Sprachmodelle integriert. Diese Herangehensweise verlangt nach einem interdisziplinären Team (Ingenieure und Sprachwissenschaftler), das eng zusammenarbeitet. Dr. Barbara Schuppler (Technische Universität Graz) ist eine junge interdisziplinäre Sprachtechnologin, welche bereits in zwei vorangegangenen FWF Projekten bewiesen hat, dass ihr cross-layer Prinzip gute Ergebnisse für Aussprach- und Prosodiemodelle liefert. Das geplante Projekt gibt ihr sowohl die Möglichkeit das cross-layer Konzept auf Sprachmodelle zu erweitern als auch eine Forschungsgruppe zu Spontansprache in Österreich aufzubauen. Die nationalen Partner Prof. Dina El Zarka (Institut für Sprachwissenschaft, Universität Graz) und Dr. Roman Kern (Know-Center GmbH) lassen jahrelange Erfahrung mit in das Projekt einfließen. Gemeinsam decken sie die Bereiche Sprachtechnologie, Sprachwissenschaft, Phonetik und maschinelle Sprachverarbeitung ab.
Im letzten Jahrzehnt hat Sprache -- wie sie in natürlichen Gesprächen vorkommt -- viel Aufmerksamkeit in der Sprachforschung erhalten. Einerseits sind präzise automatische Spracherkennungssysteme entscheidend für sprechende Roboter, da diese zunehmend interaktiv und sozial werden sollen, anstatt nur transaktional zu agieren. Andererseits untersuchen Linguisten natürliche Gespräche, da diese zusätzliche Einblicke im Vergleich zu kontrollierten Experimenten darüber liefern, wie die menschliche Sprachverarbeitung funktioniert. Die Arbeiten dieses Projekts erforschen gesprochene Gespräche, um unser Wissen über spontan gesprochenes Österreichisches Deutsch zu erweitern und dieses Wissen zur Verbesserung von Sprachmodellen zu nutzen. Zu diesem Zweck wurde das GRASS-Korpus, eine groß angelegte Datenbank mit Österreichisch Deutschen Gesprächen zwischen jeweils zwei sich gut kennenden Personen, bezüglich der kommunikativen Funktions der einzelnen Satzteile annotiert. Die neu entwickelte Annotationsmethode ist für die qualitative und quantitative Analyse der Konversationsdynamik geeignet. Die Arbeit des Projektes zeigt, dass die prosodische Variation in der spontanen Gesprächen systematisch ist und im Zusammenhang mit dem semantischem und pragmatischem Kontext steht. Aber wie empfindlich sind Sprachmodelle gegenüber prosodischen Hinweisen und dem Gesprächskontext? Die Arbeiten dieses Projektes legt nahe, dass die Integration von sowohl datengestützten als auch theoriegestützten Komponenten, einschließlich linguistischem Wissen, die Spracherkennung verbessern kann. Dies ist insbesondere für kurze Äußerungen der Fall, bei denen Spracherkennungssysteme zudem auch von der Information des davorigen Gesprächskontextes profitieren. Vergleichsstudien dazu wie Menschen und Spracherkennungssysteme die gleichen Sätze aus spontanen Gesprächen transkribieren zeigten, dass Mensch und Maschine mit denselben Merkmalen der konversationalen Sprache zu kämpfen haben (z. B. unflüssige Sätze, dialektale Aussprache, schnelle Sprechgeschwindigkeit), jedoch in unterschiedlichem Maße. Schließlich liefert das Projekt wertvolle Erkenntnisse auch für jene Forscher:innen die an anderen Sprachen arbeiten, da die entwickelten Methoden für all jene interessant sind die an ressourcenarmen Sprachen und Dialekten forschen sowie in Bereichen der Sprachforschung in denen kleine Datensätzen mit hohem Variationsgrad unumgänglich sind (z. B. pathologische Sprache, Kindersprache).
- Technische Universität Graz - 50%
- Universität Graz - 22%
- Technische Universität Graz - 28%
- Roman Kern, Technische Universität Graz , assoziierte:r Forschungspartner:in
- Dina El Zarka, Universität Graz , assoziierte:r Forschungspartner:in
- Benno Maria Stein, Bauhaus-Universität Weimar - Deutschland
- Bogdan Ludusan, Universität Bielefeld - Deutschland
- Margaret Zellers, University of Stockholm - Schweden
- Dimitra Vergyri, SRI International - Vereinigte Staaten von Amerika
Research Output
- 5 Zitationen
- 44 Publikationen
- 1 Methoden & Materialien
- 3 Software
- 12 Disseminationen
- 6 Wissenschaftliche Auszeichnungen
- 6 Weitere Förderungen
-
0
Titel (When) Does it harm to be incomplete? Human and automatic speech recognition of syntactically disfluent structures Typ Journal Article Autor Lennkh S Journal Speech Communication -
0
Titel What the Filler? Both ASR Systems and Humans Struggle More With Other Kinds of Disfluencies Than With Filler Particles Typ Conference Proceeding Abstract Autor Eckert L Konferenz Interspeech 2025 -
0
Titel Prominence-aware automatic speech recognition for conversational speech Typ Conference Proceeding Abstract Autor Kubin G. Konferenz Interspeech 2024 -
0
Titel Context is all you need? Low-resource conversational ASR profits from context, coming from the same or from the other speaker Typ Conference Proceeding Abstract Autor Linke J. Konferenz Interspeech 2024 -
0
Titel Continuous prediction of backchannel timing for human-robot interaction Typ Conference Proceeding Abstract Autor Hagmueller M. Konferenz Interspeech 2024 -
2022
Titel Information-theoretic approaches in model reduction and machine learning Typ Postdoctoral Thesis Autor Bernhard Geiger -
2025
Titel Slicer - A Tool for Efficient Stimuli Extraction from Large Speech Corpora Typ Conference Proceeding Abstract Autor Eckert L Konferenz Forum Acusticum Euronoise 2025 -
2025
Titel Uncertainty prediction for prominence classification with chroma features Typ Conference Proceeding Abstract Autor Linke J. Konferenz ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Seiten 1 - 5 Link Publikation -
2025
Titel Uncertainty prediction for prominence classification with chroma features Typ Conference Proceeding Abstract Autor Linke J. Konferenz Event 2025 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP -
2025
Titel Turn-taking annotation for quantitative and qualitative analyses of conversation Typ Other Autor Kelterer A. -
2025
Titel Turn-taking annotation for quantitative and qualitative analyses of conversation Typ Other Autor Kelterer A. Seiten 1 - 41 Link Publikation -
2024
Titel On the Role of Priors in Bayesian Causal Learning DOI 10.1109/tai.2024.3522867 Typ Journal Article Autor Geiger B Journal IEEE Transactions on Artificial Intelligence Seiten 1439-1445 Link Publikation -
2024
Titel On Disfluency and Non-lexical Sound Labeling for End-to-end Automatic Speech Recognition DOI 10.21437/interspeech.2024-2157 Typ Conference Proceeding Abstract Autor Meng Y Seiten 1270-1274 -
2024
Titel Towards causal data science for non-independent data Typ Postdoctoral Thesis Autor Roman Kern -
2023
Titel Reconsidering Read and Spontaneous Speech: Causal Perspectives on the Generation of Training Data for Automatic Speech Recognition DOI 10.3390/info14020137 Typ Journal Article Autor Gabler P Journal Information Seiten 137 Link Publikation -
2023
Titel Using Kaldi for Automatic Speech Recognition of Conversational Austrian German DOI 10.48550/arxiv.2301.06475 Typ Preprint Autor Linke J -
2025
Titel Uncertainty prediction for prominence classification with chroma features DOI 10.1109/icassp49660.2025.10887992 Typ Conference Proceeding Abstract Autor Linke J Seiten 1-5 -
2025
Titel Cross-layer models for conversational speech Typ Postdoctoral Thesis Autor Barbara Schuppler -
2025
Titel What’s so complex about conversational speech? A comparison of HMM-based and transformer-based ASR architectures DOI 10.1016/j.csl.2024.101738 Typ Journal Article Autor Linke J Journal Computer Speech & Language Seiten 101738 Link Publikation -
2025
Titel What's so complex about conversational speech? Prosodic Prominence and Speech Recognition Challenges Typ PhD Thesis Autor Julian Linke -
2022
Titel Analyzing the different meanings of laughter in conversational speech Typ Other Autor Schmallegger E. Link Publikation -
2022
Titel Speaker interpolation based data augmentation for Automatic Speech Recognition Typ Other Autor Kerle L. Link Publikation -
2022
Titel Text Complexity in the Digital Humanities - A Case Study on 18th Century Periodicals Typ Other Autor Geiger B Link Publikation -
2024
Titel Breath sounds and their relationship to turn-taking in conversational speech Typ Other Autor Menrath A. Link Publikation -
2024
Titel Modelling Bachchannels for Human-Robot Interaction Typ Other Autor Paierl M. Link Publikation -
2024
Titel Towards Improving ASR Outputs of Spontaneous Speech with LLMs Typ Conference Proceeding Abstract Autor Karner M. Konferenz 20th Conference on Natural Language Processing (KONVENS 2024), Seiten 339 - 348 Link Publikation -
2024
Titel Version Control for Speech Corpora Typ Conference Proceeding Abstract Autor Boehm M. Konferenz 20th Conference on Natural Language Processing (KONVENS 2024) Seiten 303 - 308 Link Publikation -
2023
Titel creapy: A Python-based tool for the detection of creak in conversational speech Typ Conference Proceeding Abstract Autor Paierl M Konferenz 20th International Congress on Phonetic Sciences (ICPhS) Seiten 1716-1720 Link Publikation -
2023
Titel Points of maximum grammatical control - The prosody of a turn-holding practice Typ Conference Proceeding Abstract Autor Kelterer A Konferenz 20th International Congress on Phonetic Sciences (ICPhS) Seiten 3467-3471 Link Publikation -
2023
Titel Speaker interpolation based data augmentation for automatic speech recognition Typ Conference Proceeding Abstract Autor Kerle L. Konferenz Proceedings of the 20th International Congress of Phonetic Sciences - ICPhS 2023 Seiten 3126 - 3130 Link Publikation -
2023
Titel Speechcake: Version control for speech corpora Typ Other Autor Dumitru V.A. Link Publikation -
2023
Titel 10 Years of GRASS development: Experiences from annotating a large corpus of conversational Austrian German Typ Conference Proceeding Abstract Autor Kelterer A. Konferenz Österreichische Linguistiktagung : Austrian Meeting on Digital Linguistics: Recent Developments in Austria - Institut fuer Linguistik, Graz, Austria Link Publikation -
2023
Titel Using word-level features for prosodic prominence detection in conversational speech Typ Conference Proceeding Abstract Autor Kubin G. Konferenz Proceedings of the 20th International Congress of Phonetic Sciences - ICPhS 2023 Seiten 3101 - 3105 Link Publikation -
2023
Titel Single Channel Source Separation in the Wild -- Conversational Speech in Realistic Environments Typ Conference Proceeding Abstract Autor Berger E. Konferenz ITG-Fachbericht 312: Speech Communication Seiten 96 - 100 Link Publikation -
2023
Titel What do self-supervised speech representations encode? An analysis of languages, varieties, speaking styles and speakers DOI 10.21437/interspeech.2023-951 Typ Conference Proceeding Abstract Autor Kadar M Seiten 5371-5375 -
2023
Titel (Dis)agreement and Preference Structure are Reflected in Matching Along Distinct Acoustic-prosodic Features DOI 10.21437/interspeech.2023-1538 Typ Conference Proceeding Abstract Autor Kelterer A Seiten 4768-4772 -
2023
Titel Exploring Graph Theory Methods For the Analysis of Pronunciation Variation in Spontaneous Speech DOI 10.21437/interspeech.2023-1398 Typ Conference Proceeding Abstract Autor Geiger B Seiten 596-600 -
2022
Titel An analysis of prosodic boundaries across speaking styles in two varieties of German DOI 10.1016/j.specom.2022.05.002 Typ Journal Article Autor Ludusan B Journal Speech Communication Seiten 93-106 -
2022
Titel How prosody affects ASR performance in conversational Austrian German DOI 10.21437/speechprosody.2022-40 Typ Conference Proceeding Abstract Autor Schuppler B Seiten 195-199 -
2022
Titel To laugh or not to laugh? The use of laughter to mark discourse structure DOI 10.18653/v1/2022.sigdial-1.8 Typ Conference Proceeding Abstract Autor Ludusan B Seiten 76-82 -
2021
Titel Developing an Annotation System for Communicative Functions for a Cross-Layer ASR System Typ Conference Proceeding Abstract Autor Kelterer A. Konferenz ESSLLI Workshop "Integrating Perspectives on Discourse Annotation" (DiscAnn) Link Publikation -
2021
Titel Prosodic cues to agreement and disagreement prefaces in Austrian German conversations DOI 10.21437/tai.2021-22 Typ Conference Proceeding Abstract Autor Kelterer A Seiten 107-111 -
2020
Titel Towards automatic annotation of prosodic prominence levels in Austrian German DOI 10.21437/speechprosody.2020-204 Typ Conference Proceeding Abstract Autor Linke J Seiten 1000-1004 -
2020
Titel Automatic Speech Segmentation using KALDI Typ Other Autor Wasserfall S. Link Publikation -
2020
Titel An Analysis of Prosodic Prominence Cues to Information Structure in Egyptian Arabic DOI 10.21437/interspeech.2020-2322 Typ Conference Proceeding Abstract Autor Kelterer A Seiten 1883-1887
-
2023
Link
Titel Tool for Analysis of Self-supervised Speech Representations DOI 10.21437/interspeech.2023-951 Typ Improvements to research infrastructure Öffentlich zugänglich Link Link
-
2024
Link
Titel Newsaper Article on AI for Austrian German: Der Standard Typ A press release, press conference or response to a media enquiry/interview Link Link -
2023
Link
Titel GEED Graz Electrical Engineering Days Typ Participation in an open day or visit at my research institution Link Link -
2021
Link
Titel Special Session at "Phonetics and Phonology in Europe" 2021 Typ Participation in an activity, workshop or similar Link Link -
2021
Titel Initiation of the "Graz-Vienna Speechworkshop" Series Typ Participation in an activity, workshop or similar -
2025
Link
Titel Podcast about our work on Conversational Speech Typ A broadcast e.g. TV/radio/film/podcast (other than news/press) Link Link -
2025
Link
Titel Newspaper Article in Kleine Zeitung on KI for Styrian Dialect Typ A press release, press conference or response to a media enquiry/interview Link Link -
2023
Link
Titel MINKT Labor a super science space for children Typ Participation in an activity, workshop or similar Link Link -
2025
Link
Titel Newsaper Article on AI for Dialect: Klipp Das Magazin Typ A press release, press conference or response to a media enquiry/interview Link Link -
2025
Link
Titel AI and Dialect? Radio Interview in Oe3 Typ A broadcast e.g. TV/radio/film/podcast (other than news/press) Link Link -
2025
Link
Titel Speech AI for Styrian Dialect on "Radio Steiermark" Typ A broadcast e.g. TV/radio/film/podcast (other than news/press) Link Link -
2025
Link
Titel Podcast in Oe1 DIGITAL Leben Typ A broadcast e.g. TV/radio/film/podcast (other than news/press) Link Link -
2024
Titel Invited talk at Bielefeld University Typ A talk or presentation
-
2023
Titel Jury member of "Das österreichische Wort des Jahres" Typ Prestigious/honorary/advisory position to an external body Bekanntheitsgrad National (any country) -
2023
Titel Guest Professorship teaching the course: Speaker charisma: Analysis and training of acoustic-prosodic features within a sex-sensitive framework Typ Attracted visiting staff or user to your research group Bekanntheitsgrad Regional (any country) -
2023
Titel Invited Speaker at "Ringvorlesung: Vielfalt im Zentrum der Forschung" Typ Personally asked as a key note speaker to a conference Bekanntheitsgrad Regional (any country) -
2021
Titel Invited participant to the student-meets experts event at DAGA 47. Jahrestagung fuer Akustik 2021 Typ Personally asked as a key note speaker to a conference Bekanntheitsgrad Continental/International -
2019
Titel Guest Professorship teaching the course: Experimental Methods in Phonetics Typ Attracted visiting staff or user to your research group Bekanntheitsgrad Regional (any country) -
2019
Titel Speech Communication Editor Typ Appointed as the editor/advisor to a journal or book series Bekanntheitsgrad Continental/International
-
2024
Titel ERASMUS+ Short-Term Mobility WASP Summer School 2024 Typ Studentship Förderbeginn 2024 Geldgeber ERASMUS+ Short-Term Mobility International Office - Welcome Center, TU Graz -
2023
Titel ICPhS 2023 Reisekostenübernahme Land Steiermark Typ Studentship Förderbeginn 2023 Geldgeber Land Steiermark -
2024
Titel Prof. Margaret Zellers - teaching Typ Fellowship Förderbeginn 2024 Geldgeber University of Graz -
2024
Titel Doktoratsfertigstellungsstipendium Typ Research grant (including intramural programme) Förderbeginn 2024 Geldgeber Literar Mechana -
2023
Titel Reisekostenzuschuss für Interspeech 2023 Typ Studentship Förderbeginn 2023 Geldgeber Austrian Research Association -
2023
Titel Förderungsbeitrag für die Tagungsteilnahme Typ Studentship Förderbeginn 2023 Geldgeber Land Steiermark