Arkustische Modellierung und Transformation von Varietäten für die Sprachsynthese
Acoustic modeling and transformation of varieties for speech synthesis
Wissenschaftsdisziplinen
Informatik (95%); Sprach- und Literaturwissenschaften (5%)
Keywords
-
Speech Synthesis,
Hidden Markov Model,
Dialect,
Machine Learing,
Adaption
In diesem Forschungsprojekt wollen wir die Modellierung von Varietäten in der Sprachsynthese verbessern, indem wir die vorhandenen Sprachdaten optimal nutzen. Zwischen sozialen (Soziolekten) und regionalen (Dialekten) Varietäten einer Sprache gibt es phonetische Ähnlichkeiten die in der statistischen parametrischen Synthese genutzt werden können um Sprachmodelle einer Sprecherin / eines Sprechers mithilfe von relativ wenigen Sprachdaten zu trainieren. Dabei werden die Sprachmodelle mit wenigen Minuten an Sprachdaten von Hintergrundmodellen adaptiert. Um dieses Ziel zu erreichen werden wir uns auf drei Themen konzentrieren die entscheidend für die Modellierung von Varietäten sind, nämlich das Training von Durschnittstimmen ("average voices") für Varietäten, die Transformation von Varietäten, und die Modellierung von Varietäten bei unvollständigen Trainingsdaten. Für das Trainieren von Durchschnittsstimmen werden wir ein neues adaptives Verfahren entwickeln, das es erlaubt Varietät und SprecherIn getrennt zu adaptieren. Für die Transformation von Varietäten werden wir Techniken entwickeln die es möglich machen die Stimme eines Sprechers / einer Sprecherin in einer Varietät zu erstellen, wenn nur Daten der SprecherIn in einer ähnlichen Varietät vorhanden sind. Außerdem werden wir Methoden entwickeln um die Stimme eines Sprechers / einer Sprecherin aus unvollständigen Trainigsdaten zu erstellen, was verwendet werden kann um historische Varietäten zu synthetisieren. Computergenerierte Sprachsynthese gewinnt als Ausgabemodalität in kognitiven BenutzerInnenschnittstellen zunehmend an Bedeutung. Während es heute möglich ist natürlich klingende synthetische Sprache in neutraler Sprechweise zu erzeugen, ist es immer noch schwierig bestehende Sprachsynthesesysteme schnell an verschiedene Kontexte und Situationen anzupassen, eine Leistung, die in natürlich gesprochener Sprache selbstverständlich ist. Während emotionale Sprache und natürliche Intonation ein aktives Forschungsfeld darstellen, wird die Erforschung von Sprachvarietäten im Bereich der Sprachsynthese eher vernachlässigt. Innerhalb dieses Projekts werden wir die notwendigen Methoden entwickeln um Sprachsynthesesysteme erstellen zu können die einfach an soziale und regionale Varietäten adaptiert werden können. Um das zu erreichen suchen wir optimale Verwendungsweisen der vorhandenen Trainingsdaten, die Ähnlichkeiten innerhalb von sozialen und regionalen Varietäten verwenden.
In diesem Forschungsprojekt entwickelten wir Methoden, um die Modellierung von Varietäten in der Sprachsynthese zu verbessern. Um dieses Ziel zu erreichen, haben wir uns auf drei Themen konzentriert, die entscheidend für die Modellierung von Varietäten sind, nämlich die Transformation von Varietäten, das Training von Durschnittstimmen (average voices) für Varietäten, und die Modellierung von Varietäten bei unvollständigen Trainingsdaten.Für die Transformation von Varietäten haben wir eine unüberwachte Interpolationsmethode entwickelt, die automatisch Zwischenvarietäten generieren kann, welche einen graduellen Übergang zwischen Varietäten darstellen, seien es zwei Dialekte/Soziolekte, oder seien es ein Dialekt/Soziolekt und eine Standardvarietät. Außerdem entwickelten wir eine Transformationsmethode, welche die Stimme eines Sprechers / einer Sprecherin in einer Varietät realisieren kann, wenn nur Daten des Sprechers / der Sprecherin in einer anderen, ähnlichen Varietät vorliegen.Für das Trainieren von Durchschnittsstimmen untersuchten wir verschiedene Adaptionsmethoden wie Dialekt-adaptives Training oder Dialekt Clustering, welche das gemeinsame Phonset von Standard und Dialekt verwenden können, und wandten eine adaptive Methode auf albanische Dialekte an, welche einen Dialekt als Hintergrund und den anderen als Adaptionsdialekt verwendet.In der Modellierung von Varietäten bei unvollständigen Trainingsdaten evaluierten wir die Wahrnehmung von Akzenten des Zweitspracherwerbs von natürlicher Sprache und synthetischer Sprache, bei welcher der Akzent automatisch reduziert wurde. Die angewandte Akzentreduktionsmethode verwendet kein Durchschnittsmodell, sondern nur die phonetisch unvollständigen Akzentdaten.Computergenerierte Sprachsynthese gewinnt als Ausgabemodalität in kognitiven BenutzerInnenschnittstellen zunehmend an Bedeutung. Während emotionale Sprache und natürliche Intonation ein aktives Forschungsfeld darstellen, wurde die Erforschung von Sprachvarietäten im Bereich der Sprachsynthese eher vernachlässigt. Innerhalb dieses Projekts entwickelten wir Methoden, um Sprachsynthesesysteme erstellen zu können, die einfach an soziale und regionale Varietäten adaptiert werden können.
Research Output
- 19 Zitationen
- 17 Publikationen
-
2017
Titel Influence of speaker familiarity on blind and visually impaired children’s and young adults’ perception of synthetic voices DOI 10.1016/j.csl.2017.05.010 Typ Journal Article Autor Pucher M Journal Computer Speech & Language Seiten 179-195 Link Publikation -
2013
Titel Cross-variety speaker transformation in HSMM-based speech synthesis. Typ Conference Proceeding Abstract Autor Schabus D Konferenz 8th ISCA Speech Synthesis Workshop (SSW8). -
2013
Titel Structural KLD for Cross-Variety Speaker Adaptation in HMM-based Speech Synthesis DOI 10.2316/p.2013.798-069 Typ Conference Proceeding Abstract Autor Toman M -
2015
Titel Efficient Pitch Estimation on Natural Opera-Singing by a Spectral Correlation based Strategy. Typ Journal Article Autor Pucher M Et Al Journal IPSJ SIG Technical Report. -
2015
Titel Visio-articulatory to acoustic conversion of speech DOI 10.1145/2813852.2813858 Typ Conference Proceeding Abstract Autor Pucher M Seiten 1-2 -
2015
Titel Comparison of dialect models and phone mappings in HSMM-based visual dialect speech synthesis. Typ Conference Proceeding Abstract Autor Pucher M Konferenz 1st Joint Conference on Facial Analysis, Animation and Auditory-Visual Speech Processing (FAAVSP). -
2016
Titel Development of a statistical parametric synthesis system for operatic singing in German DOI 10.21437/ssw.2016-11 Typ Conference Proceeding Abstract Autor Pucher M Seiten 64-69 Link Publikation -
2013
Titel Multi-variety adaptive acoustic modeling in HSMM-based speech synthesis. Typ Conference Proceeding Abstract Autor Schabus D Et Al Konferenz 8th ISCA Speech Synthesis Workshop (SSW8). -
2016
Titel Aufnahme von hochwertigen authentischen Dialektdaten im Feld. Typ Conference Proceeding Abstract Autor Pucher M Konferenz 13 Bayerisch-österreichische Dialektologentagung. -
2015
Titel Influence of speaker familiarity on blind and visually impaired children's perception of synthetic voices in audio games. Typ Conference Proceeding Abstract Autor Pucher M Konferenz 16th Annual Conference of the International Speech Communication Association. -
2015
Titel Adaptive Speech Synthesis of Albanian Dialects DOI 10.1007/978-3-319-24033-6_18 Typ Book Chapter Autor Pucher M Verlag Springer Nature Seiten 158-164 -
2015
Titel Evaluation of state mapping based foreign accent conversion. Typ Conference Proceeding Abstract Autor Pucher M Konferenz 16th Annual Conference of the International Speech Communication Association -
2015
Titel An Open Source Speech Synthesis Frontend for HTS DOI 10.1007/978-3-319-24033-6_33 Typ Book Chapter Autor Toman M Verlag Springer Nature Seiten 291-298 -
2015
Titel Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis DOI 10.1016/j.specom.2015.06.005 Typ Journal Article Autor Toman M Journal Speech Communication Seiten 176-193 Link Publikation -
0
Titel MMASCS multi-modal annotated synchronous corpus of audio, video, facial motion and tongue motion data of normal, fast and slow speech. Typ Other Autor Pucher M -
0
Titel GIDS Bad Goisern and Innervillgraten Audio-Visual Dialect Speech Corpus, a collection of audiovisual speech recordings for research purposes. Typ Other Autor Pucher M -
0
Titel FAAVSP - The 1st Joint Conference on Facial Analysis, Animation and Auditory-Visual Speech Processing. Typ Other Autor Davis C Et Al