Projektdetail

Wissenschaftsdisziplinen

Informatik (95%); Sprach- und Literaturwissenschaften (5%)

Keywords

Speech Synthesis, Hidden Markov Model, Dialect, Machine Learing, Adaption

Abstract

Endbericht

In diesem Forschungsprojekt wollen wir die Modellierung von Varietäten in der Sprachsynthese verbessern, indem wir die vorhandenen Sprachdaten optimal nutzen. Zwischen sozialen (Soziolekten) und regionalen (Dialekten) Varietäten einer Sprache gibt es phonetische Ähnlichkeiten die in der statistischen parametrischen Synthese genutzt werden können um Sprachmodelle einer Sprecherin / eines Sprechers mithilfe von relativ wenigen Sprachdaten zu trainieren. Dabei werden die Sprachmodelle mit wenigen Minuten an Sprachdaten von Hintergrundmodellen adaptiert. Um dieses Ziel zu erreichen werden wir uns auf drei Themen konzentrieren die entscheidend für die Modellierung von Varietäten sind, nämlich das Training von Durschnittstimmen ("average voices") für Varietäten, die Transformation von Varietäten, und die Modellierung von Varietäten bei unvollständigen Trainingsdaten. Für das Trainieren von Durchschnittsstimmen werden wir ein neues adaptives Verfahren entwickeln, das es erlaubt Varietät und SprecherIn getrennt zu adaptieren. Für die Transformation von Varietäten werden wir Techniken entwickeln die es möglich machen die Stimme eines Sprechers / einer Sprecherin in einer Varietät zu erstellen, wenn nur Daten der SprecherIn in einer ähnlichen Varietät vorhanden sind. Außerdem werden wir Methoden entwickeln um die Stimme eines Sprechers / einer Sprecherin aus unvollständigen Trainigsdaten zu erstellen, was verwendet werden kann um historische Varietäten zu synthetisieren. Computergenerierte Sprachsynthese gewinnt als Ausgabemodalität in kognitiven BenutzerInnenschnittstellen zunehmend an Bedeutung. Während es heute möglich ist natürlich klingende synthetische Sprache in neutraler Sprechweise zu erzeugen, ist es immer noch schwierig bestehende Sprachsynthesesysteme schnell an verschiedene Kontexte und Situationen anzupassen, eine Leistung, die in natürlich gesprochener Sprache selbstverständlich ist. Während emotionale Sprache und natürliche Intonation ein aktives Forschungsfeld darstellen, wird die Erforschung von Sprachvarietäten im Bereich der Sprachsynthese eher vernachlässigt. Innerhalb dieses Projekts werden wir die notwendigen Methoden entwickeln um Sprachsynthesesysteme erstellen zu können die einfach an soziale und regionale Varietäten adaptiert werden können. Um das zu erreichen suchen wir optimale Verwendungsweisen der vorhandenen Trainingsdaten, die Ähnlichkeiten innerhalb von sozialen und regionalen Varietäten verwenden.

In diesem Forschungsprojekt entwickelten wir Methoden, um die Modellierung von Varietäten in der Sprachsynthese zu verbessern. Um dieses Ziel zu erreichen, haben wir uns auf drei Themen konzentriert, die entscheidend für die Modellierung von Varietäten sind, nämlich die Transformation von Varietäten, das Training von Durschnittstimmen (average voices) für Varietäten, und die Modellierung von Varietäten bei unvollständigen Trainingsdaten.Für die Transformation von Varietäten haben wir eine unüberwachte Interpolationsmethode entwickelt, die automatisch Zwischenvarietäten generieren kann, welche einen graduellen Übergang zwischen Varietäten darstellen, seien es zwei Dialekte/Soziolekte, oder seien es ein Dialekt/Soziolekt und eine Standardvarietät. Außerdem entwickelten wir eine Transformationsmethode, welche die Stimme eines Sprechers / einer Sprecherin in einer Varietät realisieren kann, wenn nur Daten des Sprechers / der Sprecherin in einer anderen, ähnlichen Varietät vorliegen.Für das Trainieren von Durchschnittsstimmen untersuchten wir verschiedene Adaptionsmethoden wie Dialekt-adaptives Training oder Dialekt Clustering, welche das gemeinsame Phonset von Standard und Dialekt verwenden können, und wandten eine adaptive Methode auf albanische Dialekte an, welche einen Dialekt als Hintergrund und den anderen als Adaptionsdialekt verwendet.In der Modellierung von Varietäten bei unvollständigen Trainingsdaten evaluierten wir die Wahrnehmung von Akzenten des Zweitspracherwerbs von natürlicher Sprache und synthetischer Sprache, bei welcher der Akzent automatisch reduziert wurde. Die angewandte Akzentreduktionsmethode verwendet kein Durchschnittsmodell, sondern nur die phonetisch unvollständigen Akzentdaten.Computergenerierte Sprachsynthese gewinnt als Ausgabemodalität in kognitiven BenutzerInnenschnittstellen zunehmend an Bedeutung. Während emotionale Sprache und natürliche Intonation ein aktives Forschungsfeld darstellen, wurde die Erforschung von Sprachvarietäten im Bereich der Sprachsynthese eher vernachlässigt. Innerhalb dieses Projekts entwickelten wir Methoden, um Sprachsynthesesysteme erstellen zu können, die einfach an soziale und regionale Varietäten adaptiert werden können.

Forschungsstätte(n)

Österreichische Akademie der Wissenschaften - 100%

Internationale Projektbeteiligte

Sebastian Möller, Technische Universität Berlin - Deutschland
Junichi Yamagishi, National Institute of Informatics - Japan

Research Output

19 Zitationen
17 Publikationen

Publikationen

Titel	Influence of speaker familiarity on blind and visually impaired children’s and young adults’ perception of synthetic voices
DOI	10.1016/j.csl.2017.05.010
Typ	Journal Article
Autor	Pucher M
Journal	Computer Speech & Language
Seiten	179-195
Link	Publikation

Titel	Cross-variety speaker transformation in HSMM-based speech synthesis.
Typ	Conference Proceeding Abstract
Autor	Schabus D
Konferenz	8th ISCA Speech Synthesis Workshop (SSW8).

Titel	Structural KLD for Cross-Variety Speaker Adaptation in HMM-based Speech Synthesis
DOI	10.2316/p.2013.798-069
Typ	Conference Proceeding Abstract
Autor	Toman M

Titel	Efficient Pitch Estimation on Natural Opera-Singing by a Spectral Correlation based Strategy.
Typ	Journal Article
Autor	Pucher M Et Al
Journal	IPSJ SIG Technical Report.

Titel	Visio-articulatory to acoustic conversion of speech
DOI	10.1145/2813852.2813858
Typ	Conference Proceeding Abstract
Autor	Pucher M
Seiten	1-2

Titel	Comparison of dialect models and phone mappings in HSMM-based visual dialect speech synthesis.
Typ	Conference Proceeding Abstract
Autor	Pucher M
Konferenz	1st Joint Conference on Facial Analysis, Animation and Auditory-Visual Speech Processing (FAAVSP).

Titel	Development of a statistical parametric synthesis system for operatic singing in German
DOI	10.21437/ssw.2016-11
Typ	Conference Proceeding Abstract
Autor	Pucher M
Seiten	64-69
Link	Publikation

Titel	Multi-variety adaptive acoustic modeling in HSMM-based speech synthesis.
Typ	Conference Proceeding Abstract
Autor	Schabus D Et Al
Konferenz	8th ISCA Speech Synthesis Workshop (SSW8).

Titel	Aufnahme von hochwertigen authentischen Dialektdaten im Feld.
Typ	Conference Proceeding Abstract
Autor	Pucher M
Konferenz	13 Bayerisch-österreichische Dialektologentagung.

Titel	Influence of speaker familiarity on blind and visually impaired children's perception of synthetic voices in audio games.
Typ	Conference Proceeding Abstract
Autor	Pucher M
Konferenz	16th Annual Conference of the International Speech Communication Association.

Titel	Adaptive Speech Synthesis of Albanian Dialects
DOI	10.1007/978-3-319-24033-6_18
Typ	Book Chapter
Autor	Pucher M
Verlag	Springer Nature
Seiten	158-164

Titel	Evaluation of state mapping based foreign accent conversion.
Typ	Conference Proceeding Abstract
Autor	Pucher M
Konferenz	16th Annual Conference of the International Speech Communication Association

Titel	An Open Source Speech Synthesis Frontend for HTS
DOI	10.1007/978-3-319-24033-6_33
Typ	Book Chapter
Autor	Toman M
Verlag	Springer Nature
Seiten	291-298

Titel	Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis
DOI	10.1016/j.specom.2015.06.005
Typ	Journal Article
Autor	Toman M
Journal	Speech Communication
Seiten	176-193
Link	Publikation

Titel	MMASCS multi-modal annotated synchronous corpus of audio, video, facial motion and tongue motion data of normal, fast and slow speech.
Typ	Other
Autor	Pucher M

Titel	GIDS Bad Goisern and Innervillgraten Audio-Visual Dialect Speech Corpus, a collection of audiovisual speech recordings for research purposes.
Typ	Other
Autor	Pucher M

Titel	FAAVSP - The 1st Joint Conference on Facial Analysis, Animation and Auditory-Visual Speech Processing.
Typ	Other
Autor	Davis C Et Al

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Arkustische Modellierung und Transformation von Varietäten für die Sprachsynthese

Acoustic modeling and transformation of varieties for speech synthesis

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Arkustische Modellierung und Transformation von Varietäten für die Sprachsynthese

Acoustic modeling and transformation of varieties for speech synthesis

Wissenschaftsdisziplinen

Keywords

Research Output