• Zum Inhalt springen (Accesskey 1)
  • Zur Suche springen (Accesskey 7)
FWF — Österreichischer Wissenschaftsfonds
  • Zur Übersichtsseite Entdecken

    • Forschungsradar
      • Historisches Forschungsradar 1974–1994
    • Entdeckungen
      • Emmanuelle Charpentier
      • Adrian Constantin
      • Monika Henzinger
      • Ferenc Krausz
      • Wolfgang Lutz
      • Walter Pohl
      • Christa Schleper
      • Elly Tanaka
      • Anton Zeilinger
    • Impact Stories
      • Verena Gassner
      • Wolfgang Lechner
      • Birgit Mitter
      • Oliver Spadiut
      • Georg Winter
    • scilog-Magazin
    • Austrian Science Awards
      • FWF-Wittgenstein-Preise
      • FWF-ASTRA-Preise
      • FWF-START-Preise
      • Auszeichnungsfeier
    • excellent=austria
      • Clusters of Excellence
      • Emerging Fields
    • Im Fokus
      • 40 Jahre Erwin-Schrödinger-Programm
      • Quantum Austria
      • Spezialforschungsbereiche
    • Dialog und Diskussion
      • think.beyond Summit
      • Am Puls
      • Was die Welt zusammenhält
      • FWF Women’s Circle
      • Science Lectures
    • Wissenstransfer-Events
    • E-Book Library
  • Zur Übersichtsseite Fördern

    • Förderportfolio
      • excellent=austria
        • Clusters of Excellence
        • Emerging Fields
      • Projekte
        • Einzelprojekte
        • Einzelprojekte International
        • Klinische Forschung
        • 1000 Ideen
        • Entwicklung und Erschließung der Künste
        • FWF-Wittgenstein-Preis
      • Karrieren
        • ESPRIT
        • FWF-ASTRA-Preise
        • Erwin Schrödinger
        • doc.funds
        • doc.funds.connect
      • Kooperationen
        • Spezialforschungsgruppen
        • Spezialforschungsbereiche
        • Forschungsgruppen
        • International – Multilaterale Initiativen
        • #ConnectingMinds
      • Kommunikation
        • Top Citizen Science
        • Wissenschaftskommunikation
        • Buchpublikationen
        • Digitale Publikationen
        • Open-Access-Pauschale
      • Themenförderungen
        • AI Mission Austria
        • Belmont Forum
        • ERA-NET HERA
        • ERA-NET NORFACE
        • ERA-NET QuantERA
        • Ersatzmethoden für Tierversuche
        • Europäische Partnerschaft BE READY
        • Europäische Partnerschaft Biodiversa+
        • Europäische Partnerschaft BrainHealth
        • Europäische Partnerschaft ERA4Health
        • Europäische Partnerschaft ERDERA
        • Europäische Partnerschaft EUPAHW
        • Europäische Partnerschaft FutureFoodS
        • Europäische Partnerschaft OHAMR
        • Europäische Partnerschaft PerMed
        • Europäische Partnerschaft Water4All
        • Gottfried-und-Vera-Weiss-Preis
        • LUKE – Ukraine
        • netidee SCIENCE
        • Projekte der Herzfelder-Stiftung
        • Quantum Austria
        • Rückenwind-Förderbonus
        • WE&ME Award
        • Zero Emissions Award
      • Länderkooperationen
        • Belgien/Flandern
        • Deutschland
        • Frankreich
        • Italien/Südtirol
        • Japan
        • Korea
        • Luxemburg
        • Polen
        • Schweiz
        • Slowenien
        • Taiwan
        • Tirol–Südtirol–Trentino
        • Tschechien
        • Ungarn
    • Schritt für Schritt
      • Förderung finden
      • Antrag einreichen
      • Internationales Peer-Review
      • Förderentscheidung
      • Projekt durchführen
      • Projekt beenden
      • Weitere Informationen
        • Integrität und Ethik
        • Inklusion
        • Antragstellung aus dem Ausland
        • Personalkosten
        • PROFI
        • Projektendberichte
        • Projektendberichtsumfrage
    • FAQ
      • Projektphase PROFI
      • Projektphase Ad personam
      • Auslaufende Programme
        • Elise Richter und Elise Richter PEEK
        • FWF-START-Preise
  • Zur Übersichtsseite Über uns

    • Leitbild
    • FWF-Film
    • Werte
    • Zahlen und Daten
    • Jahresbericht
    • Aufgaben und Aktivitäten
      • Forschungsförderung
        • Matching-Funds-Förderungen
      • Internationale Kooperationen
      • Studien und Publikationen
      • Chancengleichheit und Diversität
        • Ziele und Prinzipien
        • Maßnahmen
        • Bias-Sensibilisierung in der Begutachtung
        • Begriffe und Definitionen
        • Karriere in der Spitzenforschung
      • Open Science
        • Open-Access-Policy
          • Open-Access-Policy für begutachtete Publikationen
          • Open-Access-Policy für begutachtete Buchpublikationen
          • Open-Access-Policy für Forschungsdaten
        • Forschungsdatenmanagement
        • Citizen Science
        • Open-Science-Infrastrukturen
        • Open-Science-Förderung
      • Evaluierungen und Qualitätssicherung
      • Wissenschaftliche Integrität
      • Wissenschaftskommunikation
      • Philanthropie
      • Nachhaltigkeit
    • Geschichte
    • Gesetzliche Grundlagen
    • Organisation
      • Gremien
        • Präsidium
        • Aufsichtsrat
        • Delegiertenversammlung
        • Kuratorium
        • Jurys
      • Geschäftsstelle
    • Arbeiten im FWF
  • Zur Übersichtsseite Aktuelles

    • News
    • Presse
      • Logos
    • Eventkalender
      • Veranstaltung eintragen
      • FWF-Infoveranstaltungen
    • Jobbörse
      • Job eintragen
    • Newsletter
  • Entdecken, 
    worauf es
    ankommt.

    FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

    SOCIAL MEDIA

    • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
    • , externe URL, öffnet sich in einem neuen Fenster
    • Facebook, externe URL, öffnet sich in einem neuen Fenster
    • Instagram, externe URL, öffnet sich in einem neuen Fenster
    • YouTube, externe URL, öffnet sich in einem neuen Fenster

    SCILOG

    • Scilog — Das Wissenschaftsmagazin des Österreichischen Wissenschaftsfonds (FWF)
  • elane-Login, externe URL, öffnet sich in einem neuen Fenster
  • Scilog externe URL, öffnet sich in einem neuen Fenster
  • en Switch to English

  

Arkustische Modellierung und Transformation von Varietäten für die Sprachsynthese

Acoustic modeling and transformation of varieties for speech synthesis

Michael Pucher (ORCID: 0000-0002-5374-1342)
  • Grant-DOI 10.55776/P23821
  • Förderprogramm Einzelprojekte
  • Status beendet
  • Projektbeginn 01.02.2012
  • Projektende 30.06.2016
  • Bewilligungssumme 296.510 €

Wissenschaftsdisziplinen

Informatik (95%); Sprach- und Literaturwissenschaften (5%)

Keywords

    Speech Synthesis, Hidden Markov Model, Dialect, Machine Learing, Adaption

Abstract Endbericht

In diesem Forschungsprojekt wollen wir die Modellierung von Varietäten in der Sprachsynthese verbessern, indem wir die vorhandenen Sprachdaten optimal nutzen. Zwischen sozialen (Soziolekten) und regionalen (Dialekten) Varietäten einer Sprache gibt es phonetische Ähnlichkeiten die in der statistischen parametrischen Synthese genutzt werden können um Sprachmodelle einer Sprecherin / eines Sprechers mithilfe von relativ wenigen Sprachdaten zu trainieren. Dabei werden die Sprachmodelle mit wenigen Minuten an Sprachdaten von Hintergrundmodellen adaptiert. Um dieses Ziel zu erreichen werden wir uns auf drei Themen konzentrieren die entscheidend für die Modellierung von Varietäten sind, nämlich das Training von Durschnittstimmen ("average voices") für Varietäten, die Transformation von Varietäten, und die Modellierung von Varietäten bei unvollständigen Trainingsdaten. Für das Trainieren von Durchschnittsstimmen werden wir ein neues adaptives Verfahren entwickeln, das es erlaubt Varietät und SprecherIn getrennt zu adaptieren. Für die Transformation von Varietäten werden wir Techniken entwickeln die es möglich machen die Stimme eines Sprechers / einer Sprecherin in einer Varietät zu erstellen, wenn nur Daten der SprecherIn in einer ähnlichen Varietät vorhanden sind. Außerdem werden wir Methoden entwickeln um die Stimme eines Sprechers / einer Sprecherin aus unvollständigen Trainigsdaten zu erstellen, was verwendet werden kann um historische Varietäten zu synthetisieren. Computergenerierte Sprachsynthese gewinnt als Ausgabemodalität in kognitiven BenutzerInnenschnittstellen zunehmend an Bedeutung. Während es heute möglich ist natürlich klingende synthetische Sprache in neutraler Sprechweise zu erzeugen, ist es immer noch schwierig bestehende Sprachsynthesesysteme schnell an verschiedene Kontexte und Situationen anzupassen, eine Leistung, die in natürlich gesprochener Sprache selbstverständlich ist. Während emotionale Sprache und natürliche Intonation ein aktives Forschungsfeld darstellen, wird die Erforschung von Sprachvarietäten im Bereich der Sprachsynthese eher vernachlässigt. Innerhalb dieses Projekts werden wir die notwendigen Methoden entwickeln um Sprachsynthesesysteme erstellen zu können die einfach an soziale und regionale Varietäten adaptiert werden können. Um das zu erreichen suchen wir optimale Verwendungsweisen der vorhandenen Trainingsdaten, die Ähnlichkeiten innerhalb von sozialen und regionalen Varietäten verwenden.

In diesem Forschungsprojekt entwickelten wir Methoden, um die Modellierung von Varietäten in der Sprachsynthese zu verbessern. Um dieses Ziel zu erreichen, haben wir uns auf drei Themen konzentriert, die entscheidend für die Modellierung von Varietäten sind, nämlich die Transformation von Varietäten, das Training von Durschnittstimmen (average voices) für Varietäten, und die Modellierung von Varietäten bei unvollständigen Trainingsdaten.Für die Transformation von Varietäten haben wir eine unüberwachte Interpolationsmethode entwickelt, die automatisch Zwischenvarietäten generieren kann, welche einen graduellen Übergang zwischen Varietäten darstellen, seien es zwei Dialekte/Soziolekte, oder seien es ein Dialekt/Soziolekt und eine Standardvarietät. Außerdem entwickelten wir eine Transformationsmethode, welche die Stimme eines Sprechers / einer Sprecherin in einer Varietät realisieren kann, wenn nur Daten des Sprechers / der Sprecherin in einer anderen, ähnlichen Varietät vorliegen.Für das Trainieren von Durchschnittsstimmen untersuchten wir verschiedene Adaptionsmethoden wie Dialekt-adaptives Training oder Dialekt Clustering, welche das gemeinsame Phonset von Standard und Dialekt verwenden können, und wandten eine adaptive Methode auf albanische Dialekte an, welche einen Dialekt als Hintergrund und den anderen als Adaptionsdialekt verwendet.In der Modellierung von Varietäten bei unvollständigen Trainingsdaten evaluierten wir die Wahrnehmung von Akzenten des Zweitspracherwerbs von natürlicher Sprache und synthetischer Sprache, bei welcher der Akzent automatisch reduziert wurde. Die angewandte Akzentreduktionsmethode verwendet kein Durchschnittsmodell, sondern nur die phonetisch unvollständigen Akzentdaten.Computergenerierte Sprachsynthese gewinnt als Ausgabemodalität in kognitiven BenutzerInnenschnittstellen zunehmend an Bedeutung. Während emotionale Sprache und natürliche Intonation ein aktives Forschungsfeld darstellen, wurde die Erforschung von Sprachvarietäten im Bereich der Sprachsynthese eher vernachlässigt. Innerhalb dieses Projekts entwickelten wir Methoden, um Sprachsynthesesysteme erstellen zu können, die einfach an soziale und regionale Varietäten adaptiert werden können.

Forschungsstätte(n)
  • Österreichische Akademie der Wissenschaften - 100%
Internationale Projektbeteiligte
  • Sebastian Möller, Technische Universität Berlin - Deutschland
  • Junichi Yamagishi, National Institute of Informatics - Japan

Research Output

  • 19 Zitationen
  • 17 Publikationen
Publikationen
  • 2017
    Titel Influence of speaker familiarity on blind and visually impaired children’s and young adults’ perception of synthetic voices
    DOI 10.1016/j.csl.2017.05.010
    Typ Journal Article
    Autor Pucher M
    Journal Computer Speech & Language
    Seiten 179-195
    Link Publikation
  • 2013
    Titel Cross-variety speaker transformation in HSMM-based speech synthesis.
    Typ Conference Proceeding Abstract
    Autor Schabus D
    Konferenz 8th ISCA Speech Synthesis Workshop (SSW8).
  • 2013
    Titel Structural KLD for Cross-Variety Speaker Adaptation in HMM-based Speech Synthesis
    DOI 10.2316/p.2013.798-069
    Typ Conference Proceeding Abstract
    Autor Toman M
  • 2015
    Titel Efficient Pitch Estimation on Natural Opera-Singing by a Spectral Correlation based Strategy.
    Typ Journal Article
    Autor Pucher M Et Al
    Journal IPSJ SIG Technical Report.
  • 2015
    Titel Visio-articulatory to acoustic conversion of speech
    DOI 10.1145/2813852.2813858
    Typ Conference Proceeding Abstract
    Autor Pucher M
    Seiten 1-2
  • 2015
    Titel Comparison of dialect models and phone mappings in HSMM-based visual dialect speech synthesis.
    Typ Conference Proceeding Abstract
    Autor Pucher M
    Konferenz 1st Joint Conference on Facial Analysis, Animation and Auditory-Visual Speech Processing (FAAVSP).
  • 2016
    Titel Development of a statistical parametric synthesis system for operatic singing in German
    DOI 10.21437/ssw.2016-11
    Typ Conference Proceeding Abstract
    Autor Pucher M
    Seiten 64-69
    Link Publikation
  • 2013
    Titel Multi-variety adaptive acoustic modeling in HSMM-based speech synthesis.
    Typ Conference Proceeding Abstract
    Autor Schabus D Et Al
    Konferenz 8th ISCA Speech Synthesis Workshop (SSW8).
  • 2016
    Titel Aufnahme von hochwertigen authentischen Dialektdaten im Feld.
    Typ Conference Proceeding Abstract
    Autor Pucher M
    Konferenz 13 Bayerisch-österreichische Dialektologentagung.
  • 2015
    Titel Influence of speaker familiarity on blind and visually impaired children's perception of synthetic voices in audio games.
    Typ Conference Proceeding Abstract
    Autor Pucher M
    Konferenz 16th Annual Conference of the International Speech Communication Association.
  • 2015
    Titel Adaptive Speech Synthesis of Albanian Dialects
    DOI 10.1007/978-3-319-24033-6_18
    Typ Book Chapter
    Autor Pucher M
    Verlag Springer Nature
    Seiten 158-164
  • 2015
    Titel Evaluation of state mapping based foreign accent conversion.
    Typ Conference Proceeding Abstract
    Autor Pucher M
    Konferenz 16th Annual Conference of the International Speech Communication Association
  • 2015
    Titel An Open Source Speech Synthesis Frontend for HTS
    DOI 10.1007/978-3-319-24033-6_33
    Typ Book Chapter
    Autor Toman M
    Verlag Springer Nature
    Seiten 291-298
  • 2015
    Titel Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis
    DOI 10.1016/j.specom.2015.06.005
    Typ Journal Article
    Autor Toman M
    Journal Speech Communication
    Seiten 176-193
    Link Publikation
  • 0
    Titel MMASCS multi-modal annotated synchronous corpus of audio, video, facial motion and tongue motion data of normal, fast and slow speech.
    Typ Other
    Autor Pucher M
  • 0
    Titel GIDS Bad Goisern and Innervillgraten Audio-Visual Dialect Speech Corpus, a collection of audiovisual speech recordings for research purposes.
    Typ Other
    Autor Pucher M
  • 0
    Titel FAAVSP - The 1st Joint Conference on Facial Analysis, Animation and Auditory-Visual Speech Processing.
    Typ Other
    Autor Davis C Et Al

Entdecken, 
worauf es
ankommt.

Newsletter

FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

Kontakt

Österreichischer Wissenschaftsfonds FWF
Georg-Coch-Platz 2
(Eingang Wiesingerstraße 4)
1010 Wien

office(at)fwf.ac.at
+43 1 505 67 40

Allgemeines

  • Jobbörse
  • Arbeiten im FWF
  • Presse
  • Philanthropie
  • scilog
  • Geschäftsstelle
  • Social Media Directory
  • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
  • , externe URL, öffnet sich in einem neuen Fenster
  • Facebook, externe URL, öffnet sich in einem neuen Fenster
  • Instagram, externe URL, öffnet sich in einem neuen Fenster
  • YouTube, externe URL, öffnet sich in einem neuen Fenster
  • Cookies
  • Hinweisgeber:innensystem
  • Barrierefreiheitserklärung
  • Datenschutz
  • Impressum
  • IFG-Formular
  • Social Media Directory
  • © Österreichischer Wissenschaftsfonds FWF
© Österreichischer Wissenschaftsfonds FWF