Sprachübertragung unter Berücksichtigung der Phase
Phase-Aware Signal Processing for Speech Transmission
Wissenschaftsdisziplinen
Elektrotechnik, Elektronik, Informationstechnik (75%); Informatik (25%)
Keywords
- Phase-aware signal processing,
- Speech enhancement,
- Perceived signal quality,
- Speech transmission,
- Signal processing,
- Phase spectrum estimation
Alltägliche Anwendungensindvielfach auf zuverlässigeSprachübertragung und Sprachkommunikation angewiesen. Beispiele dafür sind Sprachsteuerung in der Hausautomation, Freisprechanlagen für Mobiltelefonie oder Spracherkennung für Maschinen. In all diesen Anwendungenist eine hohe Robustheit gegenüber räumlich bedingtem Nachhall und Hintergrundgeräuschen notwendig. Um diese störenden Einflüsse im Sprachsignal zu minimieren, ist eine Aufbereitung des Eingangssignals in Form einer Signalverbesserung notwendig. Während sich aktuelle Technologien der Sprachübertragung hauptsächlich auf die Filterung der Amplituden im Frequenzbereich konzentrieren, versuchen wir die bisherigen Konzepte und die damit verbundenen Möglichkeiten zu erweitern, indem wir zusätzlich die Phasenanteile bei der Signalverarbeitung mit berücksichtigen. Dieser Forschungsbeitrag verfolgt dreierlei Ziele: i) Entwicklung von Methoden zur Abschätzung der Phaseninformation des ursprünglichen ungestörten Quellensignals für eine qualitativ bessere Rekonstruktion der Sprachinformation; ii) Entwicklung von Algorithmen zur Sprachverbesserung in der komplexen Domäne mittels geschätztem Phasenspektrum um die Probleme herkömmlicher Methoden zu überwinden; iii) Verwendung von phasen-basierten Konzepten anhand zweier Anwendungen: 1) Einkanalige Quellentrennung und 2) künstliche Bandbreitenerweiterung; iv) neue Gütemaße zur Abschätzung der Leistungsfähigkeit von Sprachverbesserungsmethoden, die mit der menschlichen Wahrnehmung der Sprach Qualität stark korrelieren. Dadurch können aufwändige Hörtests vermieden werden.
Alltägliche Sprachanwendungen, wie zum Beispiel Sprachsteuerung in der Hausautomation, Freisprechanlagen für Mobiltelefonie oder Spracherkennung für Maschinen, sind auf zuverlässige Sprachverarbeitung und -übertragung angewiesen. In all diese Anwendungen ist eine hohe Stabilität gegenüber räumlich bedingtem Nachhall und Hintergrundgeräuschen notwendig. Um den störenden und unerwünschten Einfluss von Hintergrundgeräuschen zu minimieren, ist eine Aufbereitung des Eingangssignals notwendig. Während sich moderne Technologien für Sprachübertragung hauptsächlich auf die Filterung der Amplituden eines Signals konzentrieren, versuchen wir über die bisherigen Möglichkeiten hinauszugehen, indem wir zusätzlich die Phasenanteile berücksichtigen. Dieser Beitrag gliedert sich in drei Teile: i) Entwicklung von Methoden zur Abschätzung der Phaseninformation des ursprünglichen sauberen Quellensignals für eine qualitativ bessere Rekonstruktion der Sprache. ii) Zweitens, die zuvor beschriebene Methode mit der Vorabinformation des Sprechers zu erweitern. Dieses Wissenüber die Identität des Anwenders kann für eine weitere Optimierung des Sprachverbesserung verwendet werden. iii) Weiters sollen neue Gütemae zur Abschätzung der Leistungsfähigkeit von Sprachverbesserungsmethoden vorgestellt werden, die mit der menschlichen Wahrnehmung der Qualität von Sprache stark korrelieren. Dadurch können aufwändige Hörtests vermieden werden.
- Technische Universität Graz - 100%
- Tim Fingscheidt, Technische Universität Braunschweig - Deutschland
- Paavo Alku, Aalto University Helsinki - Finnland
- Rahim Saeidi, University of Eastern Finland - Finnland
- Gilles Degottex, Centre Georges Pompidou - Frankreich
Research Output
- 351 Zitationen
- 18 Publikationen
- 1 Software
- 2 Wissenschaftliche Auszeichnungen
-
2020
Titel Single-channel speech enhancement with correlated spectral components: Limits-potential DOI 10.1016/j.specom.2020.05.002 Typ Journal Article Autor Mowlaee P Journal Speech Communication Seiten 58-69