Projektdetail

Grant-DOI 10.55776/I1362
Förderprogramm Einzelprojekte International
Status beendet
Projektbeginn 01.03.2014
Projektende 31.10.2017
Bewilligungssumme 237.174 €
Projekt-Website

Bilaterale Ausschreibung: Frankreich

Wissenschaftsdisziplinen

Elektrotechnik, Elektronik, Informationstechnik (50%); Mathematik (20%); Psychologie (30%)

Keywords

Auditory Masking, Efficiency, Time-Frequency Representations, Gabor, Audio Coding

Abstract

Endbericht

Eine der grössten Herausforderungen in der Signalverarbeitung ist die Entwicklung einer effizienten Repräsentation. Eine effiziente Repräsentation extrahiert die relevante Information und beschreibt sie mit minimalem Datenaufwand. Bei der Verarbeitung von Audio-Signalen ist es oft erstrebenswert, dass eine effiziente Repräsentation die auditorische Wahrnehmung berücksichtigt und die Signalrekonstruktion ermöglicht. In den vergangenen Jahrzehnten wurde die auditorische Maskierung, eine wichtige Eigenschaft der auditorischen Wahrnehmung, in einer Vielzahl von psychoakustischen Studien undersucht. Die Maskierung beschreibt die Verschlechterung der Wahrnehmungsschwelle eines Signals in Anwesenheit eines anderen Signals. Die Ergebnisse führten zur Entwicklung von unabhängigen Modellen der spektralen und der zeitlichen Maskierung. Im Rahmen der Entwicklung von perzeptiven Audio-Kodierverfahren wurde versucht, die beiden Modelle einfach zu kombinieren, um die Zeit-Frequenz (Z-F) Maskierung zu berücksichtigen. Zur Überprüfung der Validität dieser einfachen Z-F Maskierungsmodelle führten die Antragsteller psychoakustische Studien zur Z-F Maskierung durch. Die zu erwartende Ungenauigkeit dieser Ansätze wurde deutlich bestätigt. Diese neuen Daten zur Z-F Maskierung stellen eine essentielle Basis für die Berücksichtigung von Maskierungseffekten in Z-F Repräsentationen von Audio-Signalen dar. Obwohl Z-F Represäsentationen Standardwerkzeuge in der Audio-Signalverarbietung sind, stellt die Entwicklung einer mathematisch fundierten, wahrnehmungsorientierten und perfekt rekonstruierbaren Z-F Repräsentation eine Herausforderung dar. Im Rahmen des POTION Projektes werden folgende primäre Fragestellungen untersucht: Inwieweit ist eine wahrnehmungsorientierte (d.h., möglichst entsprechend "Was ich sehe höre ich") und perfekt invertierbare Z-F Repräsentation erreichbar? Diese Problemstellung wird mittels mathematischer Methoden (Weiterentwicklung der nicht-stationären Gabor-Theorie) und psychoakustischer Methoden (Entwicklung von auf Hörexperimenten beruhenden Hörmodellen) untersucht. Eine die erwähnten Anforderungen erfüllende Z-F Repräsentation ist essentiell für die Modellierung komplexer Maskierungsinteraktionen in der Z-F Domäne und könnte zum verbesserten Verständnis der auditorischen Verarbeitung von komplexen realen Signalen beitragen. Darüberhinaus könnte sie von fundamentaler Bedeutung für zahlreiche auf Analyse-Synthese beruhenden Audio- Applikationen sein, wie zum Beispiel Kommunikationssysteme, virtuelle Akustik, oder Sound Design. Kann die Leistung von derzeitigen perzeptiven Audio-Kodierverfahren mittels eines vereinten Zeit-Frequenz Ansatzes verbessert werden? Zur Reduktion der digitalen Grösse eines Audio-Signals zerlegen derzeitige Kodierer (wie z.B. MP3) Signale in variable Zeitabschnitte und wenden, nach einer Frequenztransformation, spektrale Maskierungsmodelle unabhängig innerhalb der einzelnen Segmente an. Derzeitige Kodierer verfolgen daher einen spektralen Ansatz. Es wird die Hypothese getestet, dass die Kombination einer effizienten wahrnehmungsorientierten Z-F Repräsentation mit einem vereinten Zeit-Frequenz Maskierungsmodell die Kodierunsleistung von Audio-Kodierern signifikant verbessert. Die Untersuchung dieser Fragestellungen erfordert einen multidisziplinären Ansatz. Daher beruht POTION auf einem Konsortium vom Laboratoire de Mécanique et d`Acoustique (LMA, Frankreich) und dem Institut für Schallforschung (ARI, Österreich). Das LMA rekrutiert bringt internationale Experten in Signalverarbeitung für nicht-stationäre Signale, und Audio-Kodierung, während das ARI internationale Experten aus den Bereichen Mathematik, Z-F Analyse und Psychoakustik rekrutiert. Die Etablierung einer engen Zusammenarbeit zwischen den beiden Institutionen und den Disziplinen ermöglicht optimale Bedingungen zum Erreichen der Projektziele.

Das Ziel von POTION war die Entwicklung neuer Methoden zur effizienten Repräsentation von Audiosignalen. Die Kodierung von Audiosignalen hat oft das Ziel, die Dateigröße ohne hörbare Artefakte zu minimieren. Obwohl mathematische Werkzeuge eine starke Rolle spielen, ist die Berücksichtigung der Eigenschaften des menschlichen Gehörs in der Signalrepräsentation von Vorteil. POTION ist deshalb sowohl der Audiosignalverarbeitung in der Zeit- Frequenz-Domäne als auch neuen psychoakustischen Erkenntnissen über das menschliche Gehör nachgegangen.Zeit-Frequenz-Repräsentationen von Audiosignalen sind weit verbreitet, ihre zeitlichen und spektralen Eigenschaften hängen dabei von Algorithmen und deren Implementierung ab. Dennoch schafft keine der existierenden Zeit-Frequenz-Repräsentationen die vollständige Darstellung der Eigenschaften des Gehörs. In POTION hingegen wurde durch die Entwicklung von Audlet, einem Framework für neue Zeit-Frequenz-Repräsentationen, die menschliche Frequenzskala exakt abgebildet. Dieses Framework bietet eine konfigurierbare und effiziente Filterbank für Analyse und Synthese von Audiosignalen unter Verwendung verschiedener Frequenzskalen. Es ist für Audioanwendungen geeignet, die strikte Stabilität, perfekte Signalrekonstruktion sowie eine flexible Wahl der Signalredundanz in der Zeit-Frequenz-Repräsentation erfordern.Für die Entwicklung einer auditorisch-optimierten Zeit-Frequenz-Repräsentation mussten die Eigenschaften des Gehörs untersucht werden. Im Speziellen wurden Daten zur sogenannten auditorischen Maskierung gesammelt und dann in einem Maskierungsfilter implementiert. Dieser Filter kann nun verwendet werden, um die maskierten Audiokomponenten zu entfernen und nur die hörbaren Komponenten zu kodieren. Für die Sammlung dieser Daten mussten neue psychoakustische Methoden und Modelle zur Funktion des menschlichen Innenohrs entwickelt werden.Die Kombination der oben genannten Ergebnisse verbesserte die Leistung vorhandener Audiokodierungsalgorithmen. In einer angepassten Version der Audlet-Repräsentation wurde der neu entwickelte Maskierungsfilter integriert und auf die Audiokodierungsaufgabe zugeschnitten. Daraus entstand ERB-MDCT, ein Audiocodec für niedrige Bitraten (24 bis 48 kbps) und potentielle Herausforderung für die derzeitige Referenz (AAC HEv2) in Punkto Effizienz und Audioqualität.

Forschungsstätte(n)

Österreichische Akademie der Wissenschaften - 86%
Universität Wien - 14%

Nationale Projektbeteiligte

Martin Ehler, Universität Wien , assoziierte:r Forschungspartner:in

Internationale Projektbeteiligte

Olivier Derrien, Centre National de Recherche Scientifique (CNRS) - Frankreich

Research Output

123 Zitationen
7 Publikationen

Publikationen

Titel	A Quasi-Orthogonal, Invertible, and Perceptually Relevant Time-Frequency Transform for Audio Coding
DOI	10.1109/eusipco.2015.7362493
Typ	Conference Proceeding Abstract
Autor	Derrien O
Seiten	799-803
Link	Publikation

Titel	Audlet Filter Banks: A Versatile Analysis/Synthesis Framework Using Auditory Frequency Scales
DOI	10.3390/app8010096
Typ	Journal Article
Autor	Necciari T
Journal	Applied Sciences
Seiten	96
Link	Publikation

Titel	Frame Theory for Signal Processing in Psychoacoustics
DOI	10.1007/978-3-319-54711-4_10
Typ	Book Chapter
Autor	Balazs P
Verlag	Springer Nature
Seiten	225-268

Titel	Auditory Time-Frequency Masking for Spectrally and Temporally Maximally-Compact Stimuli
DOI	10.1371/journal.pone.0166937
Typ	Journal Article
Autor	Necciari T
Journal	PLOS ONE
Link	Publikation

Titel	The role of compression in the simultaneous masker phase effecta)
DOI	10.1121/1.4964328
Typ	Journal Article
Autor	Tabuchi H
Journal	The Journal of the Acoustical Society of America
Seiten	2680-2694
Link	Publikation

Titel	THE ERBLET TRANSFORM: AN AUDITORY-BASED TIME-FREQUENCY REPRESENTATION WITH PERFECT RECONSTRUCTION
DOI	10.1109/icassp.2013.6637697
Typ	Conference Proceeding Abstract
Autor	Necciari T
Seiten	498-502

Titel	Perceptual Matching Pursuit with Gabor Dictionaries and Time-Frequency Masking
DOI	10.1109/icassp.2014.6854171
Typ	Conference Proceeding Abstract
Autor	Chardon G
Seiten	3102-3106

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Perzeptive Optimierung von Zeit-Frequenz-Repräsentationen von Audio-Signalen

Perceptual Optimization of Time-Frequency Audio Representations and Coding

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Perzeptive Optimierung von Zeit-Frequenz-Repräsentationen von Audio-Signalen

Perceptual Optimization of Time-Frequency Audio Representations and Coding

Wissenschaftsdisziplinen

Keywords

Research Output