Perzeptive Optimierung von Zeit-Frequenz-Repräsentationen von Audio-Signalen
Perceptual Optimization of Time-Frequency Audio Representations and Coding
Bilaterale Ausschreibung: Frankreich
Wissenschaftsdisziplinen
Elektrotechnik, Elektronik, Informationstechnik (50%); Mathematik (20%); Psychologie (30%)
Keywords
-
Auditory Masking,
Efficiency,
Time-Frequency Representations,
Gabor,
Audio Coding
Eine der grössten Herausforderungen in der Signalverarbeitung ist die Entwicklung einer effizienten Repräsentation. Eine effiziente Repräsentation extrahiert die relevante Information und beschreibt sie mit minimalem Datenaufwand. Bei der Verarbeitung von Audio-Signalen ist es oft erstrebenswert, dass eine effiziente Repräsentation die auditorische Wahrnehmung berücksichtigt und die Signalrekonstruktion ermöglicht. In den vergangenen Jahrzehnten wurde die auditorische Maskierung, eine wichtige Eigenschaft der auditorischen Wahrnehmung, in einer Vielzahl von psychoakustischen Studien undersucht. Die Maskierung beschreibt die Verschlechterung der Wahrnehmungsschwelle eines Signals in Anwesenheit eines anderen Signals. Die Ergebnisse führten zur Entwicklung von unabhängigen Modellen der spektralen und der zeitlichen Maskierung. Im Rahmen der Entwicklung von perzeptiven Audio-Kodierverfahren wurde versucht, die beiden Modelle einfach zu kombinieren, um die Zeit-Frequenz (Z-F) Maskierung zu berücksichtigen. Zur Überprüfung der Validität dieser einfachen Z-F Maskierungsmodelle führten die Antragsteller psychoakustische Studien zur Z-F Maskierung durch. Die zu erwartende Ungenauigkeit dieser Ansätze wurde deutlich bestätigt. Diese neuen Daten zur Z-F Maskierung stellen eine essentielle Basis für die Berücksichtigung von Maskierungseffekten in Z-F Repräsentationen von Audio-Signalen dar. Obwohl Z-F Represäsentationen Standardwerkzeuge in der Audio-Signalverarbietung sind, stellt die Entwicklung einer mathematisch fundierten, wahrnehmungsorientierten und perfekt rekonstruierbaren Z-F Repräsentation eine Herausforderung dar. Im Rahmen des POTION Projektes werden folgende primäre Fragestellungen untersucht: Inwieweit ist eine wahrnehmungsorientierte (d.h., möglichst entsprechend "Was ich sehe höre ich") und perfekt invertierbare Z-F Repräsentation erreichbar? Diese Problemstellung wird mittels mathematischer Methoden (Weiterentwicklung der nicht-stationären Gabor-Theorie) und psychoakustischer Methoden (Entwicklung von auf Hörexperimenten beruhenden Hörmodellen) untersucht. Eine die erwähnten Anforderungen erfüllende Z-F Repräsentation ist essentiell für die Modellierung komplexer Maskierungsinteraktionen in der Z-F Domäne und könnte zum verbesserten Verständnis der auditorischen Verarbeitung von komplexen realen Signalen beitragen. Darüberhinaus könnte sie von fundamentaler Bedeutung für zahlreiche auf Analyse-Synthese beruhenden Audio- Applikationen sein, wie zum Beispiel Kommunikationssysteme, virtuelle Akustik, oder Sound Design. Kann die Leistung von derzeitigen perzeptiven Audio-Kodierverfahren mittels eines vereinten Zeit-Frequenz Ansatzes verbessert werden? Zur Reduktion der digitalen Grösse eines Audio-Signals zerlegen derzeitige Kodierer (wie z.B. MP3) Signale in variable Zeitabschnitte und wenden, nach einer Frequenztransformation, spektrale Maskierungsmodelle unabhängig innerhalb der einzelnen Segmente an. Derzeitige Kodierer verfolgen daher einen spektralen Ansatz. Es wird die Hypothese getestet, dass die Kombination einer effizienten wahrnehmungsorientierten Z-F Repräsentation mit einem vereinten Zeit-Frequenz Maskierungsmodell die Kodierunsleistung von Audio-Kodierern signifikant verbessert. Die Untersuchung dieser Fragestellungen erfordert einen multidisziplinären Ansatz. Daher beruht POTION auf einem Konsortium vom Laboratoire de Mécanique et d`Acoustique (LMA, Frankreich) und dem Institut für Schallforschung (ARI, Österreich). Das LMA rekrutiert bringt internationale Experten in Signalverarbeitung für nicht-stationäre Signale, und Audio-Kodierung, während das ARI internationale Experten aus den Bereichen Mathematik, Z-F Analyse und Psychoakustik rekrutiert. Die Etablierung einer engen Zusammenarbeit zwischen den beiden Institutionen und den Disziplinen ermöglicht optimale Bedingungen zum Erreichen der Projektziele.
Das Ziel von POTION war die Entwicklung neuer Methoden zur effizienten Repräsentation von Audiosignalen. Die Kodierung von Audiosignalen hat oft das Ziel, die Dateigröße ohne hörbare Artefakte zu minimieren. Obwohl mathematische Werkzeuge eine starke Rolle spielen, ist die Berücksichtigung der Eigenschaften des menschlichen Gehörs in der Signalrepräsentation von Vorteil. POTION ist deshalb sowohl der Audiosignalverarbeitung in der Zeit- Frequenz-Domäne als auch neuen psychoakustischen Erkenntnissen über das menschliche Gehör nachgegangen.Zeit-Frequenz-Repräsentationen von Audiosignalen sind weit verbreitet, ihre zeitlichen und spektralen Eigenschaften hängen dabei von Algorithmen und deren Implementierung ab. Dennoch schafft keine der existierenden Zeit-Frequenz-Repräsentationen die vollständige Darstellung der Eigenschaften des Gehörs. In POTION hingegen wurde durch die Entwicklung von Audlet, einem Framework für neue Zeit-Frequenz-Repräsentationen, die menschliche Frequenzskala exakt abgebildet. Dieses Framework bietet eine konfigurierbare und effiziente Filterbank für Analyse und Synthese von Audiosignalen unter Verwendung verschiedener Frequenzskalen. Es ist für Audioanwendungen geeignet, die strikte Stabilität, perfekte Signalrekonstruktion sowie eine flexible Wahl der Signalredundanz in der Zeit-Frequenz-Repräsentation erfordern.Für die Entwicklung einer auditorisch-optimierten Zeit-Frequenz-Repräsentation mussten die Eigenschaften des Gehörs untersucht werden. Im Speziellen wurden Daten zur sogenannten auditorischen Maskierung gesammelt und dann in einem Maskierungsfilter implementiert. Dieser Filter kann nun verwendet werden, um die maskierten Audiokomponenten zu entfernen und nur die hörbaren Komponenten zu kodieren. Für die Sammlung dieser Daten mussten neue psychoakustische Methoden und Modelle zur Funktion des menschlichen Innenohrs entwickelt werden.Die Kombination der oben genannten Ergebnisse verbesserte die Leistung vorhandener Audiokodierungsalgorithmen. In einer angepassten Version der Audlet-Repräsentation wurde der neu entwickelte Maskierungsfilter integriert und auf die Audiokodierungsaufgabe zugeschnitten. Daraus entstand ERB-MDCT, ein Audiocodec für niedrige Bitraten (24 bis 48 kbps) und potentielle Herausforderung für die derzeitige Referenz (AAC HEv2) in Punkto Effizienz und Audioqualität.
- Martin Ehler, Universität Wien , assoziierte:r Forschungspartner:in
- Olivier Derrien, Centre National de Recherche Scientifique (CNRS) - Frankreich
Research Output
- 123 Zitationen
- 7 Publikationen
-
2017
Titel Frame Theory for Signal Processing in Psychoacoustics DOI 10.1007/978-3-319-54711-4_10 Typ Book Chapter Autor Balazs P Verlag Springer Nature Seiten 225-268 -
2016
Titel Auditory Time-Frequency Masking for Spectrally and Temporally Maximally-Compact Stimuli DOI 10.1371/journal.pone.0166937 Typ Journal Article Autor Necciari T Journal PLOS ONE Link Publikation -
2018
Titel Audlet Filter Banks: A Versatile Analysis/Synthesis Framework Using Auditory Frequency Scales DOI 10.3390/app8010096 Typ Journal Article Autor Necciari T Journal Applied Sciences Seiten 96 Link Publikation -
2016
Titel The role of compression in the simultaneous masker phase effecta) DOI 10.1121/1.4964328 Typ Journal Article Autor Tabuchi H Journal The Journal of the Acoustical Society of America Seiten 2680-2694 Link Publikation -
2013
Titel THE ERBLET TRANSFORM: AN AUDITORY-BASED TIME-FREQUENCY REPRESENTATION WITH PERFECT RECONSTRUCTION DOI 10.1109/icassp.2013.6637697 Typ Conference Proceeding Abstract Autor Necciari T Seiten 498-502 -
2015
Titel A Quasi-Orthogonal, Invertible, and Perceptually Relevant Time-Frequency Transform for Audio Coding DOI 10.1109/eusipco.2015.7362493 Typ Conference Proceeding Abstract Autor Derrien O Seiten 799-803 Link Publikation -
2014
Titel Perceptual Matching Pursuit with Gabor Dictionaries and Time-Frequency Masking DOI 10.1109/icassp.2014.6854171 Typ Conference Proceeding Abstract Autor Chardon G Seiten 3102-3106