• Zum Inhalt springen (Accesskey 1)
  • Zur Suche springen (Accesskey 7)
FWF — Österreichischer Wissenschaftsfonds
  • Zur Übersichtsseite Entdecken

    • Forschungsradar
      • Historisches Forschungsradar 1974–1994
    • Entdeckungen
      • Emmanuelle Charpentier
      • Adrian Constantin
      • Monika Henzinger
      • Ferenc Krausz
      • Wolfgang Lutz
      • Walter Pohl
      • Christa Schleper
      • Elly Tanaka
      • Anton Zeilinger
    • Impact Stories
      • Verena Gassner
      • Wolfgang Lechner
      • Georg Winter
    • scilog-Magazin
    • Austrian Science Awards
      • FWF-Wittgenstein-Preise
      • FWF-ASTRA-Preise
      • FWF-START-Preise
      • Auszeichnungsfeier
    • excellent=austria
      • Clusters of Excellence
      • Emerging Fields
    • Im Fokus
      • 40 Jahre Erwin-Schrödinger-Programm
      • Quantum Austria
      • Spezialforschungsbereiche
    • Dialog und Diskussion
      • think.beyond Summit
      • Am Puls
      • Was die Welt zusammenhält
      • FWF Women’s Circle
      • Science Lectures
    • Wissenstransfer-Events
    • E-Book Library
  • Zur Übersichtsseite Fördern

    • Förderportfolio
      • excellent=austria
        • Clusters of Excellence
        • Emerging Fields
      • Projekte
        • Einzelprojekte
        • Einzelprojekte International
        • Klinische Forschung
        • 1000 Ideen
        • Entwicklung und Erschließung der Künste
        • FWF-Wittgenstein-Preis
      • Karrieren
        • ESPRIT
        • FWF-ASTRA-Preise
        • Erwin Schrödinger
        • doc.funds
        • doc.funds.connect
      • Kooperationen
        • Spezialforschungsgruppen
        • Spezialforschungsbereiche
        • Forschungsgruppen
        • International – Multilaterale Initiativen
        • #ConnectingMinds
      • Kommunikation
        • Top Citizen Science
        • Wissenschaftskommunikation
        • Buchpublikationen
        • Digitale Publikationen
        • Open-Access-Pauschale
      • Themenförderungen
        • AI Mission Austria
        • Belmont Forum
        • ERA-NET HERA
        • ERA-NET NORFACE
        • ERA-NET QuantERA
        • ERA-NET TRANSCAN
        • Ersatzmethoden für Tierversuche
        • Europäische Partnerschaft Biodiversa+
        • Europäische Partnerschaft ERA4Health
        • Europäische Partnerschaft ERDERA
        • Europäische Partnerschaft EUPAHW
        • Europäische Partnerschaft FutureFoodS
        • Europäische Partnerschaft OHAMR
        • Europäische Partnerschaft PerMed
        • Europäische Partnerschaft Water4All
        • Gottfried-und-Vera-Weiss-Preis
        • netidee SCIENCE
        • Projekte der Herzfelder-Stiftung
        • Quantum Austria
        • Rückenwind-Förderbonus
        • WE&ME Award
        • Zero Emissions Award
      • Länderkooperationen
        • Belgien/Flandern
        • Deutschland
        • Frankreich
        • Italien/Südtirol
        • Japan
        • Luxemburg
        • Polen
        • Schweiz
        • Slowenien
        • Taiwan
        • Tirol–Südtirol–Trentino
        • Tschechien
        • Ungarn
    • Schritt für Schritt
      • Förderung finden
      • Antrag einreichen
      • Internationales Peer-Review
      • Förderentscheidung
      • Projekt durchführen
      • Projekt beenden
      • Weitere Informationen
        • Integrität und Ethik
        • Inklusion
        • Antragstellung aus dem Ausland
        • Personalkosten
        • PROFI
        • Projektendberichte
        • Projektendberichtsumfrage
    • FAQ
      • Projektphase PROFI
      • Projektphase Ad personam
      • Auslaufende Programme
        • Elise Richter und Elise Richter PEEK
        • FWF-START-Preise
  • Zur Übersichtsseite Über uns

    • Leitbild
    • FWF-Film
    • Werte
    • Zahlen und Daten
    • Jahresbericht
    • Aufgaben und Aktivitäten
      • Forschungsförderung
        • Matching-Funds-Förderungen
      • Internationale Kooperationen
      • Studien und Publikationen
      • Chancengleichheit und Diversität
        • Ziele und Prinzipien
        • Maßnahmen
        • Bias-Sensibilisierung in der Begutachtung
        • Begriffe und Definitionen
        • Karriere in der Spitzenforschung
      • Open Science
        • Open-Access-Policy
          • Open-Access-Policy für begutachtete Publikationen
          • Open-Access-Policy für begutachtete Buchpublikationen
          • Open-Access-Policy für Forschungsdaten
        • Forschungsdatenmanagement
        • Citizen Science
        • Open-Science-Infrastrukturen
        • Open-Science-Förderung
      • Evaluierungen und Qualitätssicherung
      • Wissenschaftliche Integrität
      • Wissenschaftskommunikation
      • Philanthropie
      • Nachhaltigkeit
    • Geschichte
    • Gesetzliche Grundlagen
    • Organisation
      • Gremien
        • Präsidium
        • Aufsichtsrat
        • Delegiertenversammlung
        • Kuratorium
        • Jurys
      • Geschäftsstelle
    • Arbeiten im FWF
  • Zur Übersichtsseite Aktuelles

    • News
    • Presse
      • Logos
    • Eventkalender
      • Veranstaltung eintragen
      • FWF-Infoveranstaltungen
    • Jobbörse
      • Job eintragen
    • Newsletter
  • Entdecken, 
    worauf es
    ankommt.

    FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

    SOCIAL MEDIA

    • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
    • , externe URL, öffnet sich in einem neuen Fenster
    • Facebook, externe URL, öffnet sich in einem neuen Fenster
    • Instagram, externe URL, öffnet sich in einem neuen Fenster
    • YouTube, externe URL, öffnet sich in einem neuen Fenster

    SCILOG

    • Scilog — Das Wissenschaftsmagazin des Österreichischen Wissenschaftsfonds (FWF)
  • elane-Login, externe URL, öffnet sich in einem neuen Fenster
  • Scilog externe URL, öffnet sich in einem neuen Fenster
  • en Switch to English

  

Perzeptive Optimierung von Zeit-Frequenz-Repräsentationen von Audio-Signalen

Perceptual Optimization of Time-Frequency Audio Representations and Coding

Piotr Majdak (ORCID: 0000-0003-1511-6164)
  • Grant-DOI 10.55776/I1362
  • Förderprogramm Einzelprojekte International
  • Status beendet
  • Projektbeginn 01.03.2014
  • Projektende 31.10.2017
  • Bewilligungssumme 237.174 €
  • Projekt-Website

Bilaterale Ausschreibung: Frankreich

Wissenschaftsdisziplinen

Elektrotechnik, Elektronik, Informationstechnik (50%); Mathematik (20%); Psychologie (30%)

Keywords

    Auditory Masking, Efficiency, Time-Frequency Representations, Gabor, Audio Coding

Abstract Endbericht

Eine der grössten Herausforderungen in der Signalverarbeitung ist die Entwicklung einer effizienten Repräsentation. Eine effiziente Repräsentation extrahiert die relevante Information und beschreibt sie mit minimalem Datenaufwand. Bei der Verarbeitung von Audio-Signalen ist es oft erstrebenswert, dass eine effiziente Repräsentation die auditorische Wahrnehmung berücksichtigt und die Signalrekonstruktion ermöglicht. In den vergangenen Jahrzehnten wurde die auditorische Maskierung, eine wichtige Eigenschaft der auditorischen Wahrnehmung, in einer Vielzahl von psychoakustischen Studien undersucht. Die Maskierung beschreibt die Verschlechterung der Wahrnehmungsschwelle eines Signals in Anwesenheit eines anderen Signals. Die Ergebnisse führten zur Entwicklung von unabhängigen Modellen der spektralen und der zeitlichen Maskierung. Im Rahmen der Entwicklung von perzeptiven Audio-Kodierverfahren wurde versucht, die beiden Modelle einfach zu kombinieren, um die Zeit-Frequenz (Z-F) Maskierung zu berücksichtigen. Zur Überprüfung der Validität dieser einfachen Z-F Maskierungsmodelle führten die Antragsteller psychoakustische Studien zur Z-F Maskierung durch. Die zu erwartende Ungenauigkeit dieser Ansätze wurde deutlich bestätigt. Diese neuen Daten zur Z-F Maskierung stellen eine essentielle Basis für die Berücksichtigung von Maskierungseffekten in Z-F Repräsentationen von Audio-Signalen dar. Obwohl Z-F Represäsentationen Standardwerkzeuge in der Audio-Signalverarbietung sind, stellt die Entwicklung einer mathematisch fundierten, wahrnehmungsorientierten und perfekt rekonstruierbaren Z-F Repräsentation eine Herausforderung dar. Im Rahmen des POTION Projektes werden folgende primäre Fragestellungen untersucht: Inwieweit ist eine wahrnehmungsorientierte (d.h., möglichst entsprechend "Was ich sehe höre ich") und perfekt invertierbare Z-F Repräsentation erreichbar? Diese Problemstellung wird mittels mathematischer Methoden (Weiterentwicklung der nicht-stationären Gabor-Theorie) und psychoakustischer Methoden (Entwicklung von auf Hörexperimenten beruhenden Hörmodellen) untersucht. Eine die erwähnten Anforderungen erfüllende Z-F Repräsentation ist essentiell für die Modellierung komplexer Maskierungsinteraktionen in der Z-F Domäne und könnte zum verbesserten Verständnis der auditorischen Verarbeitung von komplexen realen Signalen beitragen. Darüberhinaus könnte sie von fundamentaler Bedeutung für zahlreiche auf Analyse-Synthese beruhenden Audio- Applikationen sein, wie zum Beispiel Kommunikationssysteme, virtuelle Akustik, oder Sound Design. Kann die Leistung von derzeitigen perzeptiven Audio-Kodierverfahren mittels eines vereinten Zeit-Frequenz Ansatzes verbessert werden? Zur Reduktion der digitalen Grösse eines Audio-Signals zerlegen derzeitige Kodierer (wie z.B. MP3) Signale in variable Zeitabschnitte und wenden, nach einer Frequenztransformation, spektrale Maskierungsmodelle unabhängig innerhalb der einzelnen Segmente an. Derzeitige Kodierer verfolgen daher einen spektralen Ansatz. Es wird die Hypothese getestet, dass die Kombination einer effizienten wahrnehmungsorientierten Z-F Repräsentation mit einem vereinten Zeit-Frequenz Maskierungsmodell die Kodierunsleistung von Audio-Kodierern signifikant verbessert. Die Untersuchung dieser Fragestellungen erfordert einen multidisziplinären Ansatz. Daher beruht POTION auf einem Konsortium vom Laboratoire de Mécanique et d`Acoustique (LMA, Frankreich) und dem Institut für Schallforschung (ARI, Österreich). Das LMA rekrutiert bringt internationale Experten in Signalverarbeitung für nicht-stationäre Signale, und Audio-Kodierung, während das ARI internationale Experten aus den Bereichen Mathematik, Z-F Analyse und Psychoakustik rekrutiert. Die Etablierung einer engen Zusammenarbeit zwischen den beiden Institutionen und den Disziplinen ermöglicht optimale Bedingungen zum Erreichen der Projektziele.

Das Ziel von POTION war die Entwicklung neuer Methoden zur effizienten Repräsentation von Audiosignalen. Die Kodierung von Audiosignalen hat oft das Ziel, die Dateigröße ohne hörbare Artefakte zu minimieren. Obwohl mathematische Werkzeuge eine starke Rolle spielen, ist die Berücksichtigung der Eigenschaften des menschlichen Gehörs in der Signalrepräsentation von Vorteil. POTION ist deshalb sowohl der Audiosignalverarbeitung in der Zeit- Frequenz-Domäne als auch neuen psychoakustischen Erkenntnissen über das menschliche Gehör nachgegangen.Zeit-Frequenz-Repräsentationen von Audiosignalen sind weit verbreitet, ihre zeitlichen und spektralen Eigenschaften hängen dabei von Algorithmen und deren Implementierung ab. Dennoch schafft keine der existierenden Zeit-Frequenz-Repräsentationen die vollständige Darstellung der Eigenschaften des Gehörs. In POTION hingegen wurde durch die Entwicklung von Audlet, einem Framework für neue Zeit-Frequenz-Repräsentationen, die menschliche Frequenzskala exakt abgebildet. Dieses Framework bietet eine konfigurierbare und effiziente Filterbank für Analyse und Synthese von Audiosignalen unter Verwendung verschiedener Frequenzskalen. Es ist für Audioanwendungen geeignet, die strikte Stabilität, perfekte Signalrekonstruktion sowie eine flexible Wahl der Signalredundanz in der Zeit-Frequenz-Repräsentation erfordern.Für die Entwicklung einer auditorisch-optimierten Zeit-Frequenz-Repräsentation mussten die Eigenschaften des Gehörs untersucht werden. Im Speziellen wurden Daten zur sogenannten auditorischen Maskierung gesammelt und dann in einem Maskierungsfilter implementiert. Dieser Filter kann nun verwendet werden, um die maskierten Audiokomponenten zu entfernen und nur die hörbaren Komponenten zu kodieren. Für die Sammlung dieser Daten mussten neue psychoakustische Methoden und Modelle zur Funktion des menschlichen Innenohrs entwickelt werden.Die Kombination der oben genannten Ergebnisse verbesserte die Leistung vorhandener Audiokodierungsalgorithmen. In einer angepassten Version der Audlet-Repräsentation wurde der neu entwickelte Maskierungsfilter integriert und auf die Audiokodierungsaufgabe zugeschnitten. Daraus entstand ERB-MDCT, ein Audiocodec für niedrige Bitraten (24 bis 48 kbps) und potentielle Herausforderung für die derzeitige Referenz (AAC HEv2) in Punkto Effizienz und Audioqualität.

Forschungsstätte(n)
  • Österreichische Akademie der Wissenschaften - 86%
  • Universität Wien - 14%
Nationale Projektbeteiligte
  • Martin Ehler, Universität Wien , assoziierte:r Forschungspartner:in
Internationale Projektbeteiligte
  • Olivier Derrien, Centre National de Recherche Scientifique (CNRS) - Frankreich

Research Output

  • 123 Zitationen
  • 7 Publikationen
Publikationen
  • 2017
    Titel Frame Theory for Signal Processing in Psychoacoustics
    DOI 10.1007/978-3-319-54711-4_10
    Typ Book Chapter
    Autor Balazs P
    Verlag Springer Nature
    Seiten 225-268
  • 2016
    Titel Auditory Time-Frequency Masking for Spectrally and Temporally Maximally-Compact Stimuli
    DOI 10.1371/journal.pone.0166937
    Typ Journal Article
    Autor Necciari T
    Journal PLOS ONE
    Link Publikation
  • 2018
    Titel Audlet Filter Banks: A Versatile Analysis/Synthesis Framework Using Auditory Frequency Scales
    DOI 10.3390/app8010096
    Typ Journal Article
    Autor Necciari T
    Journal Applied Sciences
    Seiten 96
    Link Publikation
  • 2016
    Titel The role of compression in the simultaneous masker phase effecta)
    DOI 10.1121/1.4964328
    Typ Journal Article
    Autor Tabuchi H
    Journal The Journal of the Acoustical Society of America
    Seiten 2680-2694
    Link Publikation
  • 2013
    Titel THE ERBLET TRANSFORM: AN AUDITORY-BASED TIME-FREQUENCY REPRESENTATION WITH PERFECT RECONSTRUCTION
    DOI 10.1109/icassp.2013.6637697
    Typ Conference Proceeding Abstract
    Autor Necciari T
    Seiten 498-502
  • 2015
    Titel A Quasi-Orthogonal, Invertible, and Perceptually Relevant Time-Frequency Transform for Audio Coding
    DOI 10.1109/eusipco.2015.7362493
    Typ Conference Proceeding Abstract
    Autor Derrien O
    Seiten 799-803
    Link Publikation
  • 2014
    Titel Perceptual Matching Pursuit with Gabor Dictionaries and Time-Frequency Masking
    DOI 10.1109/icassp.2014.6854171
    Typ Conference Proceeding Abstract
    Autor Chardon G
    Seiten 3102-3106

Entdecken, 
worauf es
ankommt.

Newsletter

FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

Kontakt

Österreichischer Wissenschaftsfonds FWF
Georg-Coch-Platz 2
(Eingang Wiesingerstraße 4)
1010 Wien

office(at)fwf.ac.at
+43 1 505 67 40

Allgemeines

  • Jobbörse
  • Arbeiten im FWF
  • Presse
  • Philanthropie
  • scilog
  • Geschäftsstelle
  • Social Media Directory
  • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
  • , externe URL, öffnet sich in einem neuen Fenster
  • Facebook, externe URL, öffnet sich in einem neuen Fenster
  • Instagram, externe URL, öffnet sich in einem neuen Fenster
  • YouTube, externe URL, öffnet sich in einem neuen Fenster
  • Cookies
  • Hinweisgeber:innensystem
  • Barrierefreiheitserklärung
  • Datenschutz
  • Impressum
  • IFG-Formular
  • Social Media Directory
  • © Österreichischer Wissenschaftsfonds FWF
© Österreichischer Wissenschaftsfonds FWF