Probabilistische Graphische Modelle für Mischungen von Signalen
Probabilistic Graphical Models for Time-Series Signal Mixtures
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
-
Bayesian Networks,
Discriminative Learning,
Factorial Hidden Markov Models,
Single Chaannel Source Separation,
Multipitch Tracking
Robustheit gegen Echo, Rauschen und überlagerte Störsignale gilt als eine der großen Herausforderungen in der Spracherkennungs- und Audioanalysetechnologie. Eine Möglichkeit zur Bewältigung dieser Herausforderung ist einkanalige Quellentrennung. In den letzten Jahren etablierten sich faktorielle Hidden-Markov-Modelle in Kombination mit einem Sprecherinteraktionsmodell für die Extraktion relevanter Quellen aus einer Signalmischung. Solche Modelle erzielten in Methodenvergleichen für einkanalige Sprecherseparierung und Spracherkennung sogar bessere Erkennungsraten als menschliche Hörer/innen. Mit Hilfe dieser Modelle ist es möglich, multiple, sich überlagernde akustische Signale nachzubilden. Dieses Vorgehen liefert hervorragende Ergebnisse für vordefinierte Szenarien, es bestehen aber noch erhebliche Schwierigkeiten für eine breite Anwendung in realen Umgebungen. Ziel der beabsichtigten Forschungsaktivitäten in diesem Projekt ist es, die bekannten Modelle in mehrfacher Hinsicht zu erweitern: (i) Einführung von diskriminativen Lernverfahren; dies hat den Vorteil, dass die Modelle nicht generativ gelernt werden, sondern die Unterschiedlichkeit der interagierenden Quellen betont wird. (ii) Entwicklung von effizienten Inferenzmethoden basierend auf Lagrange-Relaxation. Exakte Inferenz in faktoriellen Hidden-Markov-Modellen skaliert exponentiell mit der Anzahl der vorhandenen Quellen in der Signalmischung. (iii) In der Regel sind quellenspezifische einkanalige Daten erforderlich, um ein Modell zu lernen. Ein Teil des Projekts beschäftigt sich mit der Adaption der Modellparameter ausgehend von einem generisch spezifizierten Modell, wobei ausschließlich Signalmischungen zur Adaption verwendet werden. Der Ansatz besteht darin, in einem iterativen Algorithmus die Parameter mit Hilfe der Maximum-Likelihood linearen Regressionsmethode zu adaptieren. Die entwickelten Methoden werden für einkanalige Sprecherseparierung, Verfolgung der Grundfrequenz von mehreren Sprechern, und für klassische Klassifikationsszenarien eingesetzt. Sie sind jedoch auch für verwandte Anwendungsgebiete attraktiv, insbesondere dort, wo eine Trennung von Signalmischungen erforderlich ist.
Robustheit gegen Echo, Rauschen und überlagerte Störsignale gilt als eine der großen Herausforderungen in der Spracherkennungs- und Audioanalysetechnologie. Eine Möglichkeit zur Bewältigung dieser Herausforderung ist einkanalige Quellentrennung. In den letzten Jahren etablierten sich faktorielle Hidden-Markov-Modelle in Kombination mit einem Sprecherinteraktionsmodell für die Extraktion relevanter Quellen aus einer Signalmischung. Solche Modelle erzielten in Methodenvergleichen für einkanalige Sprecherseparierung und Spracherkennung sogar bessere Erkennungsraten als menschliche Hörer/innen. Mit Hilfe dieser Modelle ist es möglich, multiple, sich überlagernde akustische Signale nachzubilden. Dieses Vorgehen liefert hervorragende Ergebnisse für vordefinierte Szenarien, es bestehen aber noch erhebliche Schwierigkeiten für eine breite Anwendung in realen Umgebungen. In diesem Projekt wurden Adaptionsmechanismen für diese Modelle zur Trennung von Signalmischungen entwickelt. Weiters wurden neue Lernverfahren entwickelt, um die Genauigkeit der Signaltrennung zu verbessern und deren Effizienz zu erhöhen. Diese Methoden zur Signalverbesserung sind wichtig in den verschiedensten Telekommunikationsanwendungen. Die Verbesserung der Sprachverständlichkeit und der Sprachsignalqualität ist seit Jahrzehnten ein aktives Forschungsgebiet.
- Technische Universität Graz - 100%
- Yannis Stylianou, University of Crete - Griechenland
- Jeff Bilmes, University of Washington - Vereinigte Staaten von Amerika
Research Output
- 211 Zitationen
- 24 Publikationen
-
2013
Titel Greedy Part-Wise Learning of Sum-Product Networks DOI 10.1007/978-3-642-40991-2_39 Typ Book Chapter Autor Peharz R Verlag Springer Nature Seiten 612-627 -
2013
Titel Model-Based Multiple Pitch Tracking Using Factorial HMMs: Model Adaptation and Inference DOI 10.1109/tasl.2013.2260744 Typ Journal Article Autor Wohlmayr M Journal IEEE Transactions on Audio, Speech, and Language Processing Seiten 1742-1754 -
2016
Titel On the Latent Variable Interpretation in Sum-Product Networks DOI 10.1109/tpami.2016.2618381 Typ Journal Article Autor Peharz R Journal IEEE Transactions on Pattern Analysis and Machine Intelligence Seiten 2030-2044 Link Publikation -
2016
Titel On the Latent Variable Interpretation in Sum-Product Networks DOI 10.48550/arxiv.1601.06180 Typ Preprint Autor Peharz R -
2015
Titel Generatively Optimized Bayesian Network Classifiers Under Computational Constraints. Typ Conference Proceeding Abstract Autor Pernkopf F Konferenz International Conference on Machine Learning (ICML), Workshop on Resource-Efficient Machine Learning, 2015 -
2015
Titel Message Scheduling Methods for Belief Propagation DOI 10.1007/978-3-319-23525-7_18 Typ Book Chapter Autor Knoll C Verlag Springer Nature Seiten 295-310 -
2015
Titel Representation Models in Single Channel Source Separation DOI 10.1109/icassp.2015.7178062 Typ Conference Proceeding Abstract Autor Zöhrer M Seiten 713-717 -
2016
Titel Maximum margin hidden Markov models for sequence classification DOI 10.1016/j.patrec.2016.03.017 Typ Journal Article Autor Mutsam N Journal Pattern Recognition Letters Seiten 14-20 -
2018
Titel Sum-Product Networks for Sequence Labeling DOI 10.48550/arxiv.1807.02324 Typ Preprint Autor Ratajczak M -
2014
Titel Context-Specific Deep Conditional Random Fields for Structured Prediction. Typ Conference Proceeding Abstract Autor Pernkopf F Et Al Konferenz International Conference on Machine Learning (ICML), Workshop on Learning Tractable Probabilistic Models, 2014 -
2014
Titel Integer Bayesian Network Classifiers DOI 10.1007/978-3-662-44845-8_14 Typ Book Chapter Autor Tschiatschek S Verlag Springer Nature Seiten 209-224 -
2014
Titel General Stochastic Networks for Classification. Typ Conference Proceeding Abstract Autor Pernkopf F Konferenz Neural Information Processing Systems (NIPS) -
2014
Titel Single-Channel Source Separation with General Stochastic Networks. Typ Conference Proceeding Abstract Autor Pernkopf F Konferenz Interspeech, 2014 -
2014
Titel Modeling Speech with SUM-Product Networks: Application to Bandwidth Extension DOI 10.1109/icassp.2014.6854292 Typ Conference Proceeding Abstract Autor Peharz R Seiten 3699-3703 -
2015
Titel On Representation Learning for Artificial Bandwidth Extension. Typ Conference Proceeding Abstract Autor Pernkopf F Et Al Konferenz Interspeech 2015 -
2015
Titel Learning of Bayesian Network Classifiers Under Computational Constraints. Typ Journal Article Autor Pernkopf F -
2015
Titel Structured Regularizer for Neural Higher-Order Sequence Models DOI 10.1007/978-3-319-23528-8_11 Typ Book Chapter Autor Ratajczak M Verlag Springer Nature Seiten 168-183 -
2015
Titel Representation Learning for Single-Channel Source Separation and Bandwidth Extension DOI 10.1109/taslp.2015.2470560 Typ Journal Article Autor Zöhrer M Journal IEEE/ACM Transactions on Audio, Speech, and Language Processing Seiten 2398-2409 -
2015
Titel On Bayesian Network Classifiers with Reduced Precision Parameters DOI 10.1109/tpami.2014.2353620 Typ Journal Article Autor Tschiatschek S Journal IEEE Transactions on Pattern Analysis and Machine Intelligence Seiten 774-785 -
2013
Titel MODEL ADAPTATION OF FACTORIAL HMMS FOR MULTIPITCH TRACKING DOI 10.1109/icassp.2013.6638977 Typ Conference Proceeding Abstract Autor Wohlmayr M Seiten 6792-6796 -
2015
Titel Parameter Learning of Bayesian Network Classifiers Under Computational Constraints DOI 10.1007/978-3-319-23528-8_6 Typ Book Chapter Autor Tschiatschek S Verlag Springer Nature Seiten 86-101 Link Publikation -
2015
Titel On theoretical properties of sum-product Networks. Typ Conference Proceeding Abstract Autor Doningos P Et Al Konferenz Proceedings of the 18th International Conference on Artificial Intelligence and Statistics (AISTATS -
2015
Titel Neural Higher-Order Factors in Conditional Random Fields for Phoneme Classification. Typ Conference Proceeding Abstract Autor Pernkopf F Et Al Konferenz Interspeech, 2015 -
2014
Titel On Self-Adaptation in Single-Channel Source Separation. Typ Conference Proceeding Abstract Autor Pernkopf F Konferenz Interspeech, 2014