Objektive Differenzierung verschiedener Heiserkeitsformen
Objective differentiation of dysphonic voice quality types
Wissenschaftsdisziplinen
Elektrotechnik, Elektronik, Informationstechnik (60%); Klinische Medizin (40%)
Keywords
-
Voice disorders,
Dysphonia,
Voice assessment,
Laryngeal high-speed videos,
Speech processing,
Acoustics
Stimmerkrankungen sind noch nicht zur Gänze erforscht, was zum Teil daran liegt, dass die gängigen klinischen Untersuchungsmethoden limitiert sind. Ziel des Forschungsprojektes Objektive Differenzierung verschiedener Heiserkeitsformen ist die Entwicklung von computerisierten Detektoren, die Stimmprobleme aus Mikrofonaufnahmen menschlicher Stimmen erkennen. KehlkopfvideosundMikrofonaufnahmenwerdenvon230 PatientInnenmit Stimmerkrankungen gemacht. Eine Superzeitlupe mit 4000 Bildern pro Sekunde wird verwendet, um die schnellen Stimmlippenschwingungen zu filmen. Um Unregelmäßigkeiten sichtbar zu machen, wird ein 2-sekündiges Video in der Wiedergabe auf über 5 Minuten verlangsamt. Die Forscher ermitteln systematische Zusammenhänge zwischen der Stimmlippenschwingung und dem Stimmklang. Drei Stimmklangphänomene werden erforscht. Der sogenannte vocal fry ist ein Stimmklang mit extrem tiefer Grundfrequenz, welcher mit dem Strohbass-Gesangsregister vergleichbar ist. Unter Umständen ist es bei vocal fry möglich, einzelne Pulse der Stimmlippen zu hören. Zweitens werden Stimmklänge mit Extrapulsen untersucht. Neben dem vocal fry werden auch Extrapulse im Stimmklang erforscht. Diese sind vergleichbar mit kardiologischen Extrasystolen, bei welchen das Herz von Zeit zu Zeit stolpert. Häufig auftretende Extrapulse können kratzig klingen und ein Anzeichen einer Stimmerkrankung sein. Das dritte Stimmklangphänomen ist durchPhasendifferenzeninderStimmlippenschwingung charakterisiert, und tritt bei Stimmerkrankungen häufig auf. Um Phasendifferenzen zu verstehen, kann man versuchen zwei Basketbälle gleichzeitig mit der linken und der rechten Hand auf den Boden zu prellen. Die Bälle werden den Boden fast nie exakt zur gleichen Zeit berühren, weshalb meist zwei Prell-Geräusche pro Zyklus hörbar sind. Derartige Timing-Differenzen können auch bei der Stimmlippenschwingung vor. Dabei geraten die linke und der rechte Stimmlippe aus dem Takt, was ein Anzeichen einer Stimmerkrankung ist. Interessanterweise sind aber die Stimmlippen anders als die Basketbälle nicht separat hörbar, sondern der Stimmklang ist eher rumpelnd. Dies liegt vor allem daran, dass die Frequenz der Stimmlippen viel höher ist, als jene von Basketbällen. ImRahmendiesesForschungsprojekteswirdder Zusammenhangvon Stimmlippenschwingung und Stimmklang in vielerlei Hinsicht erforscht. Es werden Methoden der Computer-basierte Wissenschaft angewandt, und mit Patientendaten entwickelt und getestet. Zudem werdenExperimente zurauditivenWahrnehmung durchgeführt. Die Ergebnisse dieses Forschungsprojektes werden unmittelbarzur Verbesserung derMethodik derklinischen Stimmklangbeurteilung bei Stimmerkrankungen eingesetzt.
Verbale Kommunikation ist eine der bedeutendsten menschlichen Errungenschaften und hängt von der korrekten Funktion des Kehlkopfes ab, insbesondere von der Vibration der Stimmlippen. Diese Vibration verleiht der Stimme ihren Klang, ähnlich wie eine schwingende Saite einer Gitarre ihren Klang verleiht. Stimmstörungen können diese normale Vibration stören und das Sprechen erschweren. Kliniker verwenden Kameras, um die Stimmlippen der Patienten zu untersuchen, und achten auf die Nuancen des Stimmklanges. Da die Stimmlippen jedoch schnell vibrieren, sind sie schwer zu sehen, und sowohl visuelle als auch auditive Bewertungen sind subjektiv. Dieses Projekt zielte darauf ab, diese Herausforderungen durch innovative Technologien und Methoden zu bewältigen. Die innovativen Techniken und bedeutenden Erkenntnisse sind folgende. Erstens wurden Hochgeschwindigkeitskameras verwendet, um Aufnahmen um den Faktor 160 zu verlangsamen. Dies ermöglichte die detaillierte Beobachtung von Vibrationsmerkmalen, welche ansonsten übersehen werden. Zweitens wurden Mikrofonaufnahmen analysiert um zu lernen, wie der Stimmklang von den Vibrationen abhängt. Dies führte zu einem besseren Verständnis davon, wie die Eigenschaften der Vibration den Klang bestimmen. Drittens umfasste das Projekt Simulationen von Stimmlippenvibrationen und dem Hörprozess, mit dem Zweck zentrale Merkmale von gestörten Stimmklängen zu quantifizieren. Schließlich nutzte das Projekt künstliche Intelligenz und maschinelles Lernen (AIML). Insbesondere wurden jüngste Fortschritte in der Sprachtechnologie (z.B. Siri, Alexa) adaptiert, um noch realistischere Simulationen pathologischer Stimmen zu erstellen. Weiters wurde das menschliche Sehen imitierende AIML verwendet um Videoanalysen zu automatisieren. Dies reduzierte den Bedarf an manueller Durchsicht der Videos und erleichtert damit die Implementierung der Videotechnologie in klinischen Umgebungen. Es wurden einige spezifischen Stimmtypen untersucht. Erstens ist Diplophonie ein Zustand, bei dem verschiedene Regionen der Stimmlippen unterschiedlich schnell vibrieren und eine "Doppelstimme" verursachen. Es wurde Software entwickelt, um die Häufigkeit dieses Phänomens für bestimmte Sprecher:innen objektiv zu messen. Zweitens sind Vocal Fry bzw. eine knarrende Stimme ("creak") durch getrennte wahrnehmbare Stimmimpulse gekennzeichnet, die mit den Geräuschen einer Bratpfanne ("frying pan"), einer knarrenden Tür ("creaky door") oder beim Machen von Popkorn ("popcorning") vergleichbar sind. Es konnte gezeigt werden, dass solche Stimmen entweder eine niedrige Vibrationsrate haben oder andere Störungen, welche lediglich die Illusion getrennter Stimmimpulse erzeugen. Drittens wurden Timing-Unterschiede zwischen Stimmlippenregionen untersucht, sowie Extrapulse, welche den Extrasystolen bei Herzschlägen ähneln. Zusammenfassend hat diese Forschung unser Verständnis der Mechanik der Stimmlippen und der Stimmwahrnehmung erheblich verbessert. Durch die Kombination von Hochgeschwindigkeitsvideotechnologie, Computersimulationen und KI werden zentrale Herausforderungen bei der Diagnose und Behandlung von Stimmstörungen angegangen. Die Ergebnisse haben das Potenzial, die klinische Praxis zu revolutionieren, indem sie genauere und zuverlässigere Diagnosen durch "digital twinning" und "decision support" ermöglichen, was letztendlich zu besseren Behandlungsergebnissen und einer verbesserten Lebensqualität für Menschen mit Stimmproblemen führt.
Research Output
- 21 Zitationen
- 29 Publikationen
- 2 Methoden & Materialien
- 6 Wissenschaftliche Auszeichnungen
-
2024
Titel Auditory perception of impulsiveness and tonality in vocal fry DOI 10.61782/fa.2023.0426 Typ Conference Proceeding Abstract Autor Devaraj V Seiten 4719-4724 -
2021
Titel Modelling of Amplitude Modulated Vocal Fry Glottal Area Waveforms Using an Analysis-by-Synthesis Approach DOI 10.3390/app11051990 Typ Journal Article Autor Devaraj V Journal Applied Sciences Seiten 1990 Link Publikation -
2021
Titel Fitting synthetic to clinical kymographic images for deriving kinematic vocal fold parameters: Application to left-right vibratory phase differences DOI 10.1016/j.bspc.2020.102253 Typ Journal Article Autor Bulusu S Journal Biomedical Signal Processing and Control Seiten 102253 Link Publikation -
2021
Titel Modelling sagittal and vertical phase differences in a lumped and distributed elements vocal fold model DOI 10.1016/j.bspc.2020.102309 Typ Journal Article Autor Drioli C Journal Biomedical Signal Processing and Control Seiten 102309 Link Publikation -
2021
Titel Synthesis and Analysis-By-Synthesis of Modulated Diplophonic Glottal Area Waveforms DOI 10.1109/taslp.2021.3053387 Typ Journal Article Autor Aichinger P Journal IEEE/ACM Transactions on Audio, Speech, and Language Processing Seiten 914-926 Link Publikation -
2019
Titel Detection of extra pulses in synthesized glottal area waveforms of dysphonic voices DOI 10.1016/j.bspc.2019.01.007 Typ Journal Article Autor Aichinger P Journal Biomedical Signal Processing and Control Seiten 158-167 Link Publikation -
2019
Titel Analysis and Synthesis of Vocal Flutter and Vocal Jitter DOI 10.21437/interspeech.2019-1998 Typ Conference Proceeding Abstract Autor Schoentgen J Seiten 2518-2522 -
2024
Titel Deep Learning-Based Detection of Glottis Segmentation Failures. DOI 10.3390/bioengineering11050443 Typ Journal Article Autor Aichinger P Journal Bioengineering (Basel, Switzerland) -
2018
Titel Detection of Diplophonation in Audio Recordings of German Standard Text Readings DOI 10.1016/j.jvoice.2018.06.009 Typ Journal Article Autor Aichinger P Journal Journal of Voice -
2019
Titel Tracking of multiple fundamental frequencies in standard text readings of diplophonic speakers Typ Conference Proceeding Abstract Autor Aichinger P Konferenz International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications Seiten 125-128 Link Publikation -
2019
Titel Perturbation of cycle lengths and cycle peak amplitudes in diplophonic voices Typ Conference Proceeding Abstract Autor Aichinger P Konferenz International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications Seiten 121-124 Link Publikation -
2019
Titel A glottal area waveform model for multi-pulsed vocal fry Typ Conference Proceeding Abstract Autor Aichinger P Konferenz International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications Seiten 133-136 Link Publikation -
2019
Titel Extracting kinematic vocal fold parameters from videokymograms via simulation of clinical data Typ Conference Proceeding Abstract Autor Bulusu S Konferenz International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications Seiten 141-144 Link Publikation -
2019
Titel Modelling longitudinal phase differences in a lumped and distributed elements vocal fold model Typ Conference Proceeding Abstract Autor Aichinger P Konferenz International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications Seiten 137-140 Link Publikation -
2019
Titel Analysis and synthesis of vocal flutter and vocal jitter Typ Conference Proceeding Abstract Autor Aichinger P Konferenz Annual Conference of the International Speech Communication Association, INTERSPEECH Seiten 2518-2522 -
2019
Titel Aerodynamics and Lumped-Masses Combined with Delay Lines for Modeling Vertical and Anterior-Posterior Phase Differences in Pathological Vocal Fold Vibration Typ Conference Proceeding Abstract Autor Aichinger P Konferenz Annual Conference of the International Speech Communication Association, INTERSPEECH Seiten 2503-2507 -
2019
Titel Characterization of turbulence noise in breathy human phonation Typ Conference Proceeding Abstract Autor Aichinger P Konferenz ICA 2019 and EAA Euroregio Seiten 3139-3146 -
2021
Titel Neural network based estimation of vocal fold kinematic parameters from digital videokymograms Typ Conference Proceeding Abstract Autor Bulusu S Konferenz Advances in Quantitative Laryngology, Voice and Speech Research (AQL) -
2021
Titel Artificial high-speed videos of normal and dysphonic vocal fold vibration Typ Conference Proceeding Abstract Autor Aichinger P Konferenz International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications Seiten 93-96 Link Publikation -
2019
Titel Characterization of turbulence noise in breathy human phonation DOI 10.18154/rwth-conv-239381 Typ Other Autor Aichinger P Link Publikation -
2022
Titel A Modelling Study on the Comparison of Predicted Auditory Nerve Firing Rates for the Personalized Indication of Cochlear Implantation DOI 10.3390/app12105168 Typ Journal Article Autor Aichinger P Journal Applied Sciences Seiten 5168 Link Publikation -
2022
Titel Simulated Laryngeal High-Speed Videos for the Study of Normal and Dysphonic Vocal Fold Vibration. DOI 10.1044/2022_jslhr-21-00673 Typ Journal Article Autor Aichinger P Journal Journal of speech, language, and hearing research : JSLHR Seiten 2431-2445 Link Publikation -
2021
Titel Fitting a biomechanical model of the folds to oscillatory patterns with AP and LR asymmetries observed in high speed video data Typ Conference Proceeding Abstract Autor Aichinger P Konferenz International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications Seiten 89-92 Link Publikation -
2021
Titel Objective detection of amplitude modulation in glottal area waveforms Typ Conference Proceeding Abstract Autor Aichinger P Konferenz International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications Seiten 15-18 Link Publikation -
2023
Titel Performance evaluation of 3D neural networks applied to high-speed videos for glottis segmentation in difficult cases Typ Conference Proceeding Abstract Autor Aichinger P Konferenz International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications Seiten 87-90 Link Publikation -
2023
Titel Sinusoidal Modelling of Vocal Fold Medial Surface Vibration Trajectories Typ Conference Proceeding Abstract Autor Aichinger P Konferenz Conference on Advances in Quantitative Laryngology, Voice and Speech Research (AQL) -
2023
Titel Kinematics of Vocal Fold Vibration in Double-Pulsed Phonation Typ Conference Proceeding Abstract Autor Aichinger P Konferenz Annual Symposium of the Voice Foundation -
2023
Titel Biomechanics and acoustics of voice production Typ PhD Thesis Autor Lehoux, Sarah -
2023
Titel Auditory Perception of Impulsiveness and Tonality in Vocal Fry DOI 10.3390/app13074186 Typ Journal Article Autor Devaraj V Journal Applied Sciences
-
2022
Titel Synthesizer for videos of vocal fold vibration Typ Model of mechanisms or symptoms - human Öffentlich zugänglich -
2019
Titel Diplophonia rate (DR) extractor Typ Physiological assessment or outcome measure Öffentlich zugänglich
-
2023
Titel Becoming Ap.Professor Typ Honorary Degree Bekanntheitsgrad Regional (any country) -
2023
Titel Senior member of IEEE Typ Awarded honorary membership, or a fellowship, of a learned society Bekanntheitsgrad Continental/International -
2023
Titel Associate Editor for IEEE/ACM Transactions on Audio Speech and Language Processing Typ Appointed as the editor/advisor to a journal or book series Bekanntheitsgrad Continental/International -
2022
Titel Sarah Lehoux visited the lab for one week 2022 Typ Attracted visiting staff or user to your research group Bekanntheitsgrad Continental/International -
2022
Titel Guest editor for Biomedical Signal Processing and Control Typ Appointed as the editor/advisor to a journal or book series Bekanntheitsgrad Continental/International -
2018
Titel Attracted Jean Schoentgen to temporally join the lab in Vienna Typ Attracted visiting staff or user to your research group Bekanntheitsgrad Continental/International