BIG VOICE DATA – eine umfassende Stimm-Analyse
Big Voice Data
Weave: Österreich - Belgien - Deutschland - Luxemburg - Polen - Schweiz - Slowenien - Tschechien
Wissenschaftsdisziplinen
Informatik (30%); Klinische Medizin (10%); Kunstwissenschaften (40%); Physik, Astronomie (20%)
Keywords
-
Voice,
Vocal Fold Vibration,
High-Speed Video,
Laryngeal Endoscopy,
Singing,
Machine Learning
Die Stimme ist ein wichtiges Mittel der menschlichen Kommunikation. Sie spielt eine zentrale Rolle in unserem sozialen Miteinander, ist ein entscheidendes Werkzeug in vielen Berufen und dient als künstlerisches Ausdrucksmittel. Aus medizinischer wie pädagogischer Sicht ist es deshalb wichtig, den Prozess der Stimmproduktion genau zu verstehen. Die Grundsätze sind bekannt: Die Atemluft strömt durch die Luftröhre und bringt die Stimmlippen (umgangssprachlich Stimmbänder) im Kehlkopf in Schwingung, und zwar je nach Art der Stimmgebung zwischen 50 und weit über 1000 Mal pro Sekunde. Dabei entsteht der primäre Stimmklang, welcher im Rachen und in der Mundhöhle noch weiter akustisch verändert wird. Es gibt also einen direkten Zusammenhang zwischen der Art der Stimmlippenschwingung und der Qualität der hörbaren Stimme. Diese Erkenntnis ist besonders für die Stimmheilkunde von Bedeutung: Eine heisere oder erkrankte Stimme ist oft das Ergebnis einer gestörten Stimmlippenschwingung. Obwohl bereits viele Erkenntnisse über die Stimmproduktion vorliegen, gibt es noch wesentliche offene Fragen. Bisherige Forschungsarbeiten sind durch einige Herausforderungen und technische Einschränkungen begrenzt: (1) Untersucht wird oft lediglich die mittlere Sprechstimmlage. Andere Stimmlagen, die für das Singen, Rufen sowie die nonverbale Kommunikation wichtig sind, sind deutlich weniger erforscht. (2) Weil die Stimmlippen mehrere hundert Mal pro Sekunde schwingen, sind spezielle Hochgeschwindigkeitskameras erforderlich, um deren Schwingung ausreichend gut dokumentieren zu können. Dies erzeugt aber mehrere tausend Bilder pro Sekunde und verursacht daher extrem hohe Datenmengen, die mit Computern vollautomatisch analysiert werden müssen. Dies erfordert leistungsstarke Verfahren aus dem Bereich der künstlichen Intelligenz, die erst in den letzten Jahren zur Verfügung stehen. (3) Aufgrund des hohen technischen Aufwands beziehen sich viele Studien nur auf eine kleine Gruppe von Proband_innen. Systematische Untersuchungen mit Hochgeschwindigkeitskameras an einer größeren Anzahl von Personen fehlen bisher. Das derzeitige Verständnis der menschlichen Stimmproduktion ist daher unvollständig, was eine empfindliche Einschränkung aktueller stimmpädagogischer und medizinischer Ansätze darstellt. Genau hier setzt das aktuelle, an der Universität Mozarteum Salzburg und der Hochschule Trier durchgeführten Projekt an, um bestehende Forschungslücken zu schließen. Mithilfe modernster Hochgeschwindigkeits-Endoskopie wird der gesamte Stimmumfang einer größeren Gruppe von Personen untersucht. Speziell für dieses Projekt entwickelte KI-gestützte Algorithmen ermöglichen eine umfassende Analyse des Zusammenhangs zwischen Stimmlippenschwingung und Stimmklang. Nach Abschluss des Projekts werden alle gewonnenen Daten als Open-Source-Datensatz veröffentlicht, sodass die wissenschaftliche Gemeinschaft weltweit darauf zugreifen und weiterführende Forschung betreiben kann.
- Julia Rechenmacher-Strauß, Phoniatrie Salzburg , nationale:r Kooperationspartner:in
- Jörg Loscheller, Fachhochschule Trier - Deutschland