Obugrische Datenbank: Textcorpora und Wörterbücher
Obugrian Database: Text Corpora and Dictionaries
DACH: Österreich - Deutschland - Schweiz
Wissenschaftsdisziplinen
Sprach- und Literaturwissenschaften (100%)
Keywords
-
Endangered Finno-Ugric Languages,
Morphological and Syntactic Analysis,
Ob-Ugric Languages and Dialects,
Concordance Dictionaries,
Text Corpus,
Information Portal
Ziel dieses gemeinsamen Projekts der Universitäten München und Wien (DFG-FWF) ist es, umfassende Datenbanken für nicht- oder nicht adäquat beschriebene Dialekte der zwei obugrischen Sprachen (Chantisch/Mansisch) zu schaffen. Die geplanten Module umfassen das ausgestorbene Westmansische und das Jugan-Chantische und werden die schon vorhandenen Ressourcen im Rahmen des ESF EuroBABEL-Projektes ergänzen, welches Materialien aus dem Kazym- und Surgut-Chantischen sowie dem Nordmansischen und teilweise dem Ostmansischen beinhaltet. Die Module werden alle vorhandenen Quellen des Pelym- Subdialektes des (West-)Mansischen sowie Texte und Feldforschungsmaterialien des Jugan- Chantischen berücksichtigen. Da die vorhandenen Texte in verschiedenen Transkriptionen veröffentlicht wurden, müssen sie zuerst phonologisch analysiert und ins IPA transliteriert werden. Das Textcorpus wird ins Englische, teilweise auch ins Deutsche übersetzt werden und vollständig morphologisch glossiert (FLEx). Somit werden auch lexematische und morphematische Wörterbücher für die jeweiligen Dialekte mit einer Konkordanzfunktion erstellt. Das Corpus wird überdies mit syntaktischen Annotationen versehen werden. Auf der Grundlage der allomorphischen Analyse werden Paradigmen und Position-Slot-Modelle für die Wortarten geschrieben, die neuartige grammatikalische Beschreibungsmöglichkeiten ermöglichen werden. In Wien konzentriert sich die Arbeit auf das Westmansische, vertreten durch den westmansischen Subdialekt, das Pelym-Mansische. Bilinguale Wörterbücher für diese Dialekte werden auch die Basis des obugrischen onomaseologischen Wörterbuches erweitern; zwecks etymologischer Informationen werden die Lemmata mit der Uralonet- Datenbank verlinkt werden. Ein weiteres Ziel ist der gemeinsame Nutzen der Daten mit dem Language Archive des Max-Planck-Instituts für Psycholinguistik (Nijmegen/Niederlande).
Dieses internationale Forschungsprojekt war ein gemeinsames DFG/FWF Projekt der Universität Wien und der Ludwig-Maximilians-Universität München von Juli 2014 bis Juni 2017. In diesem Projekt wurden die zwei ob-ugrischen Sprachen Mansisch (vor allem in Wien), und Chantisch (ausschließlich in München) bearbeitet. Die Sprecher der mansischen Sprache sind ein Minderheitenvolk in der russischen Föderation, sie leben in Nordwest-Sibirien. Nach der letzten Volkszählung 2010 beläuft sich ihre Zahl auf 12.269, von denen jedoch nur ein Teil Mansisch auch als Muttersprache spricht. Es gliedert sich in mehrere Dialektgruppen, von denen die meisten bereits ausgestorben sind. Die Aufgabe des Wiener Teams war die Erstellung und Aufarbeitung eines Korpus des Westmansischen. Dieser Sprachzweig, der ebenfalls ausgestorben ist, hatte fünf Dialekte. Obwohl die Finno-Ugristik über zwei große Textsammlungen verfügt, die auch westmansisches Material beinhalten, wurde diesen Dialekten bis jetzt eher wenig Aufmerksamkeit geschenkt. Die zwei Folkloresammlungen enthalten Texte zu vier der fünf Westdialekte im unterschiedlichen Ausmaß. Zu Beginn des Projektes ist das Team von einem Dialekt, dem Pelym-Dialekt ausgegangen, bis Beendigung der Arbeit konnten jedoch sämtliche Dialekte in den Sammlungen bearbeitet werden. Somit wurden alle Texte nach IPA (Internationales Phonetisches Alphabet) transkribiert, digitalisiert, morphologisch analysiert (mit einem für linguistische Zwecke entwickelten Software), und ins Englische übersetzt. Zu den problematischen u/o unsicheren Textstellen wurden Anmerkungen angefertigt, und ein Korpus basiertes Lexikon entstand ebenfalls. Zu jenen drei Westdialekten, die in den Textsammlungen repräsentativ genug vertreten waren, wurden anhand der Analyse ausführliche Grammatiken angefertigt. Der westmansische Zweig wurde in diesem Umfang das erste Mal überhaupt bearbeitet, 106 Texte aus vier Dialekten wurden analysiert und nach den oben genannten Kriterien aufgearbeitet. Durch diese Arbeit entstanden aus der Hand des Wiener Teams eine Dissertation und eine Masterarbeit, die zeitgleich mit dem Ende des Projektes eingereicht wurden.Für die technische Umsetzung war die Universität München zuständig, daher wurde dieser Schritt von dem dortigen Team zur Gänze übernommen und abgewickelt. Auf der Projekthomepage wurden die Ergebnisse der Öffentlichkeit zugänglich gemacht.
- Universität Wien - 100%
- Elena Skribnik, Ludwig Maximilians-Universität München - Deutschland