Algebraische Methoden zur Rekonstruktion von Spezies-Bäumen
Algebraic methods for reconstruction of species-phylogenies
Wissenschaftsdisziplinen
Biologie (40%); Informatik (20%); Mathematik (40%)
Keywords
-
Phylogenetic trees,
Gene tree invariants,
Species trees,
Clade invariants,
Multispecies coalescent model,
Deep coalescences
In den vergangenen Jahren wurden verschiedenste Methoden entwickelt, um aus einer Menge von inkongruenten Genstammbäumen für eine gegebene Menge von Taxa einen `Speziesstammbaum` zu berechnen. Um nur einige wenige zu nennen, welche in unserem Zusammenhang von Bedeutung sind: Rooted triple consensus (Ewing et al.), pseudo-Maximum-Likelihood (Liu et al.) und "Minimierung tiefer Koaleszenzen" ("MDC", Maddison). Insbesondere ist bisher kein echter Maximum-Likelihood Ansatz zur Lösung dieses Problems bekannt. Das erste Ziel meines Projekts ist es, mit algebraischen und geometrischen Methoden die algebraisch-statistischen Modelle zu verstehen, die die Wahrscheinlichkeiten für einzelne Genbäume (mit oder ohne ausgezeichnete Wurzel), bzw. für monophyletische Gruppen, unter Annahme eines Multispezies-Koaleszentenmodells auf einem gegebenen Speziesbaum beschreiben. Diese Modelle sind algebraische Varietäten, und es stellt sich damit die Frage nach den definierenden Gleichungen - den sog. Invarianten der Modelle. Erste Ergebnisse in diese Richtung wurden von Allman et al. erzielt, die Teilfamilien der linearen Invarianten dieser Modelle systemastisch erklären. Mithilfe dieser linearen Invarianten gelang es zu zeigen, dass sich aus den Wahrscheinlichkeiten für Genbäume ohne Wurzel (bzw. für monophyletische Gruppen auf Genbäumen) schon der zugrundeliegenden Speziesbaum bestimmen lässt. Viele der Invarianten ersten und höheren Grades sind aber nach wie vor nicht systematisch untersucht. Wie die Ergebnisse von Allman et al. nahelegen, wäre aber ein gutes Verständnis dieser Invarianten nicht nur von theoretischem Interesse, sondern führt möglicherweise auch zu neuen bzw. besseren rechnerischen Verfahren zur Rekonstruktion von Speziesbäumen. Dabei können in der Folge Methoden der Computeralgebra eingesetzt werden. Ein erster Schritt zu einem tieferen Verständnis dieser Invarianten ist das Studium der Invarianten von Wahrscheinlichkeiten von "Gene-Triplett-Bäumen". Diese Invarianten haben eine viel einfachere Form als Invarianten von Genbaum-Wahrscheinlichkeiten, stehen aber via Marginalisierung mit Genbaum- Wahrscheinlichkeiten in Beziehung, weshalb Kenntnis der ersteren Einsicht in die letzteren liefern wird. Weiters treten die Wahrscheinlichkeiten von Gen-Triplett-Bäumen in der pseudo-Maximum-Likelihood-Methode von Liu et al. auf. Ergebnisse über Gen-Triplett-Wahrscheinlichkeiten werden also helfen, den pseudo-ML-Ansatz dieser Autoren zu rechtfertigen bzw. helfen abzuschätzen, in welchen Situationen dieser Ansatz gerechtfertigt ist - Ergebnisse, die bisher noch fehlen. Ein zweiter Teil meines Projekts untersucht den Zusammenhang (gegeben durch "Tropisierung") zwischen dem Multispezies-Koaleszentenmodell und Maddison`s MDC-Ansatz. Mithilfe dieses Zusammenhangs möchte ich Resultate über MDC auf ML-Schätzungen übertragen und umgekehrt. Ein wichtiges Resultat in diesem Zusammenhang ist die Nicht-Erblichkeit von MDC-Optimalität auf Teilbäume - dies mahnt zur Vorsicht bei der Verwendung von Außengruppen-Spezies zur Bestimmung der Wurzel eines phylogenetischen Baumes. Ich erwarte ein ähnliches negatives Resultat auch im Rahmen von ML-Schätzung.