Empirische Codonmodelle für comparative Sequenzdaten
Empirical codon models for comparative re-sequencing data
Wissenschaftsdisziplinen
Biologie (30%); Informatik (70%)
Keywords
-
Phylogeny,
Statistical Modelling,
Population Genetics,
Markov Process,
Evolutionary Bioinformatics,
Next Generation Sequencing
Evolutionäre Neuerungen und die Entstehung von neuen Arten sind häufig die Folge von positiver darwinischer Selektion. Dabei ist der Selektionsdruck aufschlussreich für die biologische Funktion und die Evolutionsgeschichte eines Proteins. Eine Vielzahl von Methoden wurde deshalb entwickelt, die die Identifizierung von positiver Selektion ermöglichen und einige dieser Methoden benutzen Sequenzunterschied zwischen den Arten und basieren auf comparativen Analysen oder Phylogeny. Zum Beispiel werden Likelihood-Ratio-Tests, die Codonsubstitutionsmodelle voraussetzen, nun standardmässig für diesen Zweck verwendet. Die Leistungsfähigkeit dieser Tests zur Identifizierung von positiver Selektion ist jedoch eingeschränkt, wenn die Arten, wie zum Beispiel die Primaten, evolutionär sehr eng verwandt sind, und so wurden bisher nur wenige arten-spezifischen Gene unter positiver Selektion identifiziert. Die Hinzunahme von zusätzlichen biologischen Daten, insbesondere Polymorphismen, ist vielversprechend für die Inferenz von positiver Selektion. Durch neue Sequenzierungstechnologien ist eine Vielzahl dieser Daten nun vorfügbar, insbesondere für den Menschen, Drosophila und Arabidopsis werden bald 1000 Genome sequenziert sein. Es ist jedoch nicht klar, dass die Methoden die zuvor in der Phylogeny oder in der Populationsgenetik entwickelt wurden, geeignet für die Analyse dieser Daten sind. Das Projekt enhält sowohl einen theoretische wie auch einen angewandte Teile, in denen neue bioinformatischen Werkzeuge und biologisches Wissen geschaffen werden. Im theoretischen Teil werden wir neue empirische Codonmodelle entwickeln. Wir beabsichtigen das Aufstellen neuer Algorithmen, die in der Lage sind die substanziellen Ratenvariation die in comparativen Polymorphismen (Sequenzen von mehren Arten und mehreren Individuen) auftreten. Dieser Teil hat die Entwicklung und Implementierung der neuer Codonmodelle und das Testen der Modelle mit simulierten und rellen Daten zum Ziel. Im angewandten Teil werden wir die empirischen Modelle verwenden, um die evolutionaren Prozessen zwischen verschiedenen Drosophila-Arten zu vergleichen. Wegen der Verfügbarkeit von 12 Drosophila Genome und des 1000 D. melanogaster Genome Projektes, werden wir zuerst die Melanogaster-Untergruppe analysieren. Dann re- sequenzieren wir weitere D. ananassae Populationen und studieren den unterschiedlichen Selectionsdruck in dieser Untergruppe. Für beide Arten führen wir genomeweite Analysen zum Auffinden von darwinistischer Selektion durch.
Evolutionäre Neuerungen und die Entstehung neuer Arten sind häufig die Folge von natürlicher Selektion. Auf der molekularen Ebene beeinfluss der Selektionsdruck die biologische Funktion und die Evolutionsgeschichte eines Proteins. Durch neue Sequenzierungstechnologien haben wir heute die Möglichkeit die Genome mehrere Individuen von mehreren Arten zu entziffern. Es gibt viele Methoden, mit denen die Mechanismen Selektion untersucht werden können. Diese funktionieren aber nicht besonders gut, wenn die Arten evolutionär sehr eng verwandt sind. In unserem FWF Projekt haben wir neue Modelle entwickelt, die vergleichenden Polymorphismen (Sequenzen von mehreren Arten und mehreren Individuen) berücksichtigen können. Unsere Polymorphism-aware phylogenetic Models, kurz PoMo, verbinden wir populationsgenetische mit phylogenetischen Ansätze. Anders als in phylogenetischen Standardmodellen werden Substitutionen als graduelle Veränderung der Allelefrequenzen nach einer Mutation modelliert. Anschließend wurden die neuen Modelle verwendet, um die evolutionären Prozesse in verschiedenen Primaten-Arten zu vergleichen. Danach haben wir die PoMo-Methode weiterentwickelt, um Stammbäume von Arten zu schätzen. Insbesondere interessieren wir uns für Beispiele in der Evolutionsgeschichte, die ein schnelles Auffächern in spezialisierte Arten in der Form einer Radiation aufweisen. Dies führte zur Entwicklung eines neuen Softwarepaketes IQ-Tree-PoMo. Mit der neuen Software können die Forscher die genetischen Unterschiede zwischen zwei engverwandten Arten besser deuten und die Entstehung von Arten weiter aufklären.
- University of St. Andrews - 100%
- Aparup Das, National Institute of Malaria Research (ICMR) - Indien
- Maria Anisimova, Eidgenössische Technische Hochschule Zürich - Schweiz
- Ian Holmes, University of California Berkeley - Vereinigte Staaten von Amerika
- Rasmus Nielsen, University of California Berkeley - Vereinigte Staaten von Amerika
- Nick Goldman, EMBL Outstation Hinxton - Vereinigtes Königreich
Research Output
- 492 Zitationen
- 12 Publikationen
-
2016
Titel Reversible polymorphism-aware phylogenetic models and their application to tree inference DOI 10.1016/j.jtbi.2016.07.042 Typ Journal Article Autor Schrempf D Journal Journal of Theoretical Biology Seiten 362-370 Link Publikation -
2015
Titel PoMo: An Allele Frequency-based Approach for Species Tree Estimation DOI 10.1101/016360 Typ Preprint Autor De Maio N Seiten 016360 Link Publikation -
2015
Titel PoMo: An Allele Frequency-Based Approach for Species Tree Estimation DOI 10.1093/sysbio/syv048 Typ Journal Article Autor De Maio N Journal Systematic Biology Seiten 1018-1031 Link Publikation -
2017
Titel Approximate maximum likelihood estimation for population genetic inference DOI 10.1515/sagmb-2017-0016 Typ Journal Article Autor Bertl J Journal Statistical Applications in Genetics and Molecular Biology Seiten 291-312 Link Publikation -
2017
Titel Inference in population genetics using forward and backward, discrete and continuous time processes DOI 10.1016/j.jtbi.2017.12.008 Typ Journal Article Autor Bergman J Journal Journal of Theoretical Biology Seiten 166-180 Link Publikation -
2019
Titel Polymorphism-Aware Species Trees with Advanced Mutation Models, Bootstrap, and Rate Heterogeneity DOI 10.1093/molbev/msz043 Typ Journal Article Autor Schrempf D Journal Molecular Biology and Evolution Seiten 1294-1301 Link Publikation -
2019
Titel The comparative genomics and complex population history of Papio baboons DOI 10.1126/sciadv.aau6947 Typ Journal Article Autor Rogers J Journal Science Advances Link Publikation -
2012
Titel Estimating Empirical Codon Hidden Markov Models DOI 10.1093/molbev/mss266 Typ Journal Article Autor De Maio N Journal Molecular Biology and Evolution Seiten 725-736 Link Publikation -
2014
Titel The common marmoset genome provides insight into primate biology and evolution. DOI 10.1038/ng.3042 Typ Journal Article Autor Marmoset Genome Sequencing And Analysis Consortium Journal Nature genetics Seiten 850-7 -
2016
Titel An alternative derivation of the stationary distribution of the multivariate neutral Wright–Fisher model for low mutation rates with a view to mutation rate estimation from site frequency data DOI 10.1016/j.tpb.2016.12.001 Typ Journal Article Autor Schrempf D Journal Theoretical Population Biology Seiten 88-94 Link Publikation -
2013
Titel Linking Great Apes Genome Evolution across Time Scales Using Polymorphism-Aware Phylogenetic Models DOI 10.1093/molbev/mst131 Typ Journal Article Autor De Maio N Journal Molecular Biology and Evolution Seiten 2249-2262 Link Publikation -
2018
Titel Polymorphism-aware species trees with advanced mutation models, bootstrap and rate heterogeneity DOI 10.1101/483479 Typ Preprint Autor Schrempf D Seiten 483479 Link Publikation