Evolution und Funktion des Proteinsequenzraums aus Metagenomen
Evolution and Function of the Environmental Protein Sequence Universe
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
-
Bioinformatics,
Clustering,
Computational biology,
Network analysis,
Protein sequencing analysis,
PVC superphylum
Proteinsequenzen werden in großer Anzahl mit Hilfe von DNA-Sequenzierung generiert und stellen eines der wichtigsten Reservoirs molekularer biologischer Daten dar. Aufgrund der in ihnen kodierten Proteinfunktion und -struktur sowie ihrer evolutionären Verbindungen lassen sich aus Proteinsequenzen die molekularen Funktionen und biologischen Aufgaben von Genprodukten ableiten. Die Sequenzierung von Metagenomen ohne Kultivierung direkt aus Probenmaterial hat im letzten Jahrzehnt das bekannte Proteinsequenz-Universum massiv vergrößert. Obwohl Hunderte von Metagenomen tief sequenziert wurden und nun die Mehrzahl der Einträge in Proteindatenbanken bilden, sind die metagenomischen Proteindaten derzeit noch weitgehend unstrukturiert und werden in der Bioinformatik noch kaum spezifisch genutzt. Das zentrale Ziel dieses Antrags besteht in der Erforschung der fundamentalen evolutionären Strukturen zwischen allen derzeit bekannten Proteinsequenzen aus Metagenomen. Wir werden dafür das gesamte Proteinsequenz-Universum, einschließlich aller Metagenome, in evolutionär verwandteProteinfamilien gruppieren. Etablierte Konzepte, wie Orthologie oder Proteindomänen, einschließend werden dabei in diesem Projekt neuartige Methoden des Clustering großer Proteinnetzwerke entwickelt. Aufbauend auf dieser evolutionären Rekonstruktion des metagenomischen Proteinsequenz- raums werden wir die Funktion aller vorhergesagten Proteinfamilien analysieren. Wir werden dazu die relativen Häufigkeiten aller Familien in verschiedenen Umwelthabitaten bestimmen und erwarten dabei nicht nur die Aufdeckung bisher unbekannter Verbindungen bereits beschriebener Proteinfamilien zu bestimmten Habitaten, sondern auch die Assoziation von Proteinfamilien unbekannter Funktion mit Umweltfaktoren. Die Häufigkeitsmatrix der Proteinfamilien in verschiedenen Metagenomen werden wir darüberhinaus zur Analyse ihrer Verhersagekraft für funktionelle Interaktionen zwischen Proteinfamilien einsetzen. Wir wollen damit eine prinzipiell neuartige Methode zur Interaktionsvorhersage entwickeln. In einer Fallstudie werden wir anhand des strukturierten Sequenzraums der metagenomischen Proteinfamilien die phylogenetische und ökologischer Diversität des monophyletischen PVC Superphylums (Planctomycetes, Verrucomicrobia, Chlamydiae, Lentisphaerae, etc.) untersuchen, einer Gruppe von Bakterien mit außergewöhnlicher Physiologie und großer Bedeutung für Medizin, Ökologie und Biotechnologie. Obwohl dieser Antrag zentrale Fragen der Biologie adressiert, umfasst er auch angewandte Aspekte wie die Entwicklung neuer, universeller bioinformatischer Methoden und Resourcen sowie die Erforschung der Diversität biotechnologisch und medizinisch wichtiger Bakterien.
Dieses Projekt untersucht den Aufbau des Proteinsequenzuniversums. Proteine sind essentielle Biomoleküle für Struktur und Funktion aller zellulärer Organismen sowie Viren. Molekularbiologische Daten werden im großen Maßstab durch die Sequenzierung von DNA generiert. Insbesondere werden Proteinsequenzen daraus abgeleitet. Struktur und Funktionen von Proteinen werden durch ihre Sequenz determiniert. In Kombination mit evolutionären Verbindungen zwischen Biomolekülen kann auf molekulare Funktionen und biologische Aufgaben geschlossen werden. Die Gesamtheit aller Proteine wird als Proteinuniversum bezeichnet. Aufgrund massiver Anstrengungen im Bereich der Metagenomik und der DNA-Sequenzierung direkt aus Umweltproben ohne vorangehende Kultivierungsschritte konnte der bekannte Anteil des Proteinsequenzuniversums deutlich vergrößert werden. Proteindatenbanken werden heute durch Einträge aus Metagenomikprojekten dominiert, die jedoch bislang nur eingeschränkt strukturiert vorlagen und entsprechend wenig spezifisch genutzt wurden. Das Hauptziel dieses Projekts ist die Erforschung der fundamentalen evolutionären Strukturen des Proteinsequenzuniversums mit besonderem Augenmerk auf metagenomische Proteinsequenzen. Auf etablierten Konzepten wie Orthologie oder Sequenzähnlichkeit aufbauend wurden neuartige Methoden der Strukturierung des Proteinsequenzuniversums untersucht. Ein besonderer Fokus lag auf bestimmten generellen Eigenschaften von Ähnlichkeitsnetzwerken in hochdimensionalen Datenräumen, die neben Proteinsequenzen beispielsweise auch die Computerlinguistik oder automatisierte Musikvorschläge betreffen. Eine große Vielfalt an Konzepten und Methoden der Bioinformatik wie auch des maschinellen Lernens wurde hierfür weiterentwickelt und angewendet. Dadurch wurden nicht nur grundlegende Einsichten zur Struktur des Proteinsequenzuniversums gewonnen, sondern auch ein Repertoire an Algorithmen, Methoden und Werkzeugen zur effizienten Nutzung hochdimensionaler Daten geschaffen, das Anwendung in verschiedensten wissenschaftlichen Disziplinen wie auch technischen Bereichen findet. Ergebnisse dieses Projekts legen weitere Untersuchungen zur Verwendung von tiefen neuronalen Netzen für Proteinsequenzvektorrepräsentationen nahe. Diese könnten das grundlegende Problem extremer Anforderungen an Computerressourcen für die Ähnlichkeitssuche in ständig stark wachsenden Sequenzdatenbanken lösen.
- Arthur Flexer, ÖFAI - Österreichisches Forschungsinstitut für Artifical Intelligence , assoziierte:r Forschungspartner:in
Research Output
- 30061 Zitationen
- 13 Publikationen
- 1 Software
- 1 Weitere Förderungen
-
2020
Titel scikit-hubness: Hubness Reduction and Approximate Neighbor Search DOI 10.21105/joss.01957 Typ Journal Article Autor Feldbauer R Journal Journal of Open Source Software Seiten 1957 Link Publikation -
2020
Titel SciPy 1.0: fundamental algorithms for scientific computing in Python DOI 10.1038/s41592-019-0686-2 Typ Journal Article Autor Virtanen P Journal Nature Methods Seiten 261-272 Link Publikation -
2019
Titel Deep learning for extremely fast protein similarity search Typ Conference Proceeding Abstract Autor Feldbauer R Konferenz Austrian High Performance Computing Meeting 2019 Link Publikation -
2019
Titel scikit-hubness: Hubness Reduction and Approximate Neighbor Search DOI 10.48550/arxiv.1912.00706 Typ Preprint Autor Feldbauer R -
2020
Titel DeepNOG: fast and accurate protein orthologous group assignment DOI 10.1093/bioinformatics/btaa1051 Typ Journal Article Autor Feldbauer R Journal Bioinformatics Seiten 5304-5312 Link Publikation -
2016
Titel ConsPred: a rule-based (re-)annotation framework for prokaryotic genomes DOI 10.1093/bioinformatics/btw393 Typ Journal Article Autor Weinmaier T Journal Bioinformatics Seiten 3327-3329 Link Publikation -
2016
Titel An Empirical Analysis of Hubness in Unsupervised Distance-Based Outlier Detection DOI 10.1109/icdmw.2016.0106 Typ Conference Proceeding Abstract Autor Flexer A Seiten 716-723 -
2016
Titel Centering Versus Scaling for Hubness Reduction DOI 10.1007/978-3-319-44778-0_21 Typ Book Chapter Autor Feldbauer R Verlag Springer Nature Seiten 175-183 -
2018
Titel Fast Approximate Hubness Reduction for Large High-Dimensional Data DOI 10.1109/icbk.2018.00055 Typ Conference Proceeding Abstract Autor Feldbauer* R Seiten 358-367 -
2018
Titel Protein vector representations for fast similarity search Typ Conference Proceeding Abstract Autor Feldbauer R Konferenz German Conference on Bioinformatics 2018 Link Publikation -
2015
Titel The Unbalancing Effect of Hubs on K-Medoids Clustering in High-Dimensional Spaces DOI 10.1109/ijcnn.2015.7280303 Typ Conference Proceeding Abstract Autor Schnitzer D Seiten 1-8 -
2018
Titel A comprehensive empirical comparison of hubness reduction in high-dimensional spaces DOI 10.1007/s10115-018-1205-y Typ Journal Article Autor Feldbauer R Journal Knowledge and Information Systems Seiten 137-166 Link Publikation -
2015
Titel EffectiveDB—updates and novel features for a better annotation of bacterial secreted proteins and Type III, IV, VI secretion systems DOI 10.1093/nar/gkv1269 Typ Journal Article Autor Eichinger V Journal Nucleic Acids Research Link Publikation
-
2018
Titel NVIDIA GPU Grant Program Typ Capital/infrastructure (including equipment) Förderbeginn 2018