Sequenzanalysemethoden für die Proteinfunktionsvorhersage
Sequence Analysis Methods for Protein Function Prediction
Wissenschaftsdisziplinen
Andere Humanmedizin, Gesundheitswissenschaften (50%); Biologie (30%); Mathematik (20%)
Keywords
-
SEQUENCE ANALYSIS,
POSTTRANSLATIONAL MODIFICATION PREDICTIO,
LOW COMPLEXITY REGION,
SEQUENCE DATABASE SEARCH,
LARGE-SCALE SEQUENCE ANNOTATION,
PROTEIN FUNCTION PREDICTION
Die Vollendung der kompletten Sequenzierung wichtiger Genome eröffnet neue Möglichkeiten und Hoffnungen. Das reine Vorhandensein der genomischen Sequenzen ist allerdings von geringen Nutzen für die Life Science Forschung, aber die Entwicklung der Methoden zur Sequenzanalyse hat mit dem Fortschritt in der Produktion von Sequenztexten nicht mithalten können. Während die Ableitung der Proteinsequenzen, welche möglicherweise in den gegebenen Genomdaten kodiert sind, manchmal schwierig, aber generell möglich ist, stellt das unzureichende Verständnis der biologischen Funktion der nur als konzeptionelle Translation bekannten Proteine den eigentlich limitierenden Faktor dar. Mit diesem Project versprechen wir die Lösung dreier wichtiger Aufgaben mit genereller Bedeutung für die Proteinsequenzanalyse: Teil 1: Sequenzregionen mit geringer Komplexität (SGK) sind generell schlecht bezüglich ihrer Struktur und Funktion charakterisiert. Das könnte sich verbessern, wenn es ein Datenbanksuchwerkzeug gäbe, mit welchen man SGK in Übereinstimmung mit einem Ähnlichkeitskriterium in Familien zu Clustern ordnen könnte. Ein solches Programm wollen wir entwickeln (ein BLAST-ähnliches Tool für SGK). Diese Aufgabe kann nicht mit den z.Z. üblichen Apparat für Homologie-Suchen gelöst werden, weil die statistischen Kriterien unter den Bedingungen compositioneller Verschiebungen nicht anwendbar sind. Infolge der Degeneriertheit der Sequenz in SGK erscheint es möglich, daß die genaue Sequenz oft nicht der kritische Punkt für deren Funktion ist als viel mehr gewisse integrale Sequenzeigenschaften (z.B., die Composition). Wir wollen ein Werkzeug schaffen, mit welchem Sequenzsegmente definiert durch integrale Sequenzeigenschaften in Familien zusammengefaßt werden können. Dieses Tool wollen wir zur Klassifikation und funktionellen Charakterisierung von SGK verwenden. Teil 2: Eine große Zahl biologischer Merkmale (Strukturen und Funktionen) wie viele posttranslationale Modificationen von Aminosäuren in Proteinen oder die proteolytische Aufspaltung in Abhängigkeit von zellulären Prozessen kann mit theoretischen Methoden nicht vorhergesagt werden. Folglich bleiben große Klassen von Proteinen nicht oder unvollständig annotiert, weil die Möglichkeiten der existierenden Vorhersagealgorithmen beschränkt sind. Wir wollen Techniken für die Erkennung von Lipid-Anker-Sites in Proteinsequenzen (z.B. GPI- Lipid Anker in nicht-tierischen Taxa, Myristoyl-, Farnesyl- oder Palmitoylanker) als auch für zellzyklus- spezifische Proteinaufspaltungen (wie z.B. in den Substratproteinen der Separine in der frühen Anaphase) entwickeln. Wenn unsere Möglichkeiten und unser Forschungsfortschritt es erlauben, wollen wir die Anstrengungen auf andere posttranslationale Modifikationen ausweiten. Teil 3: Die existierenden Methoden (Algorithmen und Software-Lösungen) sind nicht für die Generierung der Annotation von großen Mengen von Proteinsequenzen vorbereitet. Insbesondere sind automatisierte Implikationen (Deduktionsheuristiken) auf der Basis des kombinierten Outputs verschiedener Vorhersagemethoden nicht möglich. Wir wollen eine portable Softwarelösung schaffen ("Automatischer Sequenzanalysator"), der verschiedene Vorhersageprogramme aufruft, deren Ausgaben bearbeitet und die Informationen in elektronisch abfragbarer Form ablegt. Spezifisch in diesem Projekt wollen wir die Deduktionsalgorithmen entwickeln, welche Routineaktivitäten bioinformatischer Forscher kopieren sollen, wenn diese selbst Vorhersageprogramme aufrufen und deren Ausgaben analysieren. Dieses Ziel ist ein Schlüssel zur Erzeugung der funktionellen Annotationen für Sequenzen, welche auf DNA Chips kodiert sind.
Dieses Forschungsprojekt wurde vom August 2001 bis zum Juli 2004 durch den FWF Österreich mit zwei Positionen (1 promovierter Forscher, 1 Doktorand) und Mitteln fuer die Reisetätigkeit beider Forscher unterstützt. Das Ziel dieser Arbeit war die Entwicklung neuer, computer-gestützter Techniken für Erkennung biologischer Eigenschaften in funktionell noch nicht charakterisierten Proteinsequenzen, welche nicht durch vorhandene Sequenz-analytische Methoden gefunden werden. Typischerweise werden biologische Funktionen für Proteinsequenzen von Genomsequenzierungen mit dem Konzept der Homologie abgeleitet, welches auf Sequenzähnlichkeit und Annotationstransfer innerhalb einer Proteinfamilie basiert. Funktionelle Vorhersagen sind schwierig für nicht-globuläre Proteinregionen, weil ihre Aminosäurekomposition zu einigen Restearten verschoben ist und deshalb die Kriterien zum Feststellen signifikanter Sequenzähnlichkeit nicht anwendbar sind. In dieser Arbeit konzentrierten wir uns auf nicht-globuläre Proteinsegmente, die die Eignung für posttransationale Modifikationen mit Lipiden kodieren. Das Hauptresultat dieser Arbeit sind Algorithmen und Computerprogramme für (i) Glycosylphosphatidyllipid-Anker für Pflanzen- und Pilzproteine, (ii) Myristoyl-Anker für fungale und höhere Eukaryontenproteine, (iii) Prenyl-Anker (separat für Famesyl- und Geranylgeranyl-Anker) für Proteine von Eukaryonten. Die ursprüngliche Technologie des Glycosylphosphatidyllipid-Anker-Prediktors wurde weiterentwickelt in Bezug auf die Signifikanzkriterien zur Abschätzung der Parameter in der Vorhersagefunktion, die Berücksichtigung heterogener biochemischer Daten und Strukturinformationen der modifizierenden Enzyme als auch die Ausnutzung des evolutionären Kontextes für die Bewertung der funktionellen Bedeutung neuer Substratvorhersagen. Teile des methodischen Konzepts wurden auch sinnvoll in der Entwicklung eines Transmembranhelix- Vorhersageprogrammes mit geringer falsch-positiver Vorhersagerate eingesetzt (in Zusammenarbeit mit ungarischen Forschern). Alle Prediktoren haben Aufmerksamkeit bei Biotech und pharmazeutischen Firmen hervorgerufen. Die erfolgreiche Arbeit in diesem Projekt is mit 20 schon erschienenen Publikationen in anerkannten internationalen Wissenschaftsjournalen belegt. Unsere Prediktoren für posttranslationale Modifikationen mit Lipiden sind der augenblickliche Standard im Feld und werden wegen ihrer Zuverlässigkeit von SWISS-PROT zur Regelannotation neuer Sequenzen benutzt.
- Peer Bork, European Molecular Biology Laboratory Heidelberg - Deutschland
- Chris P. Ponting, University of Oxford - Vereinigtes Königreich
Research Output
- 2234 Zitationen
- 15 Publikationen
-
2005
Titel Refinement and prediction of protein prenylation motifs DOI 10.1186/gb-2005-6-6-r55 Typ Journal Article Autor Maurer-Stroh S Journal Genome Biology Link Publikation -
2005
Titel Proteins with two SUMO-like domains in chromatin-associated complexes: The RENi (Rad60-Esc2-NIP45) family DOI 10.1186/1471-2105-6-22 Typ Journal Article Autor Novatchkova M Journal BMC Bioinformatics Seiten 22 Link Publikation -
2004
Titel MYRbase: analysis of genome-wide glycine myristoylation enlarges the functional spectrum of eukaryotic myristoylated proteins DOI 10.1186/gb-2004-5-3-r21 Typ Journal Article Autor Maurer-Stroh S Journal Genome Biology Link Publikation -
2004
Titel Hidden localization motifs: naturally occurring peroxisomal targeting signals in non-peroxisomal proteins DOI 10.1186/gb-2004-5-12-r97 Typ Journal Article Autor Neuberger G Journal Genome Biology Link Publikation -
2004
Titel Human Rif1, ortholog of a yeast telomeric protein, is regulated by ATM and 53BP1 and functions in the S-phase checkpoint DOI 10.1101/gad.1216004 Typ Journal Article Autor Silverman J Journal Genes & Development Seiten 2108-2119 Link Publikation -
2004
Titel Crystal structure of the p14/MP1 scaffolding complex: How a twin couple attaches mitogen-activated protein kinase signaling to late endosomes DOI 10.1073/pnas.0403435101 Typ Journal Article Autor Kurzbauer R Journal Proceedings of the National Academy of Sciences Seiten 10984-10989 Link Publikation -
2004
Titel Myristoylation of viral and bacterial proteins DOI 10.1016/j.tim.2004.02.006 Typ Journal Article Autor Maurer-Stroh S Journal Trends in Microbiology Seiten 178-185 -
2004
Titel A Sensitive Predictor for Potential GPI Lipid Modification Sites in Fungal Protein Sequences and its Application to Genome-wide Studies for Aspergillus nidulans, Candida albicans Neurospora crassa, Saccharomyces cerevisiae and Schizosaccharomyces pom DOI 10.1016/j.jmb.2004.01.025 Typ Journal Article Autor Eisenhaber B Journal Journal of Molecular Biology Seiten 243-253 -
2003
Titel Protein prenyltransferases DOI 10.1186/gb-2003-4-4-212 Typ Journal Article Autor Maurer-Stroh S Journal Genome Biology Seiten 212 Link Publikation -
2003
Titel Motif Refinement of the Peroxisomal Targeting Signal 1 and Evaluation of Taxon-specific Differences DOI 10.1016/s0022-2836(03)00318-8 Typ Journal Article Autor Neuberger G Journal Journal of Molecular Biology Seiten 567-579 -
2003
Titel Prediction of Peroxisomal Targeting Signal 1 Containing Proteins from Amino Acid Sequence DOI 10.1016/s0022-2836(03)00319-x Typ Journal Article Autor Neuberger G Journal Journal of Molecular Biology Seiten 581-592 -
2003
Titel Kleisins: A Superfamily of Bacterial and Eukaryotic SMC Protein Partners DOI 10.1016/s1097-2765(03)00108-4 Typ Journal Article Autor Schleiffer A Journal Molecular Cell Seiten 571-575 Link Publikation -
2002
Titel N-terminal N-myristoylation of proteins: prediction of substrate proteins from amino acid sequence11Edited by J. Thornton DOI 10.1006/jmbi.2002.5426 Typ Journal Article Autor Maurer-Stroh S Journal Journal of Molecular Biology Seiten 541-557 -
2002
Titel On filtering false positive transmembrane protein predictions DOI 10.1093/protein/15.9.745 Typ Journal Article Autor Cserzö M Journal Protein Engineering Seiten 745-752 Link Publikation -
2002
Titel N-terminal N-myristoylation of proteins: refinement of the sequence motif and its taxon-specific differences11Edited by J. Thornton DOI 10.1006/jmbi.2002.5425 Typ Journal Article Autor Maurer-Stroh S Journal Journal of Molecular Biology Seiten 523-540