Selbstlernende Suchalgorithms für hochauflösende Massenspektra
Self-Learning Search Algorithms for High-Res Mass Spectra
Wissenschaftsdisziplinen
Biologie (25%); Informatik (75%)
Keywords
-
Bioinformatics,
Tandem Mass Spectrometry,
Machine Learning,
High-Resolution,
Identification Algorithms
Zur Identifikation von Proteinen in biologischen Proben kommt üblicherweise Massenspektrometrie (MS) zum Einsatz: Proteine werden verdaut, die daraus resultierenden Peptide (Fragmente von Proteinen) werden anschließend analysiert. Innerhalb der letzten Jahrzehnte wurde eine neue Generation von Massenspektrometern entwickelt, die imstande sind, Massenspektren mit hoher Auflösung und hoher Massengenauigkeit aufzunehmen. Dies hat die Charakteristiken der Massenspektren erheblich verändert, jedoch ging dieser Fortschritt nicht einher mit der Entwicklung neuer Identifikationsalgorithmen für Peptide, die in der Lage sind, verfügbare Informationen vollständig auszuschöpfen. Aus diesem Grund sollen in dem hier beantragten, interdisziplinären Bioinformatik-Forschungsprojekt eine Reihe von neuen Identifikationsalgorithmen, die speziell für die Analyse solcher Massenspektren konzipiert sind und verschiedenste Informationsquellen miteinbeziehen, erforscht und entwickelt werden. Die ersten wissenschaftlichen Resultate sind vielversprechend: Das Projektkonsortium bestehend aus der Proteomik-Gruppe des IMP Wien und der Bioinformatik-Forschungsgruppe der FH OÖ (Campus Hagenberg) hat bereits erfolgreich ein gemeinsames Forschungsprojekt über die Analyse von Massenspektren durchgeführt; mit Hilfe einer neuartigen Scoring-Funktion, welche in diesem Projekt entwickelt wurde, konnten Identifikationsraten erreicht werden, die vergleichbar bzw. sogar höher sind als jene von Mascot, dem derzeitigen Standard-Verfahren in der Identifikation von Massenspektren. Bestärkt durch diese ersten Ergebnisse sind wir überzeugt, dass die Berücksichtigung von zusätzlichen Informationsquellen zu einer weiteren Verbesserung der Identifikationsraten von Massenspektren führen wird - deshalb widmet sich dieses Projekt der Erforschung folgender neuer Ansätze und deren Kombination: Wir planen Methoden der künstlichen Intelligenz zu entwickeln, um Elutionszeiten von Peptiden, Fragmentierungsmuster und instrumentenspezifische Charakteristiken der Massengenauigkeit zu identifizieren und zu analysieren; zusätzlich werden die beobachteten m/z Werte mit Hilfe des Massenfehlers von verifizierten Identifikationen re-kalibriert und der verbleibende Massenfehler in Bezug auf die erlernte Verteilung in die Scoring-Funktion eingebunden. Maschinelles Lernen soll weiters eingesetzt werden, um Peak-Auswahlverfahren zu entwickeln. Mit Hilfe dieser Verbesserungen soll die Identifikationsrate speziell in schwierigen Situationen wie hybriden Spektren und exhaustiven Suchen nach einer großen Menge an post-translationalen Modifikationen erhöht werden. Tatsächlich führt gerade dieser Ansatz zu exponentiell wachsenden Suchräumen und einem damit einhergehenden Einbruch der Identifikationsrate, da die Informationen in Massenpektren allein nicht ausreichend sind um den erweiterten Suchraum zu bewältigen. Im Gegensatz zu den zumeist angewandten Brute-Force Strategien soll dieses Problem in diesem Projekt mit Hilfe von Konstruktionsheuristiken gelöst werden, nämlich mit evolutionären Algorithmen, die intelligente Suchstrategien für eine große Anzahl an post-translationalen Modifikationen durch eine Kombination aus Datenbanksuche und de-novo Identifizierung realisieren. Alle in diesem Projekt erzielten Forschungsresultate sollen im Detail publiziert und der Bioinformatik- und Proteomik-Community frei zur Verfügung gestellt werden. Verbesserte Identifikationsraten von Peptiden im Allgemeinen und von unbekannten Modifikationen im Speziellen werden eine größere Einsicht in das Proteom ermöglichen; die Informatik bildet in diesem Zusammenhang eine neue Basis für die Suche nach Antworten zu wichtigen biologischen und medizinischen Fragestellungen.
Proteine aus biologischen Proben werden üblicherweise mittels Massenspektrometrie (MS) charakterisiert. Dazu werden die Proteine verdaut, anschließend werden die daraus resultierenden Peptide (Proteinfragmente) analysiert. In den letzten Jahrzehnten wurden neue Technologien und Massenspektrometer entwickelt, die höhere Auflösungen und Massengenauigkeit erzielen. In diesem interdisziplinären Bioinformatik-Forschungsprojekt wurden Identifikationsalgorithmen, die speziell für die Analyse solcher Massenspektren konzipiert sind, sowie weitere Informationsquellen miteinbeziehen, erforscht und entwickelt. So können nun die verfügbaren Informationen besser ausgeschöpft werden, was dazu führt, dass Proteine in biologischen Proben zuverlässiger gefunden und verifiziert werden können.Eines der Highlights dieses Projekts ist die Entwicklung des MS Amanda Algorithmus, der speziell für die Peptididentifikation aus hochauflösenden Massenspektren entworfen wurde. MS Amanda ist in der Lage, zuverlässig mehr Peptide und Proteine zu identifizieren als Goldstandard-Algorithmen. Es wurde im Journal of Proteome Research veröffentlicht und in Zusammenarbeit mit Thermo Fisher Scientific in das Software-Framework Proteome Discoverer integriert, das als Standard-Analyse-Software mit Massenspektrometern von Thermo ausgeliefert wird. MS Amanda ist somit in hunderten Forschungslaboren weltweit im Einsatz und wird in zahlreichen wissenschaftlichen Artikeln zitiert.Weiters wurden in diesem Projekt Methoden der künstlichen Intelligenz verwendet, um Elutionszeiten von Peptiden, Fragmentierungsmuster und instrumentenspezifische Charakteristiken der Massengenauigkeit zu identifizieren und diese Information in den Identifikationsprozess zu integrieren. Dafür wurde Elutator entwickelt, ein Validierungs-Algorithmus, der Identifikationsergebnisse mit Hilfe eines Elutionszeit-Vorhersage-Modells verifiziert. Dieses Modell kann zusätzlich datenbasiert mittels maschinellem Lernen für spezielle Laborbedingungen optimiert werden. Gemeinsam sind MS Amanda und Elutator in der Lage, mehr als 60% mehr Peptide zu identifizieren als konventionelle Such-Strategien.Forscherinnen und Forscher des IMP Wien und der Forschungsgruppe Bioinformatik der FH OÖ, Hagenberg, haben auf diese Weise Algorithmen entwickelt, veröffentlicht und auch erfolgreich der Öffentlichkeit zur Verfügung gestellt. Somit können nun verbesserte Identifikationsraten von Peptiden und von unbekannten Modifikationen erreicht werden. Das ermöglicht eine verbesserte Einsicht in das Proteom. Die Informatik bildet in diesem Zusammenhang die Basis für die Suche nach Antworten zu wichtigen biologischen und medizinischen Fragestellungen.
- Stephan M. Winkler, FH Oberösterreich , assoziierte:r Forschungspartner:in
Research Output
- 1805 Zitationen
- 30 Publikationen
-
2018
Titel Complete resolution of sister chromatid intertwines requires the Polo-like kinase Cdc5 and the phosphatase Cdc14 in budding yeast DOI 10.13130/massari-lucia-francesca_phd2018-03-26 Typ Other Autor Massari L Link Publikation -
2016
Titel Linear ubiquitination by LUBEL has a role in Drosophila heat stress response DOI 10.15252/embr.201642378 Typ Journal Article Autor Asaoka T Journal The EMBO Reports Seiten 1624-1640 Link Publikation -
2016
Titel Erratum: Corrigendum: MuSK Kinase Activity is Modulated By A Serine Phosphorylation Site in The Kinase Loop DOI 10.1038/srep38271 Typ Journal Article Autor Camurdanoglu B Journal Scientific Reports Seiten 38271 Link Publikation -
2016
Titel MuSK Kinase Activity is Modulated By A Serine Phosphorylation Site in The Kinase Loop DOI 10.1038/srep33583 Typ Journal Article Autor Camurdanoglu B Journal Scientific Reports Seiten 33583 Link Publikation -
2015
Titel Comprehensive Cross-Linking Mass Spectrometry Reveals Parallel Orientation and Flexible Conformations of Plant HOP2–MND1 DOI 10.1021/acs.jproteome.5b00903 Typ Journal Article Autor Rampler E Journal Journal of Proteome Research Seiten 5048-5062 Link Publikation -
2015
Titel Rio1 promotes rDNA stability and downregulates RNA polymerase I to ensure rDNA segregation DOI 10.1038/ncomms7643 Typ Journal Article Autor Iacovella M Journal Nature Communications Seiten 6643 Link Publikation -
2015
Titel Polysialylation controls dendritic cell trafficking by regulating chemokine recognition DOI 10.1126/science.aad0512 Typ Journal Article Autor Kiermaier E Journal Science Seiten 186-190 Link Publikation -
2018
Titel Structural prediction of protein models using distance restraints derived from cross-linking mass spectrometry data DOI 10.1038/nprot.2017.146 Typ Journal Article Autor Orbán-Németh Z Journal Nature Protocols Seiten 478-494 Link Publikation -
2017
Titel PhoStar: Identifying Tandem Mass Spectra of Phosphorylated Peptides before Database Search DOI 10.1021/acs.jproteome.7b00563 Typ Journal Article Autor Dorl S Journal Journal of Proteome Research Seiten 290-295 -
2017
Titel The Haystack Is Full of Needles: Technology Rescues Sugars! DOI 10.1016/j.molcel.2017.11.024 Typ Journal Article Autor Cummings R Journal Molecular Cell Seiten 827-829 Link Publikation -
2017
Titel Comparative glycoproteomics of stem cells identifies new players in ricin toxicity DOI 10.1038/nature24015 Typ Journal Article Autor Stadlmann J Journal Nature Seiten 538-542 Link Publikation -
2018
Titel Author Correction: Structural prediction of protein models using distance restraints derived from cross-linking mass spectrometry data DOI 10.1038/s41596-018-0024-7 Typ Journal Article Autor Orbán-Németh Z Journal Nature Protocols Seiten 1724-1724 Link Publikation -
2018
Titel CharmeRT: Boosting Peptide Identifications by Chimeric Spectra Identification and Retention Time Prediction DOI 10.1021/acs.jproteome.7b00836 Typ Journal Article Autor Dorfer V Journal Journal of Proteome Research Seiten 2581-2589 Link Publikation -
2018
Titel Analysis of PNGase F-Resistant N-Glycopeptides Using SugarQb for Proteome Discoverer 2.1 Reveals Cryptic Substrate Specificities DOI 10.1002/pmic.201700436 Typ Journal Article Autor Stadlmann J Journal PROTEOMICS Seiten 1700436 Link Publikation -
2018
Titel Optimized fragmentation improves the identification of peptides cross-linked using MS-cleavable reagents DOI 10.1101/476051 Typ Preprint Autor Stieger C Seiten 476051 Link Publikation -
2018
Titel N-terminal ß-strand underpins biochemical specialization of an ATG8 isoform DOI 10.1101/453563 Typ Preprint Autor Zess E Seiten 453563 Link Publikation -
2018
Titel apQuant: Accurate Label-Free Quantification by Quality Filtering DOI 10.1021/acs.jproteome.8b00113 Typ Journal Article Autor Doblmann J Journal Journal of Proteome Research Seiten 535-541 -
2020
Titel Autophagy mediates temporary reprogramming and dedifferentiation in plant somatic cells DOI 10.15252/embj.2019103315 Typ Journal Article Autor Rodriguez E Journal The EMBO Journal Link Publikation -
2020
Titel ANGEL2 is a member of the CCR4 family of deadenylases with 2',3'-cyclic phosphatase activity DOI 10.1126/science.aba9763 Typ Journal Article Autor Pinto P Journal Science Seiten 524-530 -
2019
Titel Optimized Fragmentation Improves the Identification of Peptides Cross-Linked by MS-Cleavable Reagents DOI 10.1021/acs.jproteome.8b00947 Typ Journal Article Autor Stieger C Journal Journal of Proteome Research Seiten 1363-1370 Link Publikation -
2019
Titel Autophagy mediates temporary reprogramming and dedifferentiation in plant somatic cells DOI 10.1101/747410 Typ Preprint Autor Rodriguez E Seiten 747410 Link Publikation -
2019
Titel N-terminal ß-strand underpins biochemical specialization of an ATG8 isoform DOI 10.1371/journal.pbio.3000373 Typ Journal Article Autor Zess E Journal PLOS Biology Link Publikation -
2014
Titel Regulation of Gene Expression through a Transcriptional Repressor that Senses Acyl-Chain Length in Membrane Phospholipids DOI 10.1016/j.devcel.2014.04.025 Typ Journal Article Autor Hofbauer H Journal Developmental Cell Seiten 729-739 Link Publikation -
2014
Titel Jagunal homolog 1 is a critical regulator of neutrophil function in fungal host defense DOI 10.1038/ng.3070 Typ Journal Article Autor Wirnsberger G Journal Nature Genetics Seiten 1028-1033 Link Publikation -
2014
Titel Deep and Precise Quantification of the Mouse Synaptosomal Proteome Reveals Substantial Remodeling during Postnatal Maturation DOI 10.1021/pr500456t Typ Journal Article Autor Moczulska K Journal Journal of Proteome Research Seiten 4310-4324 -
2014
Titel MS Amanda, a Universal Identification Algorithm Optimized for High Accuracy Tandem Mass Spectra DOI 10.1021/pr500202e Typ Journal Article Autor Dorfer V Journal Journal of Proteome Research Seiten 3679-3684 Link Publikation -
2015
Titel Quantitative Phosphoproteomics of the Ataxia Telangiectasia-Mutated (ATM) and Ataxia Telangiectasia-Mutated and Rad3-related (ATR) Dependent DNA Damage Response in Arabidopsis thaliana *[S] DOI 10.1074/mcp.m114.040352 Typ Journal Article Autor Roitinger E Journal Molecular & Cellular Proteomics Seiten 556-571 Link Publikation -
2013
Titel Aurora B and Cdk1 mediate Wapl activation and release of acetylated cohesin from chromosomes by phosphorylating Sororin DOI 10.1073/pnas.1305020110 Typ Journal Article Autor Nishiyama T Journal Proceedings of the National Academy of Sciences Seiten 13404-13409 Link Publikation -
2013
Titel Optimized Nonlinear Gradients for Reversed-Phase Liquid Chromatography in Shotgun Proteomics DOI 10.1021/ac401145q Typ Journal Article Autor Moruz L Journal Analytical Chemistry Seiten 7777-7785 Link Publikation -
2015
Titel A Symbolic Regression Based Scoring System Improving Peptide Identifications for MS Amanda DOI 10.1145/2739482.2768509 Typ Conference Proceeding Abstract Autor Dorfer V Seiten 1335-1341