Analyse von seltenen Varianten in Sequenzierdaten
Analysis of rare variants from sequencing data
Wissenschaftsdisziplinen
Biologie (100%)
Keywords
-
Next generation sequencing,
Rare Variants,
Association Testing,
Burden Tests,
Gene Set Enrichment Analysis
Derzeit beschäftigen sich viele groß angelegte DNA-Sequenzierungsstudien mit der Frage, ob und in welchem Umfang durch das Studium seltener Varianten neue Einblicke in die Ätiologie von komplexen genetischen Krankheiten gewonnen werden können. Leider hat die Entwicklung von Analysewerkzeugen nicht mit der Flut an Sequenzdaten mitgehalten. So etwa sind die Methoden für die Analyse von häufigen Varianten zwar weitgehend erforscht, die Entwicklung von statistischen Methoden für seltene Varianten hingegen stellt einen noch jungen, aber sehr aktiven, Forschungsbereich dar. Bei diesen Methoden handelt es sich um so genannte Gruppierungsmethoden. Um die Teststärke zu erhöhen werden zum Beispiel alle seltenen Protein-kodierenden Varianten eines Genes zu einer Gruppe zusammengefasst und gemeinsam analysiert. Innerhalb der letzten drei Jahre wurden mehr als 20 solcher Gruppierungsmethoden vorgeschlagen. Allerdings sind die Eigenschaften dieser Tests noch nicht vollständig charakterisiert und die publizierten Methodenvergleiche berücksichtigen nur eine geringe Anzahl von genetischen Architekturen oder reflektieren nicht die Eigenschaften von empirischen Daten. Deshalb ist es sehr schwierig, für eine bestimmte genetische Hypothese den optimalen Test für die Analyse von seltenen Varianten auszuwählen. In diesem Projekt werden wir einen umfangreichen Methodenvergleich unterschiedlicher Gruppierungsmethoden auf der Basis von empirischen Sequenzdaten durchführen. Des weiteren werden wir eine neue Gene-Set Enrichment Methode (GSEA) entwickeln, welche speziell auf Sequenzdaten zugeschnitten ist und somit eine funktionelle Analyse der Daten auf Pathway-Ebene ermöglicht. Anschließend möchten wir die neu entwickelte GSEA Methode dahingehend erweitern, dass a-priori bekannte Beziehungen zwischen Genen und Varianten (zum Beispiel basierend auf Protein-Protein-Interaktionen) in die Analyse mit einbezogen werden können.
Derzeit beschäftigen sich viele groß angelegte DNA-Sequenzierungsstudien mit der Frage, ob und in welchem Umfang durch das Studium seltener Varianten neue Einblicke in die Ätiologie von komplexen genetischen Krankheiten gewonnen werden können. Leider hat die Entwicklung von Analysewerkzeugen nicht mit der Flut an Sequenzdaten mitgehalten. So etwa sind die Methoden für die Analyse von häufigen Varianten zwar weitgehend erforscht, die Entwicklung von statistischen Methoden für seltene Varianten hingegen stellt einen noch jungen, aber sehr aktiven, Forschungsbereich dar. Bei diesen Methoden handelt es sich um so genannte Gruppierungsmethoden. Um die Teststärke zu erhöhen werden zum Beispiel alle seltenen Protein-kodierenden Varianten eines Genes zu einer Gruppe zusammengefasst und gemeinsam analysiert. Innerhalb der letzten drei Jahre wurden mehr als 20 solcher Gruppierungsmethoden vorgeschlagen. Allerdings sind die Eigenschaften dieser Tests noch nicht vollständig charakterisiert und die publizierten Methodenvergleiche berücksichtigen nur eine geringe Anzahl von genetischen Architekturen oder reflektieren nicht die Eigenschaften von empirischen Daten. Deshalb ist es sehr schwierig, für eine bestimmte genetische Hypothese den optimalen Test für die Analyse von seltenen Varianten auszuwählen. In diesem Projekt haben wir einen umfangreichen Vergleich unterschiedlicher Gruppierungsmethoden auf der Basis von empirischen Sequenzdaten durchgeführt. Wir haben festgestellt, dass auch die Probenanzahl der größten heutigen Sequenzierungsstudien nicht ausreicht, um einen Großteil der krankheitsrelevanten seltenen Varianten zu identifizieren. Diese Ergebnisse widerlegen auch die Hypothese, dass komplexe Erkrankungen wie Diabetes Typ 2, stark von seltenen Varianten mit großen Effekten beeinflusst werden und dass kleine Studien von ein paar hundert Personen ausreichen, um diese Varianten zu identifizieren.
- University of Michigan - 100%
- Medizinische Universität Innsbruck - 100%
Research Output
- 5504 Zitationen
- 10 Publikationen
-
2016
Titel Improving power for rare variant tests by integrating external controls DOI 10.1101/081711 Typ Preprint Autor Lee S Seiten 081711 Link Publikation -
2016
Titel Reference-based phasing using the Haplotype Reference Consortium panel DOI 10.1038/ng.3679 Typ Journal Article Autor Loh P Journal Nature Genetics Seiten 1443-1448 Link Publikation -
2015
Titel An efficient resampling method for calibrating single and gene-based rare variant association analysis in case–control studies DOI 10.1093/biostatistics/kxv033 Typ Journal Article Autor Lee S Journal Biostatistics Seiten 1-15 Link Publikation -
2017
Titel Improving power for rare-variant tests by integrating external controls DOI 10.1002/gepi.22057 Typ Journal Article Autor Lee S Journal Genetic Epidemiology Seiten 610-619 Link Publikation -
2019
Titel Sequencing and Imputation in GWAS: Cost-Effective Strategies to Increase Power and Genomic Coverage Across Diverse Populations DOI 10.1101/548321 Typ Preprint Autor Quick C Seiten 548321 Link Publikation -
2016
Titel Next-generation genotype imputation service and methods DOI 10.1038/ng.3656 Typ Journal Article Autor Das S Journal Nature Genetics Seiten 1284-1287 Link Publikation -
2016
Titel mtDNA-Server: next-generation sequencing data analysis of human mitochondrial DNA in the cloud DOI 10.1093/nar/gkw247 Typ Journal Article Autor Weissensteiner H Journal Nucleic Acids Research Link Publikation -
2015
Titel The Power of Gene-Based Rare Variant Methods to Detect Disease-Associated Variation and Test Hypotheses About Complex Disease DOI 10.1371/journal.pgen.1005165 Typ Journal Article Autor Moutsianas L Journal PLOS Genetics Link Publikation -
2015
Titel Identification and Functional Characterization of G6PC2 Coding Variants Influencing Glycemic Traits Define an Effector Transcript at the G6PC2-ABCB11 Locus DOI 10.1371/journal.pgen.1004876 Typ Journal Article Autor Mahajan A Journal PLOS Genetics Link Publikation -
2020
Titel Sequencing and imputation in GWAS: Cost-effective strategies to increase power and genomic coverage across diverse populations DOI 10.1002/gepi.22326 Typ Journal Article Autor Quick C Journal Genetic Epidemiology Seiten 537-549 Link Publikation