BMFacts
BMFacts: Knowledge acquisition for a biomedical fact reposito
Wissenschaftsdisziplinen
Andere Humanmedizin, Gesundheitswissenschaften (30%); Andere Sozialwissenschaften (20%); Informatik (50%)
Keywords
-
Biomedical facts,
Biomedical linked data,
Knowledge acquisition,
Question answer system,
Co-Occurrences Analysis,
Biomedical terminologies
Das Informationsmanagement in der biomedizinischen Forschung, der Gesundheitsfürsorge und der translationalen Medizin würde von strukturierten Repositories, die allgemein anerkannte biomedizinische Fakten darstellen und miteinander verbinden, stark profitieren. Solche Faktenspeicher könnten als Wissensressourcen genutzt werden, um zusätzlich zu den bereits etablierten biomedizinischen Terminologien und Ontologien die Dokumentensuche, die Beantwortung von Fragen und die Entscheidungsunterstützung zu unterstützen. Die Literaturdatenbank MEDLINE mit mehr als 22 Millionen bibliographischen Einträgen ist bereits eine umfassende Quelle für halbstrukturierte biomedizinische Informationen, insbesondere aufgrund der damit verbundenen umfangreichen Metadaten-Annotationen, die das MeSH- Indexierungsvokabular verwenden. Diese Daten sind über den UMLS Metathesaurus mit anderen biomedizinischen Terminologien und Ontologien verknüpft. Diese Ressource bietet darüberhinausstatistischeKo-Okkurrenzenauf der Grundlagegemeinsamer Korpusannotationen, die eine wertvolle, abernoch nicht ausreichend genutzte Informationsquelle darstellen. Das vorgeschlagene Projekt BMFacts zielt darauf ab, das Potenzial von Ko-Okzidenzdaten und biomedizinischen Terminologien zu nutzen, um semantische Beziehungen auf der Grundlage statistischer Assoziationen von Annotationen in biomedizinischen Publikationen abzuleiten. Die Prinzipien von Linked Data werden angewandt, um den Inhalt der BMFR mit externen Datensätzen zu erweitern und die translationale Medizin durch die generierten Triples zu unterstützen.Der Inhalt der BMFR wird darüber hinaus auf drei Arten verfeinert: (i) durch den Vergleich mit Fakten aus der Linking Open Data (LOD) Cloud, (ii) durch die Verwendung zusätzlicher Metadaten und Auszüge aus MEDLINE und (iii) durch den Abgleich von Freitext-Wiedergaben der Prädikationen mit großen medizinischen Referenzkorpora.Nach diesem Bereinigungsprozess wird die BMFR anhand von zwei Anwendungsszenarien einem Benchmarking unterzogen:(i) ein Rahmenwerk für die Beantwortung von Fragen, das auf den Informationsbedarf von Laien in Bezug auf Diabetes mellitus und verwandte Krankheiten abzielt und für das ein Goldstandard existiert; und (ii) eine Infrastruktur für klinische Abfragen auf einem Korpus anonymisierter klinischer Texte, für die eine Reihe von Benutzerabfragen und Relevanzbeurteilungen existieren.
Das Ziel von BMFacts war es, Methoden zu entwickeln und zu evaluieren, mit denen allgemeingültige faktenähnliche Aussagen aus der biomedizinischen Literaturdatenbank MEDLINE gewonnen werden können. Diese biomedizinische Wissensbasis kann dabei unterstützend für folgende Anwendungsfälle herangezogen werden: Dokumentenrecherche, automatischen Beantworten von Fragen, sowie maschinelle Entscheidungshilfen. Im Gegensatz zu biomedizinischen Terminologien und Ontologen, die allgemeine Wahrheiten ausdrücken (z.B. dass Lungenkrebs immer in der Lunge lokalisiert ist), zielte BMFacts darauf ab, kontingentes Wissen zu Symptom- Krankheit-Assoziationen, Medikamentenindikationen und -nebenwirkungen, sowie zu Krankheitsursachen (z.B. Rauchen verursacht Lungenkrebs) zu generieren. MEDLINE ist eine reiche Quelle für die Extraktion biomedizinischer Informationen, vor allem aufgrund von Annotationen jedes Datensatzes mit dem Indexierungsvokabular MeSH. Die BMFacts Methodik hat Hunderte von Millionen von MeSH-Annotationen verarbeitet, die in MEDLINE enthalten sind, um eine Liste häufig gemeinsam auftretender MeSH-Termpaare (Kookkurrenzen) zu erhalten. Mittels Clustering wurden geeignete Prädikate induziert, die diesen Kookkurrenzen Bedeutung verleihen. Als Quelle möglicher, biomedizinisch relevanter Prädikate wie "behandelt", "diagnostiziert", "verhindert" etc. wurde auf das UMLS Semantic Network, zugegriffen. Die Prädikate wurden nach lexikalischer Häufigkeit in ebenfalls aus MEDLINE gewonnenen Artikel-Abstracts selektiert. Das Resultat war eine Wissensbasis aus biomedizinischen Aussagen als einfache Subjekt-Prädikat-Objekt-Triple. Die so produzierte Auflistung biomedizinischer Fakten wurde anhand eines vorgegebenen Goldstandards aus einem früheren Projekt, in dem die Ärzte manuell einen Satz von plausiblen Aussagen zu Diabetes mellitus erstellt hatten, evaluiert. Die Auswertungsergebnisse zeigten die Stärken und Schwächen dieser komplett unüberwachten Lernmethode. Abhängig von dem untersuchten Prädikat wies die Präzision der extrahierten Prädikationen eine erhebliche Variationsbreite auf. Eine eingehende Analyse zeigte, dass in vielen Fällen die Kookkurrenz von MeSH-Termen nicht durch einfache Prädikate ausdrückbare Zusammenhänge, sondern vielmehr durch komplexe Verkettungen erklärbar war, wie z.B.: Diabetes mellitus verursacht eine Nierenerkrankung, aus welcher eine Niereninsuffizienz entsteht, welche durch Nierentransplantation behoben wird (während die vom System erzeugte Prädikation Nierentransplantation; behandelt; Diabetes mellitus primär als inkorrekt zu betrachten ist). Auch die Tatsache, dass sich zahlreiche MeSH-Annotationen nicht auf das Kernthema einer Publikation, sondern auf kontextuelle Fakten bezogen, trat als Störfaktor in Erscheinung. Das Vorliegen zahlreicher falsch positiver Prädikationen limitiert derzeit noch die Nutzbarkeit der erzeugten Wissensbasis. Aus der Fehleranalyse wurden mehrere Strategien entwickelt, um diese Probleme zu mindern und die Qualität der Wissensbasis zu heben. Lösungsansätze hierzu sind die vorherige Filterung von Datensätzen sowie die Verwendung von überwachten maschinellen Lernmethoden, sowie von Experten definierte Regeln. Dies wird Gegenstand von Nachuntersuchungen sein, deren Planung vom BMFacts Projektteam derzeit erarbeitet wird.
Research Output
- 7 Publikationen
-
2015
Titel Acquiring Plausible Predications from MEDLINE by Clustering MeSH Annotations DOI 10.3233/978-1-61499-564-7-716 Typ Book Chapter Autor MiÑArro-GimÉNez Jose Antonio Verlag IOS Press -
2016
Titel Publishing Biomedical Predication Repository About MeSH Co-Occurrences in MEDLINE. Typ Journal Article Autor Martínez Mq Journal Studies in health technology and informatics Seiten 765-9 -
2016
Titel MapReduce in the Cloud: A Use Case Study for Efficient Co-Occurrence Processing of MEDLINE Annotations with MeSH. Typ Journal Article Autor Kreuzthaler M Journal Studies in health technology and informatics Seiten 582-6 -
2016
Titel Publishing Biomedical Predication Repository About MeSH Co-Occurrences in MEDLINE DOI 10.3233/978-1-61499-678-1-765 Typ Book Chapter Autor MiÑArro-GimÉNez Jose Antonio Verlag IOS Press -
2016
Titel MapReduce in the Cloud: A Use Case Study for Efficient Co-Occurrence Processing of MEDLINE Annotations with MeSH DOI 10.3233/978-1-61499-678-1-582 Typ Book Chapter Autor Kreuzthaler Markus Verlag IOS Press -
2015
Titel Acquiring Plausible Predications from MEDLINE by Clustering MeSH Annotations. Typ Journal Article Autor Kreuzthaler M Journal Studies in health technology and informatics Seiten 716-20 -
2015
Titel Knowledge Extraction from MEDLINE by Combining Clustering with Natural Language Processing. Typ Journal Article Autor Kreuzthaler M Journal AMIA ... Annual Symposium proceedings. AMIA Symposium Seiten 915-24