DemKGA unified knowledge graph framework for multimodal dementia research data integration

  1. TIMÓN REINA, SANTIAGO
Zuzendaria:
  1. Mariano Rincón Zamorano Zuzendaria
  2. Rafael Martínez Tomás Zuzendarikidea

Defentsa unibertsitatea: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 2023(e)ko abendua-(a)k 11

Epaimahaia:
  1. Maria Solagne Pires Ferreira Rito Lima Presidentea
  2. Andrés Duque Fernández Idazkaria
  3. José Manuel Juarez Herrero Kidea

Mota: Tesia

Teseo: 829118 DIALNET lock_openTESEO editor

Laburpena

Esta tesis doctoral aborda los desafíos inherentes a la integración de datos multimodales en los ámbitos de la neurociencia y la investigación sobre demencia. En las últimas décadas, campos como la biomedicina y la neurociencia han avanzado notablemente, impulsados tanto por tecnologías "ómicas" -genómica, proteómica, metabolómica- como por mejoras en técnicas de imagen y fentipado de alta resolución. Estos progresos han generado vastos conjuntos de datos multimodales, lo que ha llevado a la necesidad de crear plataformas especializadas para la gestión de datos biomédicos. La unificación de estos conjuntos de datos para obtener resultados prácticos continúa siendo un desafío tecnológico. Las ontologías biomédicas ofrecen un marco robusto para la gestión de datos y han mejorado la colaboración y el intercambio de conocimiento. Paralelamente, las tecnologías de bases de datos de grafos han avanzado, ofreciendo modelos de representación más intuitivos y capacidades de consulta mejoradas. Los Grafos de Conocimiento (KGs por sus siglas en inglés) representan un avance crucial en el modelado semántico y de conocimiento, con aplicaciones particularmente relevantes en el ámbito biomédico. Mediante un modelo de datos basado en grafos, los KGs facilitan la integración y gestión de extensos conjuntos de datos provenientes de diversas fuentes, tales como biología molecular, farmacología y bases de datos de enfermedades. Estos grafos enlazan entidades biomédicas importantes y sus respectivas relaciones, mitigando así problemas como la fragmentación de datos y posibilitando un enfoque de investigación más cohesivo e integral. Asimismo, al emplear este tipo de estructuras pueden explotarse junto a métodos analíticos y de aprendizaje automático orientados a grafos, que se están consolidando como herramientas fundamentales para el análisis de datos biológicos complejos. A pesar del avance tecnológico, la adopción de estas tecnologías en grupos de investigación sigue siendo limitada, en gran parte debido a la empinada curva de aprendizaje que conllevan. Esta situación resulta en implementaciones ad-hoc o circunscritas a dominios específicos, lo que restringe una aplicación más generalizada y el intercambio eficaz de datos. En consecuencia, surge una necesidad creciente de soluciones que sean abiertas, flexibles y de aplicación universal. En esta tesis, presentamos DemKG, un marco diseñado para la generación y utilización de grafos de conocimiento con un enfoque particular en la demencia. Inicialmente, introducimos un Marco Semántico Incremental (ISF) que sienta las bases para la integración de ontologías biomédicas de referencia y establece la terminología fundamental. Implementamos este marco en sistemas de gestión de datos biomédicos, como XNAT, para demostrar su aplicabilidad. Dado el carácter interrelacionado de las ontologías biomédicas y los datos semánticos, investigamos el uso de bases de datos de grafos en el ámbito biomédico. DemKG se configura como una solución modular que incluye extensiones terminológicas específicas para la investigación en demencia, un sistema para la instanciación de datos de investigación para su integración en grafos de conocimiento y un módulo de construcción final que permite la personalización de fuentes de conocimiento. Para validar nuestro enfoque, implementamos este conjunto de herramientas en múltiples escenarios prácticos, utilizando datos de investigación en demencia y aplicando diversas metodologías contemporáneas. La tesis se organiza en siete capítulos. El Capítulo 1 proporciona una introducción al contexto de la investigación, identifica oportunidades de mejora y establece la hipótesis y los objetivos. El Capítulo 2 aborda el marco teórico y las herramientas metodológicas empleadas. El Capítulo 3 se centra en el Marco Semántico Incremental y su implementación en XNAT, utilizando datos de investigación en demencia. El Capítulo 4 realiza una revisión exhaustiva de la aplicación de bases de datos de grafos en el ámbito biomédico. El Capítulo 5 detalla el diseño y la propuesta de DemKG, ilustrando su aplicabilidad mediante diversos casos de uso que examinan biomarcadores y fenotipos en demencia. El Capítulo 6 lista publicaciones resultado de la colaboración durante este trabajo de investigación. Finalmente, el Capítulo 7 presenta las conclusiones del estudio y esboza varias direcciones para futuras investigaciones.