Biomedical Information Extraction: Exploring new entities and relationships

Fabregat Marcos, Hermenegildo

Biomedical Information ExtractionExploring new entities and relationships

Fabregat Marcos, Hermenegildo

Dirigida por:

Lourdes Araujo Directora
Juan Martínez Romo Director

Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 16 de septiembre de 2021

Tribunal:

Isabel Segura Bedmar Presidente/a
Víctor Fresno Fernández Secretario
Arkaitz Zubiaga Vocal

Tipo: Tesis

Teseo: 709736 DIALNET Acceso abierto editor

Resumen

En la actualidad, los diferentes procesos de digitalización y difusión de información en los que está inmersa la sociedad han dado lugar a un incremento de la información disponible, sobre todo en el dominio biomédico. Debido al esfuerzo requerido para procesar tales cantidades de información, una línea de investigación notablemente activa en la última década es la exploración de técnicas de procesamiento de lenguaje natural y aprendizaje automático para la extracción de información de documentos no estructurados. Estas técnicas están suponiendo grandes hitos en el dominio biomédico, en especial en algunas tareas de extracción de información como el reconocimiento de entidades nombradas y la extracción de relaciones. En esta tesis presentamos una investigación centrada en el análisis automático de documentos de este dominio, profundizando en el procesamiento de documentos acerca de discapacidades y limitaciones funcionales. Este tipo de patologías tienen un alto impacto social ya que afectan al día a día de una gran parte de la población, conllevando en algunos casos serios impedimentos sobre la autonomía de las personas afectadas. Además, muchas enfermedades raras tienen asociadas diversas discapacidades, por lo que frecuentemente se usan para caracterizarlas y pueden ser rasgos de gran utilidad en el diagnóstico de estas enfermedades, para las que por su naturaleza se suele contar con poca información. El objetivo principal de esta tesis es la exploración de documentos del dominio biomédico para el reconocimiento de menciones a discapacidades y la identificación de sus relaciones con enfermedades raras. La detección de estas entidades presenta dificultades específicas, que van desde la falta de concreciones formales para la definición de discapacidad, hasta la necesidad de considerar el gran número de formas diferentes de expresar una misma discapacidad. Con el fin de abordar este objetivo, resultó necesaria la recolección y anotación de diferentes colecciones de datos, incluyendo documentos en diferentes idiomas. Tras la generación de las diferentes colecciones de datos, proseguimos con la exploración de sistemas de reconocimiento de entidades para la identificación de menciones a enfermedades raras y discapacidades, y con el estudio de sistemas para la extracción de relaciones entre discapacidades y enfermedades raras. Profundizando en el análisis de este tipo de entidades, extendimos la exploración de las dificultades para la generación de sistemas automáticos orientados al reconocimiento de discapacidades mediante la proposición de una tarea de evaluación. Las diferentes lecciones aprendidas durante la tarea de evaluación propuesta nos sirvieron para el desarrollo y refinamiento de un sistema automático basado en deep learning para el reconocimiento de discapacidades. El sistema desarrollado se basó en el uso mixto de diferentes tipos de redes recurrentes y planteó mejoras sobre sistemas actuales del estado del arte. Al mismo tiempo, este sistema nos sirvió de base para la exploración de sistemas de reconocimiento de entidades y extracción de relaciones de forma conjunta. El estudio de la sinergia existente entre ambas tareas supuso la obtención de mejoras significativas. Por ultimo y con el objetivo de explorar los efectos de la negación sobre sistemas de extracción de información, analizamos el rendimiento de enfoques para el procesamiento automático de la negación en documentos en español e inglés. Durante este análisis comprobamos el rendimiento de diferentes propuestas basadas en deep learning para la detección de disparadores de negación y sus alcances, obteniendo mejoras sobre propuestas del estado del arte para el procesamiento de documentos en español. Los resultados obtenidos durante el procesamiento de la negación supusieron además interesantes mejoras en la extracción de relaciones y en el reconocimiento de entidades.