Automatic Categorization of Electronic Health Records

ALMAGRO CADIZ, MARIO

Automatic Categorization of Electronic Health Records

ALMAGRO CADIZ, MARIO

unter der Leitung von:

Raquel Martínez Unanue Doktormutter
Víctor Fresno Fernández Doktorvater

Universität der Verteidigung: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 13 von Dezember von 2021

Gericht:

Paloma Martínez Fernández Präsident/in
Julio Gonzalo Arroyo Sekretär
Vincenzo Della Mea Vocal

Art: Dissertation

Teseo: 716013 DIALNET Open Access editor

Zusammenfassung

La Clasificación Internacional de Enfermedades (International Statistical Classification of Diseases and Related Health Problems, ICD) es el estándar mundial más extendido para la recogida de información sanitaria. Este estándar organiza jerárquicamente miles de eventos clínicos, detallando diferentes niveles de información agregada y vinculando cada uno a un identificador único, o código. Su empleo es necesario para la estandarización de la información contenida en los Informes Médicos Electrónicos (Electronic Health Records, EHRs), asegurando la interoperabilidad de los datos. De esta forma, la clasificación sirve de apoyo a estudios estadísticos, ensayos clínicos, auditorías médicas y financiación de los hospitales. Esta tesis doctoral se centra en la codificación ICD y explora múltiples métodos para abordar de forma automática la transformación del texto clínico en etiquetas diagnósticas. L os fundamentos de la tesis se estructuran en torno a los retos computacionales que hemos detectado en la décima revisión del ICD (ICD-10). El gran número de códigos potenciales, la diferencia en la prevalencia de las enfermedades, el acceso limitado a los datos clínicos, y la estructura jerárquica con diferentes granularidades semánticas son propiedades inherentes a la codificación ICD-10 que hemos asociado a la escasez de instancias, las distribuciones desequilibradas de datos, y los problemas de generalización y concordancia semántica. Dadas las dificultades para inferir gran parte de los códigos a partir de los datos, hemos explorado técnicas no supervisadas basadas en la concordancia léxica y semántica entre las representaciones de las etiquetas y los EHRs. Hemos comparado un Modelo de Espacio Vectorial (Vector Space Model, VSM), basado en la unificación de sinónimos, con un método de grafos que explota la estructura de SNOMED CT. Las anotaciones ICD-10 siguen distribuciones extremas con enormes clases muy desbalanceadas. Hemos explorado métodos de aumento de datos para mejorar la representabilidad de los códigos minoritarios aplicando técnicas de sustitución léxica y Traducción Automática (Machine Translation, MT). También hemos propuesto el uso de métodos de Clasificación Extrema Textual Multietiqueta (eXtreme Multi-label Text Classification, XMTC) que explotan las codependencias de las etiquetas para mejorar la inferencia de los códigos menos frecuentes, al tiempo que se abordan los problemas de escalabilidad. La codificación es una tarea de alto nivel que requiere un amplio conocimiento semántico del dominio biomédico para hacer frente a los distintos grados de abstracción. Por ello, hemos explorado múltiples métodos de aprendizaje por transferencia para introducir conocimiento externo en la tarea. Hemos explorado enfoques lingüísticos cruzados, la generación y aplicación de representaciones vectoriales del dominio clínico, y el uso de modelos pre-entrenados en categorías superiores para incorporar información jerárquica. Por último, hemos implementado una aproximación compuesta por diferentes técnicas que consigue mejoras significativas respecto a otras aproximaciones convencionales exploradas. En particular, se ha empleado un sistema de votación basado en rangos de frecuencias para aprovechar la complementariedad de los distintos algoritmos.