Recent Advances in Ontology-based Semantic Similarity Measures and Information Content Models based on WordNet

  1. Lastra Díaz, Juan José
Dirigida por:
  1. Ana M. García Serrano Directora

Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 30 de noviembre de 2016

Tribunal:
  1. Julio Gonzalo Arroyo Presidente
  2. David Sánchez Ruenes Secretario/a
  3. Sébastien Harispe Vocal

Tipo: Tesis

Resumen

Los juicios de semejanza entre conceptos subyacen tras la mayoría de capacidades cognitivas, tales como la categorización, la memoria, la toma de decisiones y el razonamiento. Por lo tanto, la propuesta de modelos de semejanza conceptual para estimar el grado de semejanza entre pares de palabras y conceptos ha sido una línea muy activa de investigación, con muchas aplicaciones en los campos de las ciencias cognitivas, la inteligencia artificial, la recuperación de la información (RI) y la genómica, entre otros. El enfoque de mayor éxito para estimar juicios de semejanza es definido por la familia de medidas de semejanza semántica basadas en ontologías para dominios generales de aplicación basados en WordNet, o MeSH y SNOMED para aplicaciones biomédicas, así como la Ontología Génica (GO) para genómica. El advenimiento de la Web Semántica ha motivado la aparición de una nueva familia de modelos de recuperación de la información y sistemas de búsqueda semántica basados en ontologías. En este último escenario, las ontologías han sido extensivamente utilizadas como espacios conceptuales con el propósito de indexar y representar grandes colecciones de documentos y otros tipos de información anotada semánticamente. Esta tesis presenta dos nuevas familias de medidas de semejanza semántica basadas en ontologías y modelos de contenido de la información basados en WordNet, junto con los mayores estudios experimentales publicados. Nuestros experimentos se basan en nuestra propia implementación de la mayoría de métodos publicados. Adicionalmente, esta tesis presenta algunas contribuciones significativas en la reproducibilidad de estudios experimentales de semejanza entre palabras, medidas de semejanza semántica basadas en ontologías y modelos de contenido de la información, tales como: (1) un nuevo y eficiente modelo de representación para taxonomías, denominado PosetHERep, el cual es una adaptación de la estructura de datos "half-edge", utilizada comunmente para representar variedades discretas y grafos planos; (2) una nueva biblioteca de software en Java, denominada Half-Edge Semantic Measures Library (HESML), basada en PosetHERep, la cual implementa la mayoría de medidas de semejanza semántica basadas en ontologías y modelos de contenido de la información reportados en la literatura; (3) un conjunto de experimentos reproducibles de semejanza entre palabras basados en HESML y ReproZip, con el propósito de reproducir de manera exacta los experimentos publicados en todos nuestros trabajos anteriores; (4) un marco y conjunto de datos de replicación, denominado WNSimRep v1, cuyo objetivo es ayudar en la replicación exacta de la mayoría de métodos publicados; y por último, (5) un conjunto de estudios experimentales de rendimiento y escalabilidad para librerías de medidas semánticas. Nuestra nueva familia de medidas de semejanza basadas en ontologías está basada en dos nociones no consideradas con anterioridad: una generalización de la distancia clásica de Jiang-Conrath a cualquier tipo de taxonomía, la cual se basa en un grafo pesado basado en un modelo de contenido de la información derivado de las probabilidades condicionales entre conceptos padres e hijos, y una función de normalización no lineal que convierte las medidas de distancia semántica basadas en ontologías en funciones de semejanza. Asimismo, nuestra nueva familia de modelos de contenido de la información de tipo intrínseco y basados en corpus se basa en dos nociones no consideradas previamente: la preservación de la estructura probabilística de la taxonomía asociada a las probabilidades condicionales entre conceptos padre e hijos, y la consideración explícita de una noción de semejanza cognitiva en la definición del modelo de contenido de la información. Nuestras nuevas medidas de semejanza basadas en modelos de contenido de la información superan de manera estadísticamente significativa a las medidas estado del arte, mientras que nuestra nueva familia de modelos de contenido de la información obtiene resultados comparables con respecto a los métodos estado del arte y define un marco abierto para la derivación de nuevos modelos intrínsecos de contenido de la información basados en métodos alternativos para la estimación de las probabilidades condicionales entre conceptos padre e hijos. Por otra parte, PosetHERep propone un modelo eficiente de representación para taxonomías respecto al uso de memoria, el cual escala linealmente con el tamaño de la taxonomía y ofrece una implementación eficiente de la mayoría de algoritmos basados en taxonomías que son empleados por las medidas semánticas y los modelos de contenido de la información, mientras que HESML ofrece un marco abierto para ayudar en la investigación en el área ofreciendo una arquitectura de software más sencilla y eficiente que las bibliotecas de software actuales. HESML supera a las bibliotecas de medidas semánticas actuales por varios órdenes de magnitud y prueba que es posible mejorar significativamente su rendimiento y escalabilidad sin utilizar almacenamiento auxiliar mediate el uso de PosetHERep. Nuestros grandes estudios comparativos, incluyendo la mayoría de medidas de semejanza y modelos de contenido de la información publicados, también nos conducen a alertar sobre algunos problemas de reproducibilidad en la replicación de métodos y experimentos publicados previamente, así como al descubrimiento de resultados contradictorios. Asimismo, nuestros estudios experimentales nos permiten refutar dos creencias comunes mantenidas entre la comunidad científica: (1) una creencia errónea sobre la ventaja de rendimiento de los modelos de contenido de la información de tipo intrínseco sobre los basados en corpus que es refutada por nuestros resultados, y (2) otra creencia errónea sobre la ventaja global de las medidas clásicas de semejanza basadas en modelos de contenido de la información sobre la familia de medidas semánticas basadas en caminos, la cual es refutada por nuestra conclusión de que sólo un pequeño conjunto de medidas híbridas recientes de semejanza basadas en modelos de contenido de la información obtiene una correlación de Spearman de manera estadísticamente significativa mayor que la familia de medidas de semejanza basadas en caminos. Este último hecho explica algunos resultados inesperados en aplicaciones de recuperación de la información basadas en medidas de semejanza en las cuales algunos autores señalan que no existe una diferencia estadísticamente significativa entre el rendimiento obtenido por las familias de medidas de semejanza clásicas basadas en modelos de contenido de la información y otras medidas clásicas basadas en la longitud del camino más corto entre conceptos cuando se emplea la métrica de correlación de Spearman.