Semantic similarity analysis and application in knowledge graphs
- Zhu, Ganggao
- Carlos Ángel Iglesias Fernández Director/a
Universitat de defensa: Universidad Politécnica de Madrid
Fecha de defensa: 19 de de juny de 2017
- Juan Ramón Velasco Pérez President/a
- Álvaro Carrera Barroso Secretari/ària
- Ana M. García Serrano Vocal
- Mercedes Garijo Ayestaran Vocal
- Alberto Fernández Gil Vocal
Tipus: Tesi
Resum
Las técnicas avanzadas de extracción de información y la creciente disponibilidad de datos vinculados han dado a luz a la noción de Grafo de Conocimiento (Knowledge Graph, KG) de gran escala. Con la creciente popularidad de KGs que contienen millones de conceptos y entidades, la investigación de herramientas fundamentales que estudian características semánticas de KGs es crítica para el desarrollo de aplicaciones basadas en KG, aparte del estudio de las técnicas de población de KG. Con este enfoque, esta tesis explora la similitud semántica en KGs teniendo en cuenta el concepto de taxonomía, concepto de distribución, la entidad descripciones y las categorías. La similitud semántica captura la cercanía de significados. A través del estudio de la red semántica de conceptos y entidades con relaciones significativas en KGs, hemos propuesto una nueva métrica de semántica WPath semántica, y un nuevo método de computación basado en información gráfica (IC). Con el WPath y el IC basado en gráfos, la similitud semántica de los conceptos se puede calcular directamente, basándose únicamente en el conocimiento estructural y el conocimiento estadístico contenido en KGs. Los experimentos en similitud de palabras han demostrado que la mejora de los métodos propuestos es estadísticamente significativa en comparación con los métodos convencionales. Por otra parte, observando que los conceptos suelen ser colocados con descripciones textuales, proponemos un nuevo enfoque de incorporación para formar el concepto y incorporación de palabras conjuntamente. El espacio vectorial compartido de conceptos y palabras ha proporcionado una computación de la similitud conveniente entre conceptos y palabras a través de similitud vectorial. De manera adicional, se ilustran algunas aplicaciones de modelos basados en el conocimiento, en corpus y en embeddings en la tarea de desambiguación y clasificación semántica, con el fin de demostrar la capacidad e idoneidad de diferentes métodos de similitud en aplicaciones específicas. Por último, la búsqueda de entidad semántica se utiliza como una demostración ilustrativa de un nivel más alto de la aplicación que consiste en similitud basado en el texto de concordancia, la desambiguación y la expansión de la consulta. Para implementar la demostración completa de la consulta de información centrada en la entidad, también proponemos un enfoque basado en reglas para construir y ejecutar automáticamente consultas SPARQL.