Procedimiento semi-automático para transformar la web en web semántica

  1. Criado Fernández, Luis
Dirigida por:
  1. Rafael Martínez Tomás Director

Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 28 de septiembre de 2009

Tribunal:
  1. José Manuel Molina López Presidente/a
  2. Mariano Rincón Zamorano Secretario
  3. Miguel Rodríguez Artacho Vocal
  4. María Araceli Sanchís de Miguel Vocal

Tipo: Tesis

Resumen

El concepto de Web Semántica exige una representación formal de la información de acuerdo a ontologías de referencia que doten a la Web de semántica para los sistemas informáticos. Hay un acuerdo generalizado de que esto se haga a través de lenguajes estándar de etiquetado. Pero también exige que haya suficientes anotaciones semánticas de este tipo, es necesaria una cierta "masa crítica" para que tenga sentido global en la Web. Y esto no se ha conseguido fundamentalmente por la complejidad que plantea realizar la anotación de forma manual. Sólo cuando se tenga la facilidad de generar suficientes anotaciones semánticas, ya sea de forma automática o semi-automática, se podrá extender la semántica en los contenidos de la Web. A partir de esta situación ya se podrán desarrollar aplicaciones que aprovechen o saquen partido de esa semántica, las aplicaciones semánticas. Y hacia este problema se orienta, ya más particularmente, nuestra investigación. Así, la principal aportación específica de esta tesis es la propuesta de un procedimiento para contribuir en la extensión de la población de ontologías, que facilita a un usuario activo el etiquetado semántico de la información que gestiona, y que ya ha descrito en texto en su página HTML, de acuerdo a la ontología u ontologías que el sistema ha identificado como más afines a sus contenidos. En nuestro trabajo se tiene muy en cuenta esta última posibilidad, el contenido a etiquetar puede hacer referencia a diferentes temas o puede interpretarse desde diferentes puntos de vista, lo que en este trabajo denominaremos generar diferentes "vistas semánticas". Pero además un sitio web semántico debe ser compatible con la Web actual, es decir, el proceso de anotación no debe afectar al funcionamiento actual de cualquier buscador. En consecuencia, al transformar un sitio web en un sitio web semántico se obtendrá funcionalidades semánticas que podrán ser explotadas por un buscador semántico, pero cuando sea tratado por un buscador ordinario existirá compatibilidad total y el buscador ordinario lo tratará como si fuera un sitio web más. También en esta tesis se ha tenido en cuenta esta exigencia, las vistas semánticas se mantienen diferenciadas de la página HTML, accesibles pero sin afectar a los buscadores habituales. Hemos definido unas etapas de transformación que deben realizarse de forma secuencial. La primera que denominamos identificación permite asociar la ontología u ontologías que están más cercanas al contenido de la página web. Esta selección de ontologías es fundamental para que en la etapa siguiente, que denominamos extracción, se procese el texto a nivel morfológico y sintáctico. Finalmente, la última etapa que hemos denominado interpretación se encarga de la anotación semántica. La anotación se hace en nuestro estudio en OWL DL por ser el lenguaje estándar para la descripción de semántica en la Web y permitir las inferencias propias de la lógica descriptiva SROID(D) en el que se sustenta. En el desarrollo, la metodología empleada se ha basado en simplificar la problemática sin perder la categoría conceptual para poder abarcar todo el ámbito de la propuesta, compuesta por una secuencia de procesos que se desarrollan a lo largo de la tesis. Es decir, se ha planteado un escenario simplificado que recrea los elementos fundamentales de la Web actual para proponer una estrategia de migración o transformación hacia la Web Semántica. Las conclusiones alcanzadas son el resultado de un proceso de autocorrección experimental. Hemos implementado por completo la propuesta de esta tesis que puede ser verificada por cualquier investigador siguiendo las indicaciones del anexo de la tesis. Para realizar esta transformación o migración, se ha implementado una herramienta prototipo (sw2sws) que automatiza las tres etapas que hemos presentado. Se ha probado sobre sitios webs reales. Nuestra herramienta prototipo automatiza el proceso de anotación con las ontologías usadas en la tesis, pero es fácilmente adaptable para soportar otras. Además nuestro enfoque acepta la posibilidad de intervención del usuario (proceso semiautomático) que complete o mejore cualquiera de las fases del proceso global. La calidad de la anotación obtenida depende de varios factores; como son la propia calidad de la ontología con respecto a la que anota (afinidad, precisión, estandarización, completitud, etc), la claridad del contenido y la capacidad de extracción y análisis, condicionada, en gran medida, al procesado de lenguaje natural (PLN). Esta tesis no pretende resolver el problema del PLN para la anotación; no obstante, para probar el proceso, hemos realizado un pequeño módulo de PLN que permite mostrar la viabilidad para usuarios activos, usuarios que participan en los contenidos y que son inexpertos en las técnicas de la Web Semántica. Alcanzado el objetivo principal, para mostrar cómo explotar esta información que ya tiene semántica y cerrar todo la secuencia del proceso, nos hemos visto en la necesidad de diseñar e implementar un prototipo propio de buscador semántico, al que hemos denominado Vissem, capaz de interpretar preguntas en lenguaje natural y efectuar las búsquedas correspondientes sobre las instancias de los sitio web semánticos que hemos generado.