Integración de técnicas de procesamiento del lenguaje natural para la recuperación de información en bibliotecas de componentes software

  1. Buenaga Rodríguez, Manuel de
Dirigée par:
  1. Alfredo Fernández-Valmayor Crespo Directeur/trice

Université de défendre: Universidad Complutense de Madrid

Année de défendre: 1996

Jury:
  1. Antonio Vaquero Sánchez President
  2. M. Covadonga López Alonso Secrétaire
  3. Roberto Moriyón Salomón Rapporteur
  4. María Felisa Verdejo Maíllo Rapporteur
  5. María del Carmen Fernández Chamizo Rapporteur

Type: Thèses

Résumé

En esta memoria se hace un estudio de la forma en que las técnicas y modelos desarrollados en torno a la recuperación de información (RI) pueden utilizarse en el desarrollo de sistemas de ayuda a la utilización de bibliotecas de componentes software (BCS). En el desarrollo de este tipo de sistemas se le asigna un papel central a la utilización de la documentación en lenguaje natural existente en las BCS. En nuestro trabajo investigamos las formas en que las técnicas de procesamiento del lenguaje natural (PLN) aplicadas a un análisis mas profundo de los textos y las consultas de los usuarios, pueden mejorar el proceso de recuperación. Se presenta el sistema argos, que hemos desarrollado como sistema de ayuda para la utilización de BCS en el que las técnicas de RI juegan un papel fundamental. El sistema argos se ha desarrollado como sistema de ayuda para el conjunto de ordenes del sistema operativo Unix y procesa el manual existente en formato electrónico en este entorno. Argos incluye diversos elementos y funcionalidades, tales como el modelado del usuario y funciones de navegación basadas en hipertexto, orientadas a proporcionar ayuda de la forma mas efectiva a los usuarios de las bcs. El sistema incluye un módulo que encapsula las funcionalidades más directamente relacionadas con las técnicas de RI. Este módulo se basa en el modelo del espacio vectorial, la utilización de pesos de términos, listas de parada y algoritmos de extracción de raíces. @LF@ En nuestro estudio se ha hecho patente una importante evidencia experimental de que los sistemas basados en estas técnicas proporcionan una efectividad en el proceso de recuperación difícil de superar por otras aproximaciones. No obstante, y con el fin de mejorar la efectividad, se realiza un estudio profundo de la utilización de técnicas de pln para la ri. Se analizan los sistemas de ti que utilizan diversas técnicas de pln y se diferencian dos aproximaciones: la basada en la sintaxis y la basada en la semántica, los sistemas que siguen esta aproximación introducen mejoras en la efectividad del proceso de recuperación superiores a los basados en la sintaxis. La profundidad del análisis realizado por los diferentes sistemas que siguen una aproximación basada en la semántica varia de unos otros. Dos problemas comunes a todos los sistemas basados en la semántica son su especificidad de dominio y su importante esfuerzo de desarrollo. La principal aportación de esta tesis consiste en la propuesta de un nuevo modelo de sistema de ayuda para la utilización de bcs centrado en el procesamiento de las documentación en lenguaje natural existente en estos entornos. En este modelo se integran técnicas de PLN en la RI, siguiendo una aproximación basada en la semántica. Para materializar este modelo, se ha diseñado e implementado el sistema ares. El sistema se especializa en los problemas que plantea la brevedad de las descripciones de un numero importante de colecciones de componentes software. Ares procesa el conjunto de las 432 descripciones cortas de las ordenes de unix de la sección 1 del manual del sistema operativo. El sistema se ha diseñado de forma que se mejore la efectividad del proceso de recuperación, se disminuya el esfuerzo de desarrollo y se facilite su adaptación a otras colecciones de componentes software. @LF@ Para reducir el esfuerzo de desarrollo, el léxico del sistema ares se ha construido de forma automática a partir de la información existente en una base de datos léxica, wordnet. Se ha definido una forma de representación semántica de las descripciones, basada en los roles de las gramáticas de casos y los significados de los términos originalmente definidos en wordnet. Para la implementacion del analizador-traductor, se ha desarrollado de forma incrementa una gramática de unificación que permite procesar correctamente el 64.8% de las descripciones cortas del manual. La gramática asi desarrollada se utiliza también para el procesamiento de las consultas de los usuarios. El método de calculo de la similitud entre descripciones y consultas se ha definido de forma que se considera la estructura semántica de las expresiones y los significados de los términos que aparecen en ellas. Finalmente, se ha desarrollado una serie de experimentos en los que se observan las mejoras en la efectividad conseguidas por el sistema.