Análisis sintagmático automática y su aplicación a la recuperación de información
- Amo López, Pedro
- Francisco López Ferreras Director
Defence university: Universidad de Alcalá
Fecha de defensa: 30 October 2000
- Antonio Artés Rodríguez Chair
- Fernando Cruz Roldán Secretary
- Aníbal Ramón Figueiras Vidal Committee member
- María Felisa Verdejo Maíllo Committee member
- Julio Gonzalo Arroyo Committee member
Type: Thesis
Abstract
El desarrollo experimentado por Internet en los últimos años ha suscitado en el usuario medio necesidades antes reservadas a quienes debían mantener o consular grandes bases de datos, El crecimiento exponencial del número de textos en formato electrónico accesibles desde la World Wide Web, ha reavivado el interés por las técnicas de Recuperación de Información y Extracción de Información, al tiempo que ha incrementado las exigencias de calidad de los sistemas encargados de aplicarlas. Esta investigación se dedica a la búsqueda de representaciones de los textos adaptadas a las nuevas necesidades y desarrolla métodos de comparación entre dichas representaciones para decidir la pertinencia de los textos respecto del modelo elegido. Nuestra hipótesis de trabajo es que algunas técnicas de tratamiento del lenguaje natural y de Extracción de Información, aplicadas selectivamente, pueden ser útiles para mejorar la precisión y la cobertura en la Recuperación de Información. Nos proponemos averiguar si la recopilación cuidadosa de las referencias del texto a entidades y acontecimientos pudiera en algún caso ser suficiente para captar el contenido del discurso hasta el punto de permitir la distinción de los temas tratados. La comprobación de la hipótesis nos ha llevado a diseñar un sistema completo de Recuperación de Información novedoso en varios aspectos. Como otros investigadores, trabajamos en el ámbito de las noticias de prensa, pero, a diferencia de ellos, basamos las representaciones de los textos exclusivamente en los nombres propios y en un tipo de descripciones que hemos llamado correferenciales con los nombres propios porque comparten con ellos sus referentes. Además, aprovechamos las técnicas de Extracciónd e Información necesarias para extraer los nombres propios y las descripciones para crear una base de datos sobre personas y cargos que ocupan. Efectuados sendos experimentos para evaluar el rend