Procesamiento paralelo y distribuido aplicado al almacenamiento y recuperación de información documental

  1. Zorrilla Pantaleón, Marta Elena
Supervised by:
  1. Eduardo Mora Monte Director
  2. José Luis Crespo Fidalgo Director

Defence university: Universidad de Cantabria

Fecha de defensa: 20 December 2001

Committee:
  1. Roberto Moreno Díaz Chair
  2. Jaime Puig-Pey Echebeste Secretary
  3. Manuel Alonso Castro Gil Committee member
  4. José Antonio López Brugos Committee member
  5. Elena Álvarez Sáiz Committee member

Type: Thesis

Teseo: 89107 DIALNET lock_openUCrea editor

Abstract

El objetivo de esta tesis es utilizar redes neuronales con las que proponer alternativas a la técnica de índices inversos, que es la más difunida entre los sistemas IR (Information Retrieval), Esto quiere decir que la red que se proponga debe identificar cada documento y localizarlo a partir de las palabras que contiene. Para la consecución del objetivo propuesto, se ha trabajado con redes neuronales con función de base radial, perceptrones multicapa y con métodos constructivos como Casacade Correlation.Los resultados obtenidos con estas arquitecturas no han sido positivos, pues, o bien fracasaban en el ajuste, o bien, la memoria requerida era muy superior a su alternativa con Índices Inversos. Por este motivo, se ha propuesto una nueva arquitectura, la de red Hiperbandas, cuyas características más relevantes se pueden resumir en que se tarta de una red que se construye ex profesor para clasificar un conjunto de datos de entrada sin interacción del usuario, con error cero y adecuada para situaciones donde los patrones de entrada se agrupan formando clases que puden estar solapadas. Para verificar las prestaciones de esta nueva arquitectura, se han realizado comparaciones con el sistema usual basado en la técnica de Índices Inversos implementado mediante un B-Tree simple.Para llevar a cabo este análisis se han examinado los parámetros que se utilizan generalmente para evaluar el rendimiento de un DRS, estos son: el tiempo de indexación, el espacio de almacenamiento requerido, la eficiencia de búsqueda y la efectividad de la consulta.