El problema de la fusión de colecciones en la recuperación de información multilingüe y distribuidacálculo de la relevancia documental en dos pasos
- Martínez Santiago, Fernando
- Luis Alfonso Ureña López Directeur/trice
Université de défendre: UNED. Universidad Nacional de Educación a Distancia
Fecha de defensa: 23 septembre 2004
- María Felisa Verdejo Maíllo President
- Ana M. García Serrano Secrétaire
- Horacio Rodríguez Hontoria Rapporteur
- Manuel Palomar Sanz Rapporteur
- José Carlos González Cristobal Rapporteur
Type: Thèses
Résumé
En esta Tesis se propone un nuevo enfoque, cálculo de la relevancia documental en dos pasos, para afrontar el conocido problema de la fusión de colecciones o simplemente mezcla de resultados. En breve, la fusión de colecciones está relacionada con la Recuperación de Información la cual, frente a una necesidad de información del usuario, debe responder con una lista de documentos relevantes para la consulta dada. En ocasiones, la obtención de tal lista de documentos debe obtenerse a partir de la fusión o mezcla de varias listas obtenidas con independencia las unas de las otras, y es en ese aspecto en el cual se centra el presente trabajo, ilustrando la bondad del método propuesto en dos escenarios: Recuperación de Información Multiligüe y Recuperación de Información Distribuida. Una hipótesis que se defiende en este texto es que dada una determinada necesidad de información, tanto la puntuación como la posición alcanzada por dos documentos pertenecientes a dos colecciones distintas no es comparable debido principalmente a que la relevancia asignada a un documento no es un valor absoluto, sino muy al contrario, fuertemente dependiente de la colección a la cual pertenece tal documento. Por otra parte, es posible percibir la unión de todos los documentos devueltos par cada motor de búsqueda como una nueva colección de tamaño reducido y pequeño vocabulario, ya que sólo los términos que aparecen en la consulta formulada por el usuario son de interés en esta nueva colección. En virtud de estas dos simplificaciones, tal colección puede ser reindexada y contrastada con la consulta del usuario, obteniendo así una nueva única lista de documentos puntuados en relación con esta nueva colección creada, indexada y contada en tiempo de ejecución.