Optimización física y lógica de consultas en mediadores de fuentes web

  1. Hidalgo Sanz, Justo
Dirixida por:
  1. Carlos Alberto Pan Bermúdez Director
  2. Víctor Carneiro Director

Universidade de defensa: Universidade da Coruña

Fecha de defensa: 05 de marzo de 2007

Tribunal:
  1. Carlos Delgado Kloos Presidente/a
  2. Fidel Cacheda Secretario/a
  3. Luis E. Anido Rifón Vogal
  4. Francisco Valera Pintor Vogal
  5. Covadonga Rodrigo San Juan Vogal

Tipo: Tese

Teseo: 138742 DIALNET

Resumo

La integración de información distribuida es una de las áreas más importantes de la gestión de información debido a la gran cantidad y heterogeneidad de repositorios de datos con diferentes interfaces de acceso, protocolos de comunicación y estándares de representación, pero cuyos datos combinados enriquecen la información y conocimiento en empresas, instituciones y centros de investigación, Las fuentes semi-estructuradas y en especial los datos incrustados en páginas HTML procedentes de aplicaciones web, componen el conjunto de información pública más poblado en la actualidad, que además goza de popularidad y constante crecimiento. El enfoque más utilizado para la construcción de este tipo de soluciones es el de mediador, que se encarga de acceder a cada una de las fuentes de datos y combinar su salida de manera que provee una vista unificada de la información, de forma homogenea y estandarizada. Sin embargo, la optimización de las consultas sobre estos mediadores tiene un conjunto importante de desafíos y problemas cuando las fuentes a integrar son de tipo web, como la lentitud de acceso a través de la red, la ausencia de estadísticas de costes, o lo poco apropiado de algunas técnicas clásicas de optimización en estos casos. El objetivo principal de esta tesis doctoral es la elaboración de un conjunto de técnicas y algoritmos de optimización de consultas para mediadores de integración de fuentes web. Las cuatro contribuciones principales de este trabajo son las siguientes: (1) la utilización de un modelo basado en costes que resuelva la inadecuación de algunas estrategicas clásicas de optimización que no tienen en cuenta las restricciones en cuanto a capacidades de consulta de las fuentes web, así como la inexistencia de información acerca de la calidad de servicio de las comunicaciones y de los costes de procesamiento de las fuentes web; (2) la elección de un conjunto de parámetros de coste adecuados para tener en cuenta qu