Predicción del rendimiento de consultas basado en rankings de documentos y nuevo marco de evaluación

Pérez Iglesias, Joaquín

Predicción del rendimiento de consultas basado en rankings de documentos y nuevo marco de evaluación

Pérez Iglesias, Joaquín

Dirixida por:

Lourdes Araujo Director

Universidade de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 13 de abril de 2012

Tribunal:

Manuel Palomar Sanz Presidente/a
Julio Gonzalo Arroyo Secretario
Luis Alfonso Ureña López Vogal
Mounia Lalmas Vogal
Pablo Castells Azpilicueta Vogal

Tipo: Tese

Teseo: 334228 DIALNET Acceso aberto editor

Resumo

El trabajo desarrollado en esta tesisis aborda un aspecto funcamental de la recuperacion de informacion que es la prediccion de la calidad de las consultas. Tener informacion soblre la fialbilidad esperada de los documentos recuperados a partri de una cosnulta permite al sistema o al usuario reaccionar en consecuencia, confiando en los resultados obtenidos, reformulando la consulta, etc. Las funciones de reanking utilizadas por los moteres de busqueda asignar un valodr de relevancia o score a cada uno de los documentos recuperado. En esta tesis se ha investigado una nueva aproximacion a la prediccion del rendimiento de consultas basada en la dispersion de valores asignados por una fu ncion de ranking al conjunto de documentos de una coleccion a partir de de un consulta. Este nuevo predictor se enmarca en la categoria de los post-retrieval, es decier, de los que basan la prediccion en informacion extraida de los documentos recuperados con la consulta. En esta categoria se enmarcan los predictorres de mayor fiabilidad, aunqeu son los mas costosos computacionalmente. Otro aspecto tratado en esta tesis ha sido el marco de evaluacion de los predictores. Se ha realizado un profundo analisis del marco de evaluacion actual , que utiliza distintos coeficientes de correlacion, con el objetivo de proponer nuevos metodos de evaluacion mas informativos y que superan algunas de las limitaciones que existen en la actualidad. Ademas de los problemas inherentes a la evaluacion basada en corelacion se ha detectado su inadecuacion a escenarios especificos, como gurpos de conslutas de distinta dificultad. En esta tesis se ha prouesto un n uevo marco de evaluacion con el objetivo principal de evaluar el rendimiento que muestran los metodos de prediccion para distitntos tipos de consultas segun su calidad. De esta forma y con el marco porpuesto se hacen explicitas las principales diferencias entre aquellos metodos que predicen con mayor acierto cuando una consulta obtendra un respuesta de calidad, respecto de los metodos que muestran un mayor acierto al detectar consultas con un pobre rendimiento. Como consecuencia se facilita en gran medidad la selccion del metodo mas adecuado para el marco de apliacion deseado. El maraco de evaluacion prouesto se basa en suponer que cada una de las consultas pertenece a unt i po unico en base a una medidad de calidad de los documentos recuperados, como por ejemplo la Precision Media. De esta forma el problema de evaluacion de los metodos de prediccion se transforma en un problema de claisficaciom, lo qoue hace posible el uso de las medidad de evaluacion apñiacas habiualmente en el campo de la clasificacion, como precision ,cobertura o medidad -F. Entre las aportaciones de la tesis destacan: - El metodo de prediccion poruesto m uestra un redimiento similar o superior a los dleos mejores metodos, como Clarity Score, pero con un coste computacional mucho menor. - la nueva metodologia de evaluacion propuesta permite evaluar tanto agurpos especificos de consultas, en base a su calidad, como de ofrma global- - Como extension a las medidas de evaluacion clsicas en el campo de la clasificaciom se ha prouesto una nueva medidad (DBEM) especifica para el caso de la prediccion. Esta medida no se centra en el ratio de acierto en la clasificacion, como ocurre con los coeficientes de correlacion, sino en una penalizacion que varia con la distancia entre el gurpo asgnado y el correcto. - Se ha analizado tambien un caso de uso ti pico dentro del campo de la prediccion de la calidad de consultas como es la expansion automatica selectiva, que no depende del metodo de prediccion utilizado.