Web people search

  1. Artiles Picón, Javier
Supervised by:
  1. Julio Gonzalo Arroyo Director
  2. Enrique Amigó Director

Defence university: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 09 October 2009

Committee:
  1. María Felisa Verdejo Maíllo Chair
  2. Raquel Martínez Unanue Secretary
  3. Manuel Palomar Sanz Committee member
  4. Maarten de Rijke Committee member
  5. Horacio Rodríguez Hontoria Committee member

Type: Thesis

Abstract

En esta tesis hemos abordado el problema de la ambigüedad de nombres en la búsqueda de personas en la Web. Al inicio de nuestro trabajo, en 2004, había muy pocos artículos de investigación sobre este tema, y ningún buscador web comercial ofrecía este tipo de servicio. Por esta razón, nuestra metodología de investigación se enfocó inicialmente en el diseño y la organización (junto con el Dr. Satoshi Sekine de la Universidad de Nueva York) de una campaña de evaluación competitiva para sistemas de Búsqueda de Personas en la Web. Tras la celebración de dos campañas de evaluación, utilizamos las colecciones de prueba elaboradas para realizar nuestros propios estudios empíricos sobre la naturaleza y los desafíos de la tarea. La campaña de evaluación, WePS, tuvo lugar en 2007 (como una tarea de Semeval 2007) y en 2009 (como un workshop de la conferencia WWW 2009). Esta campaña fue crucial para sentar las bases para un estudio científico del problema de la Búsqueda de Personas en la Web. Éstos fueron los principales logros: Estandarización del problema: ahora la mayoría de investigadores enfocan el problema como una tarea de minería de resultados de busqueda (clustering -- agrupación -- y extracción de información), tal y como lo definimos en WePS. Creación de un estándar para la comparación de sistemas: desde la primera campaña WePS en 2007, el número de publicaciones relacionadas con la Búsqueda de Personas en la Web ha crecido sustancialmente, y la mayoría usa colecciones de prueba desarrolladas en WePS. Diseño de métricas de evaluación para la tarea: Hemos realizado un cuidadoso análisis, basado en restricciones formales, de varias métricas extrínsecas de evaluación de sistemas de clustering, y hemos concluído que las métricas BCubed son las más adecuadas para la tarea. Hemos introducido una nueva función para la combinación de métricas, el Unanimous Improvement Ratio (UIR) o Ratio de Mejora Unánime, el cual, al contrario que la función F de Van Rijsbergen, no requiere un pesado a-priori de las métricas (en nuestro caso, BCubed Precision y Recall). Utilizando las colecciones de prueba desarrolladas en las dos campañas de evaluación WePS, hemos realizado una serie de estudios empíricos orientados a obtener una mejor comprensión tanto de la naturaleza de la tarea como de la manera de resolverla: En primer lugar, hemos estudiado los efectos potenciales de usar refinamientos de consultas (interactivos) para realizar la tarea de Búsqueda de Personas en la Web. Hemos descubierto que, aunque en la mayoría de las ocasiones existe una expresión que puede ser utilizada como refinamiento casi perfecto para recuperar todos y sólo los documentos que refieren a una persona, la naturaleza de esto refinamientos ideales es impredecible y son muy difíciles de encontrar por un usuario. En segundo lugar, hemos estudiado la utilidad de los rasgos lingüísticos (computacionalmente costosos) en comparación con n-gramas de palabras y otros rasgos ''baratos'' para resolver nuestro problema de agrupación. Sorprendentemente, las entidades nombradas, que son son el tipo de rasgo más popular después de las aproximaciones basadas en "bolsas de palabras", no parecen aportar una ventaja competitiva directa para resolver la tarea. Como efecto secundario de nuestro estudio empírico, hemos construido un sistema que, utilizando la confianza de un clasificador binario (el cual detecta si dos documentos son o no correferentes) como métrica de similitud entre pares de documentos para alimentar al algoritmo de Agrupación Aglomerativa Jerárquica, aporta los mejores resultados para la tarea que conocemos F0,5=0,83 frente a 0,82 del mejor sistema en WePS-2), sin utilizar rasgos lingüísticos computacionalmente costosos.