Desambiguación de nombres de persona en la web en un contexto multilingüe
- Raquel Martínez Unanue Directrice
- Soto Montalvo Herranz Directeur/trice
Université de défendre: UNED. Universidad Nacional de Educación a Distancia
Fecha de defensa: 30 novembre 2016
- Luis Alfonso Ureña López President
- Enrique Amigó Secrétaire
- Alexandra Balahur Dobrescu Rapporteur
Type: Thèses
Résumé
Esta tesisdoctoral trata la desambiguación de nombres de personas en la Web.Es- te problema puede describirse de la siguiente manera: dado el ranking de resultados devuelto por un motor de búsqueda tras consultar un nombre de persona,el objetivo consiste en agrupar los resultados debúsqueda de manera que cada grupo esté formado por las páginas web que hablan de un mismo individuo. Los motores de búsqueda más populares ofrecen pocas herramientas de desambiguación de este tipo de consultas, aunque sus estadísticas de us oreflejan que son muy frecuentes. Por este motivo,en los últimos años han surgido varias start-ups que ofrecen un servicio especializado de búsqueda de personas en Internet. Además,la comunidad científica ha mostrado interés en este problema por varias razones. Por un lado,los nombres de persona son un tipo de entidades nombradas especialmente ambiguo y,por este motivo, su desambiguación ha sido estudiada en diferentes contextos. Por otro lado,el escenario de búsqueda en la Web presenta varios retos:(i)las páginas web no tratan una temática determinada debido a su naturaleza heterogénea;(ii) la Web alberga cada vez más contenido en distintos idiomas debido a su naturaleza multilingüe; y (iii)la búsqueda en la Web requiere métodos poco costosos debido a que los usuarios de los motores de búsquedas esperan resolver sus consultas en muy pocot iempo. Por tanto, nos encontramos ante un problema real que ha suscitado el interés de la comunidad científica. La desambiguación de nombres de personas en la Web ha sido tratada en el estado del arte como un problema de clustering compuesto por dos fases principales.El objetivo de la primera fase consiste en representar los resultados de búsqueda mediante rasgos adecuados que sean de utilidad a la hora de identificar y distinguir a distintos individuos con el mismo nombre. Por otro lado,la segunda fase consiste en aplicar un algoritmo de clustering para agrupar las páginas web de acuerdo al individuo que mencionan. En particular,los mejores sistemas del estado del arte emplean una representación de los resultados de búsqueda consistente en una rica selección de rasgos de distinto tipo y agrupan las páginas web mediante un algoritmo de agrupamiento jerárquico aglomerativo tras haber aprendido previamente el valor de un cierto umbral de similitud mediante datos de entrenamiento.