An Unsupervised Algorithm for Person Name Disambiguation in the Web

  1. Agustín D. Delgado
  2. Raquel Martínez
  3. Soto Montalvo
  4. Víctor Fresno
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2014

Número: 53

Páginas: 51-58

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

En este trabajo presentamos un sistema no supervisado para agrupar los resultados proporcionados por un motor de búsqueda cuando la consulta corresponde a un nombre de persona compartido por diferentes individuos. Las páginas web se representan mediante n-gramas de diferente información y tamaño. Además, proponemos un algoritmo de clustering capaz de calcular el número de clusters y devolver grupos de páginas web correspondientes a cada uno de los individuos, sin necesidad de entrenamiento ni umbrales predefinidos, como hacen los mejores sistemas del estado del arte en esta tarea. Hemos evaluado nuestra propuesta con tres colecciones de evaluación propuestas en diferentes campañas de evaluación para la tarea de Desambiguación de Personas en la Web. Los resultados obtenidos son competitivos y comparables a aquellos obtenidos por los mejores sistemas del estado del arte que utilizan algún tipo de supervisión.

Referencias bibliográficas

  • Andrade, M.A. and A. Valencia. 1998. Automatic extraction of keywords from scientific text: application to the knowledge domain of protein families. Bioinformatics, 14:600-607.
  • Artiles, J. 2009. Web People Search. PhD Thesis, UNED University.
  • Artiles, J., J. Gonzalo, and S. Sekine. 2007. The SemEval-2007 WePS Evaluation: Establishing a Benchmark for the Web People Search Task. In Proceedings of the 4th International Workshop on Semantic Evaluations (SemEval-2007), pages 64-69. ACL.
  • Artiles, J., E. Amig´o, and J. Gonzalo. 2009a. The Role of Named Entities in Web People Search. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP).
  • Artiles, J., J. Gonzalo, and S. Sekine. 2009b. Weps 2 Evaluation Campaign: Overview of the Web People Search Clustering Task. In 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference.
  • Artiles, J., A. Borthwick, J. Gonzalo, S. Sekine, and E. Amig´o. 2010. WePS-3 Evaluation Campaign: Overview of the Web People Search Clustering and Attribute Extraction Tasks. In Third Web People Search Evaluation Forum (WePS-3), CLEF 2010.
  • Bagga, A. and B. Baldwin. 1998. Entity-Based Cross-Document Coreferencing Using the Vector Space Model. In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics - Volume 1, pages 79-85. ACL.
  • Balog, K., J. He, K. Hofmann, V. Jijkoun, C. Monz, M. Tsagkias,W.Weerkamp, and M. de Rijke. 2009. The University of Amsterdam at WePS-2. In 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference.
  • Chen, Y. and J. Martin. 2007. CU-COMSEM: Exploring Rich Features for Unsupervised Web Personal Named Disambiguation. In Proceedings of the 4th International Workshop on Semantic Evaluations, SemEval ’07, pages 125-128. ACL.
  • Chen, Y., S. Yat Mei Lee, and C. Huang. 2009. PolyUHK: A Robust Information Extraction System for Web Personal Names. In 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference.
  • Elmacioglu, E., Y. Fan Tan, S. Yan, M. Kan, and D. Lee. 2007. PSNUS: Web People Name Disambiguation by Simple Clustering with Rich Features. In Proceedings of the 4th International Workshop on Semantic Evaluations (SemEval-007), pages 268-271. ACL.
  • Fujiwara, Y., G. Irie, and T. Kitahara. 2011. Fast Algorithm for Affinity Propagation. In Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence(IJCAI)- Volume Three, pages 2238-2243.
  • Lana-Serrano, S., J. Villena-Rom´an, and J.C. González-Cristóbal. 2010. Daedalus at WebPS-3 2010: k-Medoids Clustering using a Cost Function Minimization. In Third Web People Search Evaluation Forum (WePS-3), CLEF 2010.
  • Liu, Z., Q. Lu, and J. Xu. 2011. High Performance Clustering for Web Person Name Disambiguation using Topic Capturing. In International Workshop on Entity-Oriented Search (EOS).
  • Long, C. and L. Shi. 2010. Web Person Name Disambiguation by Relevance Weighting of Extended Feature Sets. In Third Web People Search Evaluation Forum (WePS-3), CLEF 2010.
  • Mann, G.S. 2006. Multi-Document Statistical Fact Extraction and Fusion. PhD thesis, Johns Hopkins University, Baltimore, MD, USA. AAI3213760.
  • Manning, C.D., P. Raghavan, and H. Schütze. 2008. Introduction to Information Retrieval. Cambridge University Press, New York, USA.
  • Popescu, O. and B. Magnini. 2007. IRSTP: Web People Search Using Name Entities In Proceedings of the 4th International Workshop on Semantic Evaluations (SemEval-2007), pages 195-198. ACL.
  • Wilcoxon, F. 1945. Individual Comparisons by Ranking Methods, 1(6). Biometrics Bulletin.