Detección de plagio translingüe con grafos semánticosexperimentando con recursos en abierto

  1. Ana García Serrano
  2. Antonio Menta Garuz
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2019

Número: 62

Páginas: 61-68

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

Hoy en día el idioma ha dejado de ser una barrera para plagiar documentos disponibles en Internet. Tras enfoques probabilísticos ya clásicos que no alcanzan buenos resultados con documentos multilingües con paráfrasis (Barrón-Cedeño, 2012), aparecen trabajos que, utilizando grafos de conocimiento, aumentan la capacidad semántica del análisis de las oraciones y mejoran los resultados de detección de plagio. Además, actualmente hay recursos lingüísticos, basados en el conocimiento, o de desarrollo de software que están disponibles para la experimentación, una vez decidido cuál de ellos elegir, cuáles están realmente disponibles en abierto, qué eficiencia aportan si se integran en la experimentación planteada, o qué tipo de características debe tener el ordenador o el servidor necesario para la investigación. Este trabajo plantea una investigación experimental para la detección de plagio translingüe siguiendo una línea de investigación y utilizando recursos disponibles en abierto. Los resultados alcanzan el estado del arte, y esperamos que el planteamiento seguido, el análisis justificado y las dificultades técnicas reportadas, acercará a los lectores la metodología necesaria en este tipo de experimentaciones y permitirá planificar sus trabajos futuros. El software desarrollado está disponible en abierto.

Referencias bibliográficas

  • Abdi, A., N. Idris, R. Aliguliyev y R. M.
  • Aliguliyev. 2015. PDLK: Plagiarism detection using linguistic knowledge. Expert Systems with Applications, 42(22): 89368946.
  • Barrón-Cedeño, A. 2012. On the Mono and Cross-Language Detection of Text Re-Use and Plagiarim. Ph.D. thesis, DSIC, UPV.
  • Barrón-Cedeño, A., M. Vila y P. Rosso. 2013. Plagiarism meets Paraphrasing: Insights for the Next Generation in Autom. Plagiarism Detection. In: Computational Linguistics, 39(4) 917-947.
  • Comas R. y J. Sureda. 2008. Academic cyberplagiarism: tracing the causes to reach solutions. The Humanities in the Digital Era, 10:1-7.
  • Eaton S., M. Guglielmin y B. Otoo. 2017. PLAGIARISM: Moving from punitive to proactive approaches. In Selected Proc. of the IDEAS Conference: Leading Educational Change, páginas 28-36.
  • Franco-Salvador, M., P. Gupta y P. Rosso. 2012. Detección de plagio translingüe utilizando el diccionario estadístico de BabelNet. Computación y Sistemas, 16(4): 383-390.
  • Franco Salvador, M., P. Gupta y P. Rosso. 2013. Cross-language plagiarism detection using multilingual semantic network. Proc. ECIR Springer, páginas 710-713.
  • Franco-Salvador M., P. Gupta, P. Rosso y E. Banchs. 2016a. Cross-language plagiarism detection over continuous space and knowledge graph-based representations of language. Knowledge-based systems 111, páginas 87-99.
  • Franco-Salvador M., P. Rosso y M. Montes 2016b. A Systematic Study of Knowledge Graph Analysis for Cross-language Plagiarism Detection. Information Processing & Management, 52(4): 550–570.
  • Franco-Salvador M. 2017. A Cross-domain and Cross-language Knowledge-based Representation of Text and its Meaning. Ph.D. thesis, DSIC, UPV.
  • Gupta P. 2017. Cross-View Embeddings For Information Retrieval. Ph.D. thesis, DSIC, UPV.
  • Kestemont, M., M. Tschuggnall, E. Stamatatos, W. Daelemans, G. Specht, B. Stein y M. Potthast. 2018. Overview of the Author Identification Task at PAN-2018 Crossdomain Authorship Attribution and Style Change Detection. Proc. CLEF, CEUR 2125.
  • Krizkova, S., H. Tomaskova y M. Gavalec. 2016. Preference comparison for plagiarism detection systems. Fuzzy Systems (FUZZIEEE), páginas 1760-1767.
  • Martin, B. 2004. Plagiarism: policy against cheating or policy for learning? Australia. https://ro.uow.edu.au/artspapers/78/.
  • McNamee, P. y J. Mayfield. 2004. Character nGram Tokenization for European Language Text Retrieval. Information retrieval, 7(1-2): 73-97.
  • Menta, A. 2018. Detección de plagio multilingüe mediante recursos semánticos. Tesis de Máster. ETSI Informática, UNED.
  • Meyer, S., B. Stein y M. Kulig. 2007. Plagiarism Detection without Reference Collections. In Advances in data analysis, Springer, páginas 359-366.
  • Nahas, M. 2017. Survey and Comparison between Plagiarism Detection Tools. American J. of Data Mining and Knowledge Discovery, 2(2): 50–53.
  • Potthast M., A. Barrón-Cedeño, B. Stein y P. Rosso. 2010. An Evaluation Framework for Plagiarism Detection. In proc. COLING2010, páginas 997 -1005
  • Potthast M., A. Eiselt, A. Barrón-Cedeño, B. Stein y P. Rosso. 2011a. Overview of the 3rd International Competition on Plagiarism Detection. In: Petras V., Forner P., Clough P. (Eds.), Notebook Papers of CLEF 2011 LABs and Workshops. In CEUR workshop proceedings, Vol. 1177.
  • Potthast M., A. Barrón-Cedeño, B. Stein y P. Rosso. 2011b. Cross-Language Plagiarism Detection. In: Languages Resources and Evaluation. Special Issue on Plagiarism and Authorship Analysis, 45(1): 45-62.
  • Suleiman, D., A. Awajan y N. Al-Madi. 2017. Deep Learning Based Technique for Plagiarism Detection in Arabic Texts. In New Trends in Computing Sciences (ICTCS) IEEE, páginas 216-222.