Inducción Gramatical Semisupervisada usando Información de Análisis Superficial

  1. Araujo, Lourdes
  2. Santamaría, Jesús L.
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2012

Número: 48

Páginas: 35-42

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

El análisis sintáctico de los textos es un proceso fundamental en el procesamiento del lenguaje natural que requiere disponer de la gramática correspondiente a la lengua considerada. La gramática puede obtenerse de un corpus anotado sintácticamente, pero tales corpora no existen para muchas lenguas. Esta razón ha provocado un interés creciente en los métodos no supervisados de inducción gramatical, que no requieren dichos corpora. Sin embargo, los resultados de estos métodos son menos precisos. Por este motivo nosotros hemos recurrido a información adicional menos costosa de obtener. Concretamente, en este trabajo estudiamos la forma de introducir el análisis sintáctico superficial para mejorar los resultados de la inducción gramatical no supervisada de un sistema basado en patrones léxicos. El análisis superficial o chunking identifica a los constituyentes de la oración, sin especificar su estructura interna. Los resultados han mostrado una mejora apreciable de los resultados a medida que se añaden distintos tipos de constituyentes.

Referencias bibliográficas

  • Araujo, Lourdes y Jose Ignacio Serrano. 2008. Highly accurate error-driven method for noun phrase detection. Pattern Recognition Letters, 29(4):547–557.
  • Bod, Rens. 2006. Unsupervised parsing with u-dop. En CoNLL-X ’06: Proceedings of the Tenth Conference on omputational Natural Language Learning, páginas 85–92, Morristown, NJ, USA. Association for Computational Linguistics.
  • Bourigault, D. 1992. Surface grammatical analysis for the extraction of terminological noun phrases. En Proc. of the Int. Conf. on Computational Linguistics (COLING-92), páginas 977–981.
  • Church, K. W. 1988. A stochastic parts program and noun phrase parser for unrestricted text. En Proc. of 1st Conference on Applied Natural Language Processing, ANLP, páginas 136–143.
  • Druck, Gregory, Gideon Mann, y Andrew McCallum. 2009. Semi-supervised learning of dependency parsers using generalized expectation criteria. En Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 1 - Volume 1, ACL ’09, páginas 360–368, Stroudsburg, PA, USA. Association for Computational Linguistics.
  • Haghighi, Aria y Dan Klein. 2006. Prototypedriven grammar induction. En Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, páginas 881–888. Association for Computational Linguistics.
  • Klein, Dan y Christopher D. Manning. 2005. Natural language grammar induction with a generative constituent-context model. Pattern Recognition, 38(9):1407–1419.
  • Marcus, Mitchell P., Beatrice Santorini, y Mary Ann Marcinkiewicz. 1994. Building a large annotated corpus of english: The penn treebank. Computational Linguistics, 19(2):313–330.
  • Petrov, Slav. 2010. Products of random latent variable grammars. En Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, HLT ’10, páginas 19–27.
  • Pla, F., A. Molina, y N. Prieto. 2000. Tagging and chunking with bigrams. En Proc. of the 17th conference on computational linguistics, páginas 614–620.
  • Ramshaw, Lance A. y Mitchell P. Marcus. 1995. Text chunking using transformation-based learning. CoRR, cmp-lg/9505040. informal publication.
  • Sang, E. F. T. K. 2002. Memory-Based Shallow Parsing. ArXiv Computer Science e-prints, Abril.
  • Santamaría, Jesús y Lourdes Araujo. 2010. Identifying patterns for unsupervised grammar induction. En Proceedings of the Fourteenth Conference on Computational Natural Language Learning, páginas 38–45, Uppsala, Sweden, July. Association for Computational Linguistics.
  • Sha, Fei y Fernando Pereira. 2003. Shallow parsing with conditional random fields. En Proceedings of HLT-NAACL 2003, páginas 213–220.
  • Voutilainen, A. 1993. Nptool, a detector of english noun phrases. En Proc. of the Worshop on Very Large Corpora (ACL), páginas 48–57.