Arabic named entity recognition
- Benajiba, Yassine
- Paolo Rosso Doktorvater/Doktormutter
Universität der Verteidigung: Universitat Politècnica de València
Fecha de defensa: 19 von Mai von 2009
- María Felisa Verdejo Maíllo Präsidentin
- Encarna Segarra Soriano Sekretär/in
- Mona Diab Talaat Vocal
- Horacio Rodríguez Hontoria Vocal
- Imed Zitouni Vocal
Art: Dissertation
Zusammenfassung
En esta tesis doctoral se describen las investigaciones realizadas con el objetivo de determinar las mejores técnicas para construir un Reconocedor de Entidades Nombradas en Árabe, Tal sistema tendría la habilidad de identificar y clasificar las entidades nombradas que se encuentran en un texto árabe de dominio abierto. La tarea de Reconocimiento de Entidades Nombradas (REN) ayuda a otras tareas de Procesamiento del Lenguaje Natural (por ejemplo, la Recuperación de Información, la Búsqueda de Respuestas, la Traducción Automática, etc.) a lograr mejores resultados gracias al enriquecimiento que añade al texto. En la literatura existen diversos trabajos que investigan la tarea de REN para un idioma especifico o desde una perspectiva independiente del lenguaje. Sin embargo, hasta el momento, se han publicado muy pocos trabajos que estudien dicha tarea para el árabe. El árabe tiene una ortografía especial y una morfología compleja, estos aspectos aportan nuevos desafíos para la investigación en la tarea de REN. Una investigación completa del REN para el árabe no solo aportaría las técnicas necesarias para conseguir un alto rendimiento, sino que también proporcionaría un análisis de los errores y una discusión sobre los resultados que benefician a la comunidad de investigadores del REN. El objetivo principal de esta tesis es satisfacer esa necesidad. Para ello hemos: 1. Elaborado un estudio de los diferentes aspectos del árabe relacionados con dicha tarea; 2. Analizado el estado del arte del REN; 3. Llevado a cabo una comparativa de los resultados obtenidos por diferentes técnicas de aprendizaje automático; 4. Desarrollado un método basado en la combinación de diferentes clasificadores, donde cada clasificador trata con una sola clase de entidades nombradas y emplea el conjunto de características y la técnica de aprendizaje automático más adecuados para la clase de entidades nombradas en cuestión. Nuestros experimentos han sido evaluados sobre nueve conjuntos de test de diferentes tipos (artículos de periódico, noticias transcritas, documentos del Arabic Treebank y weblogs). Nuestros resultados muestran que la técnica basada en varios clasificadores ayuda a obtener los mejores resultados en todos estos tipos de documentos.