Thematic patterning in English and Spanishcontrastive annotation of a bilingual newspaper corpus for linguistic and computational applications
- MORATON GUTIERREZ, LARA
- Julia Lavid López Doktorvater/Doktormutter
Universität der Verteidigung: Universidad Complutense de Madrid
Fecha de defensa: 04 von Dezember von 2015
- Juana Isabel Marín Arrese Präsident/in
- Marta Carretero Lapeyre Sekretär/in
- Antonio Moreno Ortiz Vocal
- Rosa Rabadán Vocal
- Ana M. García Serrano Vocal
Art: Dissertation
Zusammenfassung
El trabajo presentado en esta tesis se entronca en dos áreas de investigación. Por un lado, en el ámbito de la Lingüística Sistémico-Funcional (SFL), concretamente en su aspecto contrastivo y de análisis de corpus; y por otro lado, en el de Procesamiento del Lenguaje Natural (PLN). Apoyándose en el modelo de tematización desarrollado por Lavid et al. en Systemic Functional Grammar of Spanish: A Contrastive Study with English (2010), este estudio pretende, en primer lugar, rellenar un hueco en el desarrollo de una metodología que valide empíricamente una selección de categorías temáticas presentadas por el modelo lingüístico elegido en castellano e inglés. Para realizar esta validación dos anotadores expertos llevan a cabo dos experimentos de anotación desglosados en varias tareas. Los resultados obtenidos son evaluados, con métricas adecuadas al tipo de anotación realizado, para determinar si el nivel de acuerdo alcanzado por los anotadores es lo suficientemente fiable como para considerar las categorías validadas. Estos experimentos se realizan sobre un corpus de entrenamiento compilado al efecto y de acuerdo a unas guías de anotación que explican con mayor o menor detalle, dependiendo de la tarea, la información necesaria para el correcto desarrollo de cada una. En segundo lugar, se caracteriza temáticamente un corpus extenso en base a las categorías previamente validadas en el ámbito del género periodístico, en concreto: noticias, editoriales y cartas al director; en inglés y castellano. Para ello se compila un corpus de 220 textos que es anotado manualmente por un único anotador. Esta caracterización temática se estudia desde una doble perspectiva de idioma y de género, haciendo un análisis cualitativo y cuantitativo de cada una de las categorías temáticas estudiadas. Y, en tercer lugar, pone a disposición de los miembros de la comunidad científica el mencionado corpus anotado temáticamente en formato electrónico. El proceso de anotación automático se lleva a cabo tras un pre-procesamiento del corpus con las herramientas de anotación disponibles en cada idioma. Los datos anotados por estas herramientas (morfológicos y sintácticos) son utilizados como base para la elaboración de una nueva capa de anotación, denominada funcional, que anotará, con una serie de reglas desarrolladas en JAVA, la anotación del campo temático y sus elementos. En inglés, la variedad de herramientas fiables para la anotación de categorías sintácticas, hacen posible desarrollar por completo la anotación automática del tema. El trabajo se centra en el proceso de ¿traducción¿ del conocimiento lingüístico a las reglas JAVA que anotan estos elementos. En castellano, la imposibilidad de disponer de herramientas fiables para la anotación sintáctica hace necesario recurrir a la anotación semi-automática de las categorías temáticas. Los resultados obtenidos de este proceso automático y semi-automático se comparan con los recogidos en la anotación manual. A la luz de los mismos se puede concluir que la anotación automática de los rasgos discursivos es viable y ofrece una alternativa fiable a la anotación manual, conserva la caracterización temática obtenida manualmente y permite una explotación exhaustiva de las características temáticas anotadas.