Alineación automática de corpus paralelosuna propuesta metodológica y su aplicación a un dominio de especialidad

  1. Martínez Unanue, Raquel
Dirigida por:
  1. María Felisa Verdejo Maíllo Director/a
  2. Joseba Abaitua Director/a

Universidad de defensa: Universidad de Deusto

Fecha de defensa: 10 de febrero de 2000

Tribunal:
  1. Ana M. García Serrano Presidenta
  2. María José Gil Larrea Secretario/a
  3. Horacio Rodríguez Hontoria Vocal
  4. María Antonia Martí Antonín Vocal
  5. Francisco García Vallejo Vocal

Tipo: Tesis

Teseo: 79776 DIALNET

Resumen

En esta tesis se aborda el problema de la alineación de un corpus paralelo y se aportan soluciones novedosas en algunos de los niveles de resolución más complejos, Estos niveles son las oraciones y algunos elementos intraoracionales como los términos multipalabra y los nombres propios. Se ha formalizado la alineación de un corpus paralelo como un problema de asignación con restricciones en un grafo bipartito. Para llevar a cabo dicha formalización, se ha propuesto una serie de definiciones de conceptos asociados a la alineación que no habían sido descritos con anterioridad en la bibliografía sobre el tema. El problema de asignación en un grafo bipartito se ha formalizado como un problema de satisfacción de restricciones (PSR). Para resolver este PSR, se propone un algoritmo de vuelta atrás mejorado adaptado al problema de la alineación. En dicha adaptación cabe destacar la implementación que se ha realizado del espacio de alineación así como de las alineaciones candidatas. El enfoque utilizado para resovler la alineación se basa en la segmentación del corpus paralelo en los siguientes niveles descriptivos: estructural, independiente del domino y en unidades de traducción. La información resultante de dichos niveles de segmentación se convierte en una fuente de conocimiento para la resolución de la alineación. Las estrategias que se proponen para alinear combinan la utilización de medidas cuantitativas con conocimiento lingüistico. Se trata, por lo tanto, de una propuesta híbrida que dará más o menos peso a cada tipo de criterio dependiendo del nivel de resolución al que se aplique. La evaluación de la metodología y de las soluciones algorítmicas propuestas se ha llevado a cabo con un corpus paralelo bilingüe en euskara y castellano perteneciente al dominio jurídico-administrataivo. Este corpus recibe el nombre de BOB. Los buenos resultados obtendios permiten afirmar que tanto la metodología com