Alineación automática de corpus paralelosuna propuesta metodológica y su aplicación a un dominio de especialidad

  1. Martínez Unanue, Raquel
Dirigée par:
  1. María Felisa Verdejo Maíllo Directeur/trice
  2. Joseba Abaitua Directeur/trice

Université de défendre: Universidad de Deusto

Fecha de defensa: 10 février 2000

Jury:
  1. Ana M. García Serrano President
  2. María José Gil Larrea Secrétaire
  3. Horacio Rodríguez Hontoria Rapporteur
  4. María Antonia Martí Antonín Rapporteur
  5. Francisco García Vallejo Rapporteur

Type: Thèses

Teseo: 79776 DIALNET

Résumé

En esta tesis se aborda el problema de la alineación de un corpus paralelo y se aportan soluciones novedosas en algunos de los niveles de resolución más complejos, Estos niveles son las oraciones y algunos elementos intraoracionales como los términos multipalabra y los nombres propios. Se ha formalizado la alineación de un corpus paralelo como un problema de asignación con restricciones en un grafo bipartito. Para llevar a cabo dicha formalización, se ha propuesto una serie de definiciones de conceptos asociados a la alineación que no habían sido descritos con anterioridad en la bibliografía sobre el tema. El problema de asignación en un grafo bipartito se ha formalizado como un problema de satisfacción de restricciones (PSR). Para resolver este PSR, se propone un algoritmo de vuelta atrás mejorado adaptado al problema de la alineación. En dicha adaptación cabe destacar la implementación que se ha realizado del espacio de alineación así como de las alineaciones candidatas. El enfoque utilizado para resovler la alineación se basa en la segmentación del corpus paralelo en los siguientes niveles descriptivos: estructural, independiente del domino y en unidades de traducción. La información resultante de dichos niveles de segmentación se convierte en una fuente de conocimiento para la resolución de la alineación. Las estrategias que se proponen para alinear combinan la utilización de medidas cuantitativas con conocimiento lingüistico. Se trata, por lo tanto, de una propuesta híbrida que dará más o menos peso a cada tipo de criterio dependiendo del nivel de resolución al que se aplique. La evaluación de la metodología y de las soluciones algorítmicas propuestas se ha llevado a cabo con un corpus paralelo bilingüe en euskara y castellano perteneciente al dominio jurídico-administrataivo. Este corpus recibe el nombre de BOB. Los buenos resultados obtendios permiten afirmar que tanto la metodología com