Word sense disambiguation in multilingual contexts

  1. Duque Fernández, Andrés
Dirigida por:
  1. Lourdes Araujo Directora
  2. Juan Martínez Romo Director

Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 17 de febrero de 2017

Tribunal:
  1. Julio Gonzalo Arroyo Presidente
  2. Eneko Agirre Bengoa Secretario/a
  3. Ahmet Aker Vocal

Tipo: Tesis

Resumen

La desambiguación del sentido de las palabras se define como el proceso de identificación del sentido que adopta una palabra polisémica, es decir, con varios significados posibles, en el contexto concreto de una oración. Debido a la necesidad de definir sin ambigüedad posible el significado de todas las palabras de un texto para que un sistema automático pueda entenderlo y trabajar con él, la desambiguación semántica representa un aspecto crucial y transversal a cualquier tarea dentro del Procesamiento del Lenguaje Natural. La investigación realizada en esta tesis doctoral se centra en la desambiguación semántica en escenarios en los que existe la posibilidad de utilizar textos escritos en diversos idiomas. Dentro de estos escenarios, dividimos la tesis en dos grandes campos, en función de las tareas específicas de desambiguación a las que nos enfrentamos: desambiguación bilingüe del sentido de las palabras, y desambiguación multilingüe en el dominio biomédico. En la primera tarea, el objetivo es, dada una palabra con múltiples significados, escrita en un idioma inicial (generalmente inglés), encontrar su traducción más adecuada en un idioma final. La tarea de desambiguación en el dominio biomédico se basa en encontrar el sentido correcto de un término médico que puede apuntar a distintos conceptos concretos. Para hacer frente a las tareas propuestas, se utiliza una técnica novedosa basada en grafos de co-ocurrencia: a través de dicha técnica se transforma la información no estructurada disponible en diversos corpus, en una base de conocimiento estructurada que se puede utilizar después para realizar tareas de desambiguación. La base de conocimiento es un grafo en el que los nodos representan conceptos del corpus, y los enlaces entre ellos contienen información relacionada con la significancia estadística de su co-ocurrencia, es decir, de su aparición conjunta en un mismo documento del corpus. En la primera tarea, la información multilingüe es inherente al propio planteamiento del problema, ya que se busca obtener las traducciones más adecuadas de palabras entre varios idiomas. En ella, nuestro sistema utiliza los grafos de co-ocurrencia para representar el conocimiento en el idioma objetivo. Los contextos de las palabras ambiguas, escritos en el idioma original y traducidos gracias a un diccionario bilingüe creado automáticamente, se utilizan como fuente de información para que el grafo de co-ocurrencia realice la desambiguación. En esta línea se presenta también un estudio sobre los diccionarios bilingües necesarios en este tipo de tareas. En lo que se refiere a la desambiguación en el dominio biomédico, el multilingüismo se utiliza como evidencia adicional para comprobar si es posible mejorar la eficacia de sistemas monolingües en la tarea. Para ello, inicialmente se plantea una adaptación de nuestro sistema para hacer frente a la tarea desde una perspectiva monolingüe (en la que el grafo de coocurrencia se construye a partir de un corpus escrito en un único idioma). A continuación, se enriquece el grafo con información procedente de idiomas adicionales, para observar si este enriquecimiento desemboca en una mejora de los resultados obtenidos por el sistema. Se trata de una propuesta pionera en su campo, ya que no se han encontrado otros trabajos que utilicen información multilingüe para la desambiguación en el dominio biomédico. A lo largo del desarrollo de la tesis, se exploran múltiples corpus monolingües y multilingües, tanto de propósito general como relacionados con un dominio específico (en concreto el dominio biomédico). También se han estudiado y comparado diversos algoritmos que utilizan el grafo de co-ocurrencia como base estructurada de conocimiento para realizar la desambiguación final. La hipótesis matemática en la que se basa la construcción de nuestro grafo de co-ocurrencia ha sido comparada con otras técnicas similares, ofreciendo mejores resultados. Asimismo, para cada una de las tareas consideradas (desambiguación bilingüe y desambiguación en el dominio biomédico), nuestro sistema se ha comparado con otras técnicas del estado del arte, presentando resultados muy competitivos.