Uso de grafos semánticos en la generación automática de resúmenes y estudio de su aplicación en distintos dominios: biomedicina, periodismo y turismo

PLAZA MORALES, LAURA

Uso de grafos semánticos en la generación automática de resúmenes y estudio de su aplicación en distintos dominiosbiomedicina, periodismo y turismo

PLAZA MORALES, LAURA

Dirixida por:

Pablo Gervás Gómez-Navarro Director
Alberto Díaz Esteban Director

Universidade de defensa: Universidad Complutense de Madrid

Fecha de defensa: 18 de febreiro de 2011

Tribunal:

Juan Luis Pavón Mestras Presidente/a
Raquel Hervás Ballesteros Secretario/a
Alberto Pascual Montano Vogal
Horacio Saggion Vogal
Roser Morante Vogal

Tipo: Tese

Teseo: 313571 DIALNET Docta Complutense editor

Resumo

En la sociedad en la que vivimos, la información se ha convertido en un bien necesario, a la vez que altamente cotizado, que nos acompaña en todas y cada una de nuestras actividades sociales, culturales y económicas cotidianas. Sin embargo, el crecim iento exponencial de la información a nuestro alcance se presenta como una amenaza a su uso efectivo para la formación de conocimiento, ya que, si bien la disponibilidad de esta información parece estar garantizada, no ocurre lo mismo con el tiempo n ecesario para procesarla. La Generación Automática de Resúmenes (GAR) trata, en cierta medida, de paliar los efectos negativos de la sobrecarga de información sobre la capacidad de los usuarios para obtener aquella que realmente les interesa y tran sformarla en conocimiento. Los resúmenes generados automáticamente pueden utilizarse como sustitutos de los documentos originales o simplemente como referencia en la selección de documentos para una lectura más profunda. Más aún, resultan de gran utilidad como paso intermedio en otras tareas de Procesamiento de Lenguaje Natural (PLN). La generación de resúmenes es una de las tareas más complejas de las encuadradas dentro de la más amplia disciplina del PLN, debido a la gran cantidad de otras t areas que implícitamente conlleva, como la detección de temas, la desambiguación léxica, la resolución de referencias, la simplificación de oraciones o la eliminación de redundancia. Si bien casi todas ellas han sido ampliamente estudiadas en la lite ratura, en el momento de escribir esta memoria no se conoce ningún trabajo que analice el efecto de la ambigüedad en el texto a resumir sobre la calidad de los resúmenes generados automáticamente. Es por ello que en esta tesis doctoral se presta espe cial atención a la resolución de ambigüedades como un paso previo a la generación del resumen. Tal y como demuestran los resultados, la ambigüedad repercute negativamente en la generación automática de resúmenes, de tal modo que es posible mejorar si gnificativamente la calidad de los resultados mediante el uso de los algoritmos apropiados de desambiguación léxica. El trabajo se completa con tres casos de estudio en los que el método diseñado se configura y utiliza para generar distintos tipos d e resúmenes de textos de diferentes dominios y con unas características de estructura y estilo muy dispares: artículos científicos de biomedicina, noticias periodísticas y páginas web de información turística. Los resúmenes generados son evaluados ut