Marco metodológico para la construcción de sistemas de generación de lenguaje natural

  1. Bernardos Galindo, María Socorro
Supervised by:
  1. Guadalupe Aguado de Cea Director
  2. Asunción Gómez Pérez Director

Defence university: Universidad Politécnica de Madrid

Fecha de defensa: 16 July 2003

Committee:
  1. Juan Pazos Sierra Chair
  2. Ana M. García Serrano Secretary
  3. Inmaculada Álvarez-Serrano Committee member
  4. Juan Ares Casal Committee member
  5. Pablo Gervás Gómez-Navarro Committee member

Type: Thesis

Abstract

La Generación de Lenguaje Natural (GLN) es una subárea del Procesamiento de Lenguaje Natural (PLN) que trata de la producción automática de textos en una lengua humana a partir de una representación computacional de la información. La GLN es una disciplina relativamente reciente, que no ha sido considerada como una materia con entidad propia hasta la década de 1980. Como se sabe, una de las principales dificultades que presentan las nuevas tecnologías es la carencia de estándares o metodologías comúnmente aceptadas. En el caso de la construcción de sistemas de GLN la situación es la siguiente. Por un lado, si bien se han descrito métodos y técnicas para resolver ciertas cuestiones de la GLN, no se ha planteado un conjunto de pasos sistemáticos que abarque la elaboración completa de un sistema de GLN. Por otro lado, los sistemas ya desarrollados sólo pueden utilizarse, en el mejor de los casos, como apoyo en la realización de algunos de los módulos del nuevo sistema; primero porque se han construido específicamente para un dominio, de forma que adoptan soluciones particulares que no son generalizables y segundo, porque normalmente sólo se tiene acceso a información muy general sobre los mismos o sobre algún método utilizado en una tarea concreta, es decir, no se dispone de documentación que explique detalladamente la construcción de esos sistemas de principio a fin. Con el fin de tener un punto de referencia para futuros proyectos de GLN, esta tesis se propone como objetivo elaborar un marco metodológico que sirva de guía en el desarrollo de un sistema de GLN y que abarque todas las actividades implicadas en ese proceso. Así, el fin último de este trabajo es ayudar a convertir el proceso de construcción de un sistema de GLN, actualmente muy artesanal, en una disciplina propia del ámbito de la ingeniería (de manera similar a lo ocurrido con los sistemas de ingeniería del software e ingeniería del conocimiento). Es decir, que produzca sistemas de GLN sin fallos, acabados a tiempo, dentro del presupuesto y que satisfagan las necesidades del usuario, usando para ello un enfoque sistemático, disciplinado y cuantificable que se sirva de métodos y técnicas formales. Para conseguir esto se proporciona: 1.- Una revisión crítica de la GLN. Para ello se elaboran definiciones de los diferentes conceptos, unificando visiones complementarias y relacionando los términos empleados con los que utilizan distintos investigadores y desarrolladores en el ámbito de la GLN. 2.- Un conjunto de actividades que hay que realizar para construir un sistema de GLN. Con esto se busca obtener una relación de todo lo que se debe hacer cuando se quiere elaborar un sistema de este tipo. Se toma como base un estándar para el desarrollo del proceso de ciclo de vida de un sistema software, en concreto, el IEEE 1074-1997, y se modifica para poder aplicarlo a la GLN. 3.- Una indicación de cómo llevar a cabo esas actividades, centrándose en aquellas que presentan diferencias con el estándar. Siempre que la experiencia en GLN lo permite, se señalan los métodos y técnicas (previamente existentes o propuestas nuevas planteadas en esta tesis) que se pueden aplicar para llevar a cabo las actividades, y se resaltan los aspectos más importantes que hay que tener en cuenta cuando se están realizando dichas actividades. 4.- Una estrategia de construcción. Se intenta ayudar a crear un ciclo de vida del sistema de GLN estableciendo un orden general de realización de las actividades anteriores, que luego se tendrá que refinar para cada proyecto concreto. Todas estas aportaciones se validan mediante la realización de un proyecto de GLN, que consiste en la construcción de un sistema de consulta sobre plantas medicinales que produce respuestas en español.