Aplicación de técnicas de redes neuronales a la extracción automática de conceptos complejos orientada a la caracterización de conocimiento en bases de datos

  1. Pérez Molina, Clara
Dirigida per:
  1. Carlos de Mora Buendía Director

Universitat de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 07 de de maig de 2002

Tribunal:
  1. Manuel Alonso Castro Gil President
  2. José Luís del Valle-Inclán Bolaño Secretari/ària
  3. Felipe Mateos Martín Vocal
  4. Ricardo Ruiz Fernández Vocal
  5. Julio Gonzalo Arroyo Vocal

Tipus: Tesi

Teseo: 91614 DIALNET

Resum

En esta tesis se ha diseñado e implementado un sistema orientado a la detección y extracción de conceptos complejos para definir el conocimiento presente en documentos de texto, expresiones formadas por un número no definido de términos individuales y que forman una unidad de significado, Para ello se han utilizado técnicas basadas en redes neuronales. La información contenida en los documentos individuales es sometida a un proceso de filtrado y etiquetado hasta adoptar una forma que se traduce a patrones de comportamiento. El núcleo del sistema está formado por una red neuronal artificial de aprendizaje no supervisado, esta red recibe un proceso de aprendizaje utilizando los patrones de compartimento determinados en la fase previa. La red neuronal, una vez está debidamente entrenada, posibilita la extracción de los coneptos relacionados a partir del estudio de los pesos de las neuronas. Para ello, la información que contiene la red es analizada e interpretada en una etapa posterior en la que se determinan las asociaciones que existen entre grupos de palabras. Los resultados del tratamiento de los documentos son almacenados en una base creada para tal fin y presentados a través de una interfaz gráfica. El algoritmo de aprendizaje diseñado para la red neuronal del sistema es una variación de la regla de Hebb para redes de memoria asociativa. Este algoritmo de parendizaje refuerza los pesos de las neuronas proporcionalmente al producto entre la entrada y la salida de la red. De esta forma, se consigue que las neuronas aprendan asociaciones entre dichas entradas y salidas. La aproximación elegida para abordar el problema presenta algunas ventajas frente a otros métodos basados en el análisis sintáctico de los documentos, puesto que el sistema es capaz de detectar expresiones multipalabra no encontradas por dichos métodos. La característica más destacable del sistema es la capacidad para detectar asociaciones e