Resolución automática de la ambigüedad lexica en tareas de clasificación automática de documentos
- Ureña López, Luis Alfonso
- Manuel de Buenaga Rodríguez Directeur/trice
Université de défendre: Universidad de Granada
Fecha de defensa: 20 octobre 2000
- Antonio Vaquero Sánchez President
- Buenaventura Clares Rodríguez Secrétaire
- Pablo Gervás Gómez-Navarro Rapporteur
- Julio Gonzalo Arroyo Rapporteur
- Paloma Garrido Iñigo Rapporteur
Type: Thèses
Résumé
En esta memoria se describen las tareas de análisis del contenido y se estudian tanto la resolución de la ambigüedad léxica como la clasificción de documentos, estableciendo paralelismos y elementos próximos entre ambos campos, En nuestro trabajo analizamos los recursos lingüisticos existentes e investigamos las formas en que éstos pueden mejorar la efectividad de la desambiguación. La principal aportación de esta Tesis consiste en la propuesta de un nuevo enfoque para la resolución de la ambigüedad léxica basado en la integración de recursos lingüisticos, para ellos se utiliza informaciónproveniente de un corupus de textos (SemCor) y de una base de datos léxica (WordNet). Se ha desarrollado una evalucaicóndirecta de la desambiguación, que muestra de forma experimental, sobre un amplio conjunto o colecciónde prueba, la efectividad del enfoque de desambiguaciónd e términos basado en la integración de recursos lingüisticos empleando una evaluación automática. Se aplica la resolución de la ambigüedad léxica a dos tareas concretas de clasificación de documentos: recuperación de información y categorización de textos. En el proceso de recuperación de información se expanden los términos de la consulta coninformación de WorlNet, una vez desambiguada mediante realimentación. En la categorización de textos se ha propuesto la resolución automática de la ambigüedad léxica enun enfoque también basado en la integración del corpus Reuters y la base de datos léxica WordNet. Este es un enfoque novedoso al incorporar la desambiguación automática en el proceso de integración de recursos lingüisticos en la tarea de categorización de textos. Finalmente, hemos expuesto y evaluado ambas tareas mediante un método sistemático que nos ha permitido comparar la efectividad en el ámbito de los sistemas de clasificación de documentos, tanto en recuperación de información como en categorización de text