An improved fuzzy system for representing web pages in clustering tasks

Pérez García-Plaza, Alberto

An improved fuzzy system for representing web pages in clustering tasks

Pérez García-Plaza, Alberto

Dirigida por:

Víctor Fresno Fernández Director
Raquel Martínez Unanue Directora

Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 23 de octubre de 2012

Tribunal:

María Felisa Verdejo Maíllo Presidenta
Julio Gonzalo Arroyo Secretario
Steven Schockaert Vocal
Fernando Martínez Santiago Vocal
Paolo Rosso Vocal

Tipo: Tesis

Teseo: 336474 DIALNET Acceso abierto editor

Resumen

AN IMPROVED FUZZY SYSTEM FOR REPRESENTING WEB PAGES IN CLUSTERING TAKS (UN SISTEMA BORROSO MEJORADO PARA LA REPRESENTACIÓN DE PÁGINAS WEB EN PROBLEMAS DE CLUSTERING) RESUMEN: Mantener la información organizada es un factor clave para facilitar el acceso a la misma. Aunque la información que necesitamos a veces este disponible en la Web, esta información no es útil si no somos capaces de acceder a ella. Con este objetivo, es cada vez más habitual el uso de técnicas automáticas para agrupar documentos. En esta tesis estamos interesados en el clustering de documentos, que consiste básicamente en agrupar dichos documentos en base a la similitud de sus contenidos. A este respecto, la representación de los documentos juega un papel fundamental en el clustering de páginas web y constituye el foco principal de la investigación llevada a cabo en esta tesis. El lenguaje HTML es la alternativa más común para escribir páginas web. Este lenguaje contiene información explícita (etiquetas, en este caso) sobre su representación visual, la tipografía del texto o incluso su estructura, entre otras cosas. Es también un formato muy común en Internet. El objetivo principal de esta tesis es realizar un estudio en profundidad con la intención de aprovechar al máximo un modelo borroso de representación de documentos HTML para problemas de clustering. Nuestro estudio se centra en la idea de descubrir si alguna parte del sistema puede ser explotada de una manera diferente que nos permita mejorar los resultados de clustering. Comenzamos nuestro trabajo analizando las partes del sistema que son susceptibles de mejora y estudiamos diferentes alternativas para realizar dichas mejoras. Por lo tanto, no proponemos un modelo de representación de documentos partiendo de cero, sino que lo construimos tratando de entender, en cada paso, sus diferentes aspectos. Para la evaluación de nuestros resultados y la comparación de las diferentes propuestas de representación, utilizamos distintas colecciones de páginas web de referencia que fueron creadas previamente para ser utilizadas como gold standards. El clustering se realiza por medio de algoritmos del estado del arte y nuestras propuestas son validadas en entornos de clustering plano y jerárquico. Finalmente, también tratamos de comprobar la utilidad de nuestras aproximaciones para la representación de páginas web escritas en dos idiomas, Inglés y Español.