An improved fuzzy system for representing web pages in clustering tasks
- Víctor Fresno Fernández Director
- Raquel Martínez Unanue Directora
Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia
Fecha de defensa: 23 de octubre de 2012
- María Felisa Verdejo Maíllo Presidenta
- Julio Gonzalo Arroyo Secretario
- Steven Schockaert Vocal
- Fernando Martínez Santiago Vocal
- Paolo Rosso Vocal
Tipo: Tesis
Resumen
AN IMPROVED FUZZY SYSTEM FOR REPRESENTING WEB PAGES IN CLUSTERING TAKS (UN SISTEMA BORROSO MEJORADO PARA LA REPRESENTACIÓN DE PÁGINAS WEB EN PROBLEMAS DE CLUSTERING) RESUMEN: Mantener la información organizada es un factor clave para facilitar el acceso a la misma. Aunque la información que necesitamos a veces este disponible en la Web, esta información no es útil si no somos capaces de acceder a ella. Con este objetivo, es cada vez más habitual el uso de técnicas automáticas para agrupar documentos. En esta tesis estamos interesados en el clustering de documentos, que consiste básicamente en agrupar dichos documentos en base a la similitud de sus contenidos. A este respecto, la representación de los documentos juega un papel fundamental en el clustering de páginas web y constituye el foco principal de la investigación llevada a cabo en esta tesis. El lenguaje HTML es la alternativa más común para escribir páginas web. Este lenguaje contiene información explícita (etiquetas, en este caso) sobre su representación visual, la tipografía del texto o incluso su estructura, entre otras cosas. Es también un formato muy común en Internet. El objetivo principal de esta tesis es realizar un estudio en profundidad con la intención de aprovechar al máximo un modelo borroso de representación de documentos HTML para problemas de clustering. Nuestro estudio se centra en la idea de descubrir si alguna parte del sistema puede ser explotada de una manera diferente que nos permita mejorar los resultados de clustering. Comenzamos nuestro trabajo analizando las partes del sistema que son susceptibles de mejora y estudiamos diferentes alternativas para realizar dichas mejoras. Por lo tanto, no proponemos un modelo de representación de documentos partiendo de cero, sino que lo construimos tratando de entender, en cada paso, sus diferentes aspectos. Para la evaluación de nuestros resultados y la comparación de las diferentes propuestas de representación, utilizamos distintas colecciones de páginas web de referencia que fueron creadas previamente para ser utilizadas como gold standards. El clustering se realiza por medio de algoritmos del estado del arte y nuestras propuestas son validadas en entornos de clustering plano y jerárquico. Finalmente, también tratamos de comprobar la utilidad de nuestras aproximaciones para la representación de páginas web escritas en dos idiomas, Inglés y Español.