Evaluación del clustering de páginas web mediante funciones de peso y combinación heurística de criterios

  1. Casillas Rubio, Arantza
  2. Fresno Fernández, Víctor
  3. Martínez Unanue, Raquel
  4. Montalvo Herranz, Soto
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2005

Número: 35

Páginas: 417-424

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

El clustering de páginas web facilita, entre otras tareas, la valoración y búsqueda de resultados de un buscador de páginas web. Uno de los aspectos clave del proceso de clustering es la función de peso que se aplica a los rasgos seleccionados para representar dichas páginas. Este artículo presenta la evaluación de los resultados de un algoritmo de clustering de partición sobre una colección de referencia de páginas web, utilizando siete funciones de peso distintas y dos tipos de reducción de rasgos. Se han comparado cinco funciones bien conocidas, basadas únicamente en el contenido textual de las páginas web, con otras dos funciones de peso basadas en una combinación heurística de criterios, entre los que destaca la utilización de la información de las anotaciones HTML. Estas dos últimas han sido propuestas, por parte de uno de los autores, en trabajos anteriores. Se ha comprobado que los mejores resultados se obtienen con la función que combina en forma borrosa este tipo de criterios