Algoritmo de clustering on-line utilizando metaheurísticas y técnicas de muestreo

  1. Casillas Rubio, Arantza
  2. Martínez Unanue, Raquel
  3. González de Lena, Mª Teresa
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2003

Número: 31

Páginas: 57-64

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

El clusteríng de un conjunto de documentos consiste en dividirlo en conjuntos disjuntos de clusters (subconjuntos), tales que los documentos pertenecientes al mismo cluster sean "similares" entre si y sean menos "similares" a los pertenecientes a los demás cluslers. En determinadas condiciones el clustering es una tarea computacionalmente muy costosa, verbigracia; trabajar con una colección extensa de documentos sin conocer a priori el número de clusters en los que se agruparán. Sí, además, el contexto en el que se va a realizar el clusteríng requiere una solución en un tiempo que no supere unos pocos segundos, los métodos convencionales de cálculo de un valor óptimo para el número de clusters resultan inadecuados. En este articulo se propone un algoritmo para realizar el clustering de un conjunto de documentos, sin conocer a priori el número de clusters. El énfasis se ha puesto en la reducción del tiempo de cálculo, por lo que podemos afirmar que nuestro algoritmo es capaz de realizar un clustering on-line. Las técnicas utilizadas combinan el uso de una regla de parada global, algoritmos genéticos, técnicas de muestreo estadístico y un algoritmo de clustering clásico.