Nuevos criterios para la definición de índices de evaluación internos de clustering
- Rojas Thomas, Juan Carlos
- Matilde Santos Peñas Director/a
- Marco Mora Cofré Director/a
Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia
Fecha de defensa: 30 de noviembre de 2019
- Sebastián Dormido Canto Presidente
- Aythami Morales Moreno Secretario/a
- María Guijarro Mata-García Vocal
Tipo: Tesis
Resumen
Esta tesis presenta un conjunto de nuevas propuestas relacionadas con la validación interna del clustering de datos, tanto definiciones de índices como de metodologías. Estas propuestas se basan fundamentalmente en un conjunto de criterios definidos para capturar las geometrías de los clústeres de forma más precisa que los ya existentes en la literatura del área. En concreto, respecto a la definición de índices internos, se trabajó en tres niveles diferentes de acuerdo al grado de innovación aportado en la tesis. En un primer nivel se mejoraron índices ya existentes en la literatura. En particular, se construyeron dos nuevas versiones del conocido índice interno Davies-Bouldin usando nuevas estrategias para mejorar la estimación tanto de las dispersiones de los clústeres como de las distancias entre estos, combinando criterios geométricos y de densidades. En la primera versión del índice se definió una región geométrica denominada híper-cilindro, la cual fue utilizada para capturar las densidades de datos entre clústeres, para de esta forma mejorar la estimación de las distancias entre estos. En la segunda versión del índice se utilizó la extensión a “n” dimensiones de la forma geométrica rectangular, denominada híper-rectángulo, que fue utilizada para mejorar la estimación de las dispersiones de los clústeres. En un segundo nivel se construyeron dos nuevos índices internos. En ambos se definieron técnicas innovadoras para calcular tanto las dispersiones de los clústeres como las distancias entre estos. El primero de ellos, denominado RTI, se construyó combinando criterios de densidades y de grafos. Los grafos utilizados en este índice corresponden a árboles de extensión mínima construidos a partir de la subdivisión iterativa de los clústeres en subunidades más pequeñas. Se define el concepto de “cohesión” para representar el grado de conexión entre subunidades en términos de densidades de los datos. El segundo de ellos, denominado SG, se construyó basándose exclusivamente en criterios geométricos, donde el núcleo del enfoque utilizado en su definición consistió en el uso de figuras geométricas, tales como segmentos de recta e híper-esferas. En un tercer nivel se definió un nuevo paradigma de clustering de datos en donde el concepto de densidad es el elemento diferenciador, y en este marco se definió un nuevo índice interno. El nuevo paradigma considera a los conjuntos de datos como una sola nube continua de puntos, dentro de la cual los clústeres se definen como las regiones dentro de esta nube que presentan un alto grado de uniformidad espacial. El nuevo índice propuesto se define con el objetivo de reconocer qué partición de los datos mejora más esta cualidad de uniformidad. Finalmente, este trabajo propone una nueva metodología de evaluación de los índices internos, la cual se centra en medir sus rendimientos respecto a una característica estructural específica de los datos. Un aspecto central de esta metodología es el poder contar con un índice que permita medir de manera objetiva la característica estructural de interés. Este trabajo presenta una implementación específica de esta metodología para los denominados “clústeres asimétricos”, para lo cual se define el índice respectivo. A diferencia de las metodologías tradicionales, esta metodología no genera un ranking lineal de índices, sino que los agrupa en categorías de acuerdo a su comportamiento en dos parámetros de rendimiento. Los resultados positivos obtenidos en las diferentes propuestas demuestran la viabilidad de los criterios utilizados y abren nuevas oportunidades para implementar posteriores mejoras y propuestas innovadoras, tanto en la problemática de la evaluación de los resultados del clustering de datos como en el proceso del clustering en sí, así como su extensión al área del clustering difuso.