Diseño e implementación de un nuevo clasificador de préstamos bancarios a través de la minería de datos

  1. Beltrán Pascual, Mauricio
Dirigida por:
  1. Ángel Muñoz Alamillos Director
  2. Juan Antonio Vicente Vírseda Codirector

Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 18 de diciembre de 2015

Tribunal:
  1. Enrique Corona Romero Presidente
  2. Juan José Montaño Moreno Secretario/a
  3. Francisco Javier Martínez de Pisón Ascacíbar Vocal

Tipo: Tesis

Resumen

El objetivo fundamental de esta tesis es disponer de un buen método estadístico que ayude a tomar decisiones más correctas a la hora de conceder o no un préstamo, para así mejorar la eficacia de la entidad financiera, siendo de especial interés en una situación como la actual en la que a las entidades financieras se les está exigiendo un mayor análisis del riesgo y una mejora en la eficiencia de su gestión. La verdadera finalidad consiste en desarrollar modelos de credit scoring óptimos y mejores a los conocidos, de acuerdo a las exigencias de calcular la probabilidad de default que requieren los modelos de Basilea II y III y que redundará, sin lugar a dudas, en un mayor beneficio de las instituciones al aplicar estos modelos en el proceso de concesión de créditos. Con los datos reales aportados por una Caja de Ahorros de La Rioja, de 1.788 peticionarios de créditos personales, de los que 179 no han devuelto el crédito mientras que 1.609 sí lo han satisfecho, se presenta una forma de implementar un clasificador de préstamos bancarios con los clasificadores óptimos obtenidos al analizar los diferentes algoritmos. Cuando la variable clase está muy desequilibrada los algoritmos de minería de datos son muy ineficientes respecto a la clase más desfavorecida. En este sentido se utiliza el método del submuestreo equilibrado del Cubo, propuesto por Deville y Tillé (2004). Entre los métodos existentes en la literatura estadística para la selección de submuestras es el denominado del Cubo el único que nos permite seleccionar una muestra equilibrada sobre variables auxiliares con probabilidades de inclusión que pueden ser iguales o no. El método del cubo selecciona únicamente las muestras cuyos estimadores de Horvitz-Thompson son iguales a los totales de las variables auxiliares conocidas. En el análisis de los métodos de la minería de datos se han estudiado y optimizado una extensa colección de algoritmos: diversos tipos de árboles de clasificación: CHAID, QUEST, CART y C 4.5, Máquinas de Vectores Soporte, diferentes tipos de redes neuronales: perceptrón multicapa y redes de base radial , regresión logística clásica y algunas de sus expansiones a través de estimadores kernel, diversos tipos de redes bayesianas: TAN, AOED y otros prototipos de redes bayesianas con diferentes algoritmos de búsqueda, además de siete métodos de sistemas de clasificación múltiple: Bagging, Adaboost, Decorate, Random Forest, Random Subspace, Vote y Stacking. Son los modelos bayesianos los que presentan mejores resultados avalados por un mayor porcentaje de aciertos, una mayor área de la curva ROC y a través de los contrastes estadísticos efectuados, por lo que podemos afirmar que las redes bayesianas presentan un mejor desempeño. También se concluye que, para resolver el problema del credit scoring, los métodos multiclasificadores obtienen excelentes resultados. Otra aportación importante es la efectuada en la fase de selección de variables, cuya tarea es imprescindible para buscar modelos más sencillos e interpretables. En este sentido la ayuda de la envolvente de Markov ha reducido significativamente el número de variables de dieciséis a once, mejorando la interpretabilidad del modelo elegido. La utilización de las redes bayesianas con un óptimo equilibrado de las instancias, unido a la correcta selección del conjunto de variables explicativas para la resolución del problema del crédit scoring, ha conducido a obtener excelentes resultados en la fase de entrenamiento y una mayor precisión en la fase de test. Una de las razones fundamentales de que estos modelos resulten excelentes a la hora de aplicarlos al credit scoring es que el enfoque bayesiano, basado en modelos de probabilidad, emplea la teoría de la decisión para el análisis del riesgo eligiendo en cada situación que se presenta la acción que maximiza la utilidad esperada.