Métodos de estimación y sus implicaciones para la validación de constructo mediante Análisis Factorial Confirmatorio de escalas tipo LikertUn estudio de simulación

  1. Morata Ramírez, María Ángeles
Supervised by:
  1. Francisco Pablo Holgado Tello Director
  2. María Isabel Barbero García Director

Defence university: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 02 June 2017

Committee:
  1. María Araceli Maciá Antón Chair
  2. Salvador Chacón Moscoso Secretary
  3. María Teresa Anguera Argilaga Committee member

Type: Thesis

Abstract

Al diseñar un instrumento de medida en Psicología es imprescindible indagar si las conductas observables incluidas en él son capaces de describir de manera indirecta, u operativizar, el grado en el que el constructo psicológico está presente en los sujetos. Con esta finalidad se lleva a cabo la validación del constructo, para lo cual puede aplicarse el Análisis Factorial. En el enfoque confirmatorio de esta técnica, conocido como Análisis Factorial Confirmatorio (AFC), tiene lugar una serie de fases, entre las cuales se atenderá a las correspondientes a la estimación de parámetros y a la evaluación de la bondad de ajuste del modelo. Elegir el método de estimación más adecuado va a incidir posteriormente en los resultados acerca del grado de ajuste a los datos empíricos del modelo teórico hipotetizado que estructura las variables del constructo. Por ejemplo, si el método de Máxima Verosimilitud, que requiere el cálculo del coeficiente de correlación de Pearson, se aplica para la validación de constructo mediante Análisis Factorial de un instrumento de medida en el que las variables observadas atienden a una escala de medida ordinal (como las escalas tipo Likert), para las cuales es más adecuado utilizar correlaciones policóricas según Jöreskog y Sörbom (1989), probablemente los resultados con el método de Máxima Verosimilitud den lugar a decisiones erróneas vinculadas al ajuste del modelo teórico hipotetizado. OBJETIVOS Y MÉTODO El objetivo general de la presente investigación se ha centrado en poner de manifiesto, mediante un estudio de simulación en el marco del AFC, el comportamiento de una serie de métodos de estimación en función de la combinación del número de factores (2, 3, 4, 5 y 6 factores), del número de categorías de respuesta (3, 4, 5 y 6 categorías), del grado de asimetría de la distribución de respuestas (simetría, asimetría moderada y asimetría severa) y del tamaño muestral (100, 150, 250, 450, 650, y 850 sujetos) que caracterizan modelos teóricos tanto bien como mal especificados cuando los sujetos responden mediante escalas tipo Likert. Para realizar la simulación se utilizaron los programas PRELIS, LISREL y R. Además, se generó un programa específico en lenguaje de JAVA para facilitar la gestión y compilación de ficheros de índices de bondad de ajuste. El modelo teórico que se sometía a prueba era de dos tipos: modelos especificados correctamente y modelos especificados incorrectamente. En el primer caso, el modelo teórico que se especifica corresponde exactamente con el modelo que ha permitido generar los datos. Así, cada ítem se hace saturar en su factor teórico correspondiente. En el segundo caso, el modelo teórico que se especifica no se corresponde con el modelo que ha generado los datos. Por tanto, se especifica un modelo de tal forma que se hace saturar incorrectamente un ítem de cada factor incluyéndolo en otro factor distinto al que teóricamente le corresponde. Como primer objetivo, en este estudio de simulación se indaga en la capacidad de cinco métodos de estimación (ML, RML, WLS, ULS, RULS) para aceptar o rechazar correctamente los modelos bien y mal especificados según los resultados obtenidos mediante la prueba estadística vinculada al índice de razón de verosimilitud χ2. En esta prueba estadística la hipótesis nula establece que el modelo teórico propuesto se ajusta al modelo derivado de los datos empíricos, es decir, está bien especificado. Si se rechaza la hipótesis nula, el modelo teórico propuesto no se ajusta al modelo derivado de los datos empíricos, esto es, está mal especificado. Para alcanzar este primer objetivo, se analizó el error Tipo I y la potencia de los métodos de estimación seleccionados tanto desde una consideración de los factores manipulados de manera aislada (número de factores, número de categorías, grado de asimetría y tamaño muestral) como desde una perspectiva global. El error Tipo I se calculó a partir del porcentaje de rechazos de la hipótesis nula en modelos correctamente especificados. La potencia (1-β) se calculó según el porcentaje de rechazos de la hipótesis nula en modelos mal especificados. El cálculo del error Tipo I y la potencia (1-β) se realizó para cada uno de los valores Ji-cuadrado que aparecen en los resultados de LISREL según el método de estimación utilizado. Estos valores Ji-cuadrado se conocen como C1, C2, C3 y C4. Como segundo objetivo, una vez explorado el efecto de los factores manipulados sobre el error tipo I y la potencia, se trató de determinar, en cada método de estimación, los índices de bondad de ajuste que se ven afectados por las condiciones experimentales, tanto en modelos correctamente identificados como en modelos que a priori son falsos, para tratar de detectar el método más adecuado en cada situación. Para ello se analizaron, desde una perspectiva inferencial, los efectos de los factores manipulados sobre un conjunto de índices de bondad de ajuste habitualmente utilizados (RMSEA, NNFI, CFI, RMR, GFI y AGFI). Así, para cada método de estimación se llevó a cabo un análisis multivariado de varianza (MANOVA) en el que las variables independientes fueron las cuatro condiciones experimentales (el número de factores, el número de categorías, el grado de asimetría de la distribución de las respuestas y el tamaño muestral) y las variables dependientes fueron las probabilidades de los valores Ji-cuadrado correspondientes y los índices de bondad de ajuste (RMSEA, NNFI, CFI, RMR, GFI y AGFI). Era esperable que todos los efectos fueran significativos debido al elevado número de replicaciones, por lo que se usó la eta cuadrado parcial (ηp2) como medida del tamaño del efecto. Únicamente se atendió a tamaños del efecto iguales o superiores a 0.14, ya que Cohen (1988) los considera suficientemente grandes como para ser tenidos en cuenta. RESULTADOS En relación con el primer objetivo del estudio, cuando se atiende de manera aislada al número de factores del modelo, al número de categorías de respuesta, al grado de asimetría de la distribución de respuestas del modelo o al tamaño muestral, se observa que el método ULS presenta los mayores porcentajes de error Tipo I de los cinco métodos analizados y que los métodos robustos presentan los porcentajes más bajos, siendo los mostrados por RML ligeramente menores que los correspondientes a RULS. En cuanto a la potencia, los porcentajes más altos corresponden al método ULS, seguido por los métodos no robustos, cuyos porcentajes de potencia son mayores para RULS que para RML. En caso de que se consideren todos los datos con independencia de las cuatro condiciones experimentales, al comparar los métodos de estimación entre sí queda patente que, tanto en relación con el error Tipo I como con la potencia, el método ULS muestra los porcentajes más altos, mientras que el método RML presenta los porcentajes más bajos. En este contexto, al utilizar el método RULS se obtiene un porcentaje de error Tipo I más elevado que el de RML y menor que el resto de métodos, mientras que su porcentaje de potencia, de un valor similar al correspondiente al método WLS, es menor que ULS y mayor que los restantes métodos analizados. Entre los resultados correspondientes al segundo objetivo del estudio, es destacable el hecho de que, al aplicar el método ML, solo cuando los modelos están mal especificados se encuentran índices robustos para cada una de las cuatro condiciones experimentales: los índices Ji-cuadrado (C1 y C2), NNFI y CFI. Si se aplica el método RML, tanto para modelos bien como mal especificados, los índices C1 y C2 son robustos para cada una de las cuatro condiciones experimentales. Por su parte, el índice C3 es robusto al número de factores y de categorías (para modelos mal especificados) y al número de factores (para modelos bien especificados). Al utilizar el método WLS, el índice Ji-cuadrado (C1) es robusto para cada una de las condiciones experimentales en caso de que los modelos estén mal especificados, si bien el resto de índices también lo es en relación con el número de categorías y al grado de asimetría. Sin embargo, cuando los modelos están bien especificados, solamente el índice NNFI es robusto para toda condición experimental. Respecto al método ULS, el índice Ji-cuadrado (C2) y el índice CFI son robustos a las cuatro condiciones experimentales para modelos mal y bien especificados, respectivamente. En cuanto al método RULS, cuando los modelos están mal especificados, el índice χ2 (C2, C3 y C4) es robusto a las cuatro condiciones experimentales, mientras que los índices C3, RMSEA, NNFI y CFI lo son para modelos bien especificados. CONCLUSIONES A partir de los resultados obtenidos en relación con el primer objetivo, se llega a la conclusión que el método RULS es el que más ventajas presenta frente a los métodos ML, RML, WLS y ULS. En este sentido, con el método RULS hay un menor probabilidad de rechazar los modelos teóricos especificados correctamente y una mayor probabilidad de rechazar los modelos teóricos especificados incorrectamente, tanto al considerar individualmente el número de factores, el número de categorías, el grado de asimetría y el número de sujetos de los modelos analizados en el estudio como al considerar todas estas condiciones experimentales de manera global. Este resultado queda reforzado por la perspectiva de Jöreskog y Sörbom (1989), que recomiendan el uso de métodos que utilicen correlaciones policóricas cuando se obtienen datos mediante escalas Likert, cuyas variables observadas son de naturaleza ordinal. Respecto al segundo objetivo del estudio, dado que el método RULS ha demostrado ser el más recomendable frente al resto de métodos de estimación analizados, en relación con los efectos principales y los modelos mal especificados, al aplicar dicho método se observa que el único índice robusto, es decir, que no alcanza un tamaño del efecto suficientemente grande según el criterio de Cohen (1988), es el índice χ2 (que abarca los índices C2, C3 y C4). Este hecho es común a las cuatro condiciones experimentales (número de factores, número de categorías, grado de asimetría y tamaño muestral) y se da, si los modelos están bien especificados, para los índices C3, RMSEA, NNFI y CFI. En relación con los efectos de interacción, los índices de bondad de ajuste robustos son χ2 (que incluye los índices C2, C3 y C4), RMSEA, NNFI y CFI tanto si modelos están mal especificados como bien especificados. Cabe recordar que el índice C3 ó χ2 escalado de Satorra-Bentler sirve para corregir las consecuencias de que las variables observadas no sigan la distribución normal (Bryant y Satorra, 2012).