Leioa, España
El objetivo de este trabajo fue comparar el error Tipo I y la potencia de tres métodos de detección de funcionamiento diferencial del ítem en respuestas politómicas. Se compararon dos procedimientos basados en los modelos de estructuras de medias y covarianzas (MACS) y la teoría de respuesta al ítem (IRT) con un tercer procedimiento de puntuación observada, la regresión logística ordinal. Se utilizó simulación Montencarlo para generar datos según el modelo de respuesta graduada de Samejima. Se manipularon tres factores: tamaño de la muestra por grupo (300-, 500-, y 1,000- sujetos), tipo de DIF (b-parámetro, a-parámetro y a- y b parámetros), y magnitud de DIF (pequeño y grande). El error tipo I en presencia de DIF fue mayor que el esperado para la TRI y la regresión logística ordinal. Para la condición de DIF uniforme, MACS y TRI mostraron potencias similares, sin embargo, la regresión logística ordinal mostró una potencia algo superior al resto para tamaños de muestra pequeños. En las condiciones de DIF no uniforme, la potencia de la TRI fue mayor que MACS y la regresión logística ordinal.
The purpose of the present study was to compare the Type I error rate and power of two model-based procedures, the mean and covariance structure model (MACS) and the item response theory (IRT), and an observed-score based procedure, ordinal logistic regression, for detecting differential item functioning (DIF) in polytomous items. A simulation study was employed in which polytomous data with five ordered categories were generated using Samejima's graded response model under three crossed factors: sample size per group (300-, 500-, and 1,000-examinees), type of DIF (b-parameter, aparameter, and a- and b-parameter DIF), and magnitude of DIF (small and large magnitudes of DIF). The Type I error rate was inflated for IRT based tests and ordinal logistic regression when some of the items contained DIF.
For the uniform DIF conditions, MACS and IRT exhibited similar power rates; however, ordinal logistic regression exhibited slightly higher power compared to the other two methods for smaller sample sizes. Lastly, for nonuniform DIF, IRT exhibited much more power compared to MACS and ordinal logistic regression.