Salamanca, España
Las respuestas a los test de respuesta abierta han de ser puntuadas por calificadores cuyo correcto proceder es la clave para obtener mediciones fiables y válidas. El comportamiento de los calificadores ha de ser evaluado si se desea medir de forma fiable y válida el constructo de interés. Los estadísticos clásicos de consenso y consistencia entre calificadores no son apropiados porque arrojan resultados contradictorios en función de su grado de severidad. Además, con los procedimientos de puntuación basados en la suma de los valores otorgados a los ítems por varios calificadores no es posible esclarecer si la magnitud de las puntuaciones recibidas se debe al nivel de competencia de los examinados o a los efectos del calificador. Los modelos psicométricos de tipo Rasch permiten obtener la separabilidad de los parámetros de las personas y los calificadores. En este artículo se muestra la utilidad de un modelo de Rasch (Many-Facet Rasch Measurement, MFRM) para obtener medidas invariantes del rendimiento de los examinados, de la severidad de los calificadores, de la dificultad de las tareas y de otras facetas adicionales de las pruebas de respuesta construida. Se ilustra la formulación del modelo y sus estadísticos básicos con un ejemplo en el que se analizan, mediante el programa FACETS, las fuentes de la variabilidad de las calificaciones de los estudiantes en un test de expresión escrita
Responses to open-ended tests must be scored by raters whose correct behavior is the key to obtaining reliable and valid measurements. Rater behavior must be evaluated if the construct of interest is to be measured reliably and validly. The classical inter-rater consensus and consistency statistics are not appropriate because they yield contradictory results depending on their degree of severity. Moreover, with scoring procedures based on the sum of the values given to the items by several raters, it is not possible to clarify whether the magnitude of the scores received is due to the level of competence of the examinees or to the effects of the rater. Rasch-type psychometric models make it possible to obtain the separability of person and rater parameters. This paper shows the usefulness of a Rasch model (Many-Facet Rasch Measurement, MFRM) for obtaining invariant measures of examinee performance, rater severity, task difficulty, and additional facets of constructedresponse tests.The formulation of the model and its basic statistics are illustrated with an example in which the sources of variability in student scores on a written expression test are analyzed using the FACETS program.