Pruebas de Evaluación de Diagnóstico 2013

0. Un año más en Andalucía se han celebrado la pasada semana las PED correspondientes a este curso. Sin embargo, a diferencia de lo sucedido en anteriores ocasiones, en esta convocatoria se han producido novedades, externas a las propias pruebas. Se filtraron públicamente dos cuadernillos (uno de Primaria y otro de Secundaria) de estos exámenes y, en consecuencia, algunos sindicatos alentaron un paro en las horas de aplicación de los mismos. Por cierto, lo novedoso de la filtración se circunscribe al carácter público y desafiante de la misma. A todos nos han llegado, desde hace años, rumores de que existían centros que preparaban con antelación las pruebas que días más tarde pasaban a sus alumnos. Y ello es posible porque los cuadernillos se remiten con una antelación de casi dos semanas a las direcciones de los centros. Por su parte, la Consejería de Educación se felicita de la normalidad con la que, pese a todas estas dificultades señaladas, se han realizado las PED en el 96% de los centros. El principal argumento que desde la Consejería de Educación se esgrimió para no suspender o modificar las PED, pese a la filtración pública, fue que las PED son un instrumento útil para la autoevaluación de los centros.

No obstante, entiendo que los responsables de la Consejería iniciarán una reflexión sobre las propias PED. Las líneas que siguen tienen el propósito de contribuir a esa necesaria y ya imperiosa reflexión en la que- me parece- debería participar toda la comunidad educativa.

1. Es evidente que las PED toman como modelo las pruebas de evaluación externa internacional del sistema educativo, tipo PISA, TIMMS, PIRLS, EECL… Pero lo que sucede, como se comprueba tras una mínima comparación, es que las PED son un pálido y borroso reflejo de sus modelos:

a) Las PED son pruebas censales y anuales, esto es, salvo la excepción de los alumnos con necesidades educativas especiales, la realizan todos los alumnos que cursan 2º de ESO cada año, mientras que las pruebas internacionales son muestrales y con una periodicidad siempre superior al año: por ejemplo, las pruebas PISA tienen lugar cada 3 años, y PIRLS o EECL, cada 5 años. Son varias las razones que explican esta frecuencia, pero entre ellas no son menores las de carácter económico.

b) Las PED son pruebas externas, a saber, los ítems que componen los cuadernillos son elaborados por comisiones de expertos, pero tanto sus aplicadores como los correctores (codificadores) son internos, es decir, son los profesores de los alumnos que son examinados. Como consecuencia de ello, el riesgo de difusión es evidente, y, por tanto, la filtración se produce, se ha producido y se producirá. Además, todos los ítems de los cuadernillos son liberados. Por tanto, no existen ítems de anclaje, esto es, no hay ítems que se repiten de una prueba a otra, lo que debilita la comparación en serie histórica de los resultados de las sucesivas ediciones.

c) Cualquier prueba de evaluación- y por supuesto, las pruebas de evaluación externa internacional- corregida por un número alto de correctores debe procurar la homogeneidad en la codificación de la misma. La dificultad de corrección de los ítems de respuesta abierta es evidente. A esta dificultad en una prueba internacional se responde con unos criterios de codificación (corrección) del ítem muy precisos. En las PED las denominadas pautas de corrección recogen sí la puntuación, pero en las respuestas abiertas simplemente se ofrece, a modo de ejemplo, una posible respuesta correcta o adecuada. La única pregunta del cuadernillo de competencia en comunicación lingüística 2013 que se asemeja, en el grado de detalle de los criterios de codificación, a una prueba internacional es la pregunta 13ª.
La homogeneidad, asimismo, también se consigue con un entrenamiento, lento y costoso, de los correctores. Además, en el caso de PISA, cada ítem es corregido por 4 correctores que actúan de manera rotatoria, de tal modo que se registra la nota del cuarto codificador. Como el procedimiento es rotatorio y desconocido para el corrector, todo corrector codifica en algún momento como cuarto codificador. Asimismo, para comprobar que no existe sesgo, se selecciona aproximadamente el 25% de los ejercicios para una segunda corrección. Por su lado, en las PED también existe esa segunda corrección, pero no se indica su porcentaje y el criterio de selección es aleatorio, según se indica en la instrucción 9.2 de las Instrucciones de 2 de abril de la AGAEVE.

d) Otra característica de las pruebas externas internacionales es su pilotaje. En este proceso los cuadernillos que componen la prueba se fragmentan (nunca el cuadernillo completo) con el fin de comprobar, con alumnos de otros cursos o incluso del mismo curso que se evalúa, si los ítems cumplen la función para la que se diseñaron, que no hay problemas con la redacción, que se interpretan correctamente… Tras este proceso, se desechan los ítems que, por las razones que fuera, se han comportado de modo problemático, esto es, se valora su dificultad, discriminación u homogeneidad y validez. Ahora bien, el proceso de pilotaje de las PED, que supongo que existirá, es muy deficiente. Más abajo, me referiré a la redacción y calidad de los ítems y los criterios de codificación de la prueba de competencia en comunicación lingüística de este año.

e) No se conoce la matriz de especificaciones en las PED. En cualquier prueba internacional los ítems responden a una matriz de especificaciones, a saber, una tabla curricular de contenidos que establece la competencia evaluada, determina los contenidos, detalla los descriptores, especifica el peso relativo de cada casilla y vincula ítems (varios) específicos para cada descriptor. Por tanto, cada prueba articula un marco teórico, la matriz, en la que los contenidos evaluados se asocian con procesos cognitivos, especificados mediante descriptores, que están escalados, esto es, todos los descriptores asociados al proceso cognitivo I, por ejemplo, se organizan, de acuerdo a su nivel de dificultad, en varios (6 en PISA) niveles. De este modo, cada ítem, vinculado a un descriptor, pondera, según su nivel de dificultad, en la valoración de la prueba. Por su lado, en las pautas de corrección de las PED solo se incorpora la dimensión y el elemento de competencia evaluado en cada ítem, no hay detalle en los descriptores ni existe, por lo que conocemos, una escala de rendimiento asociada al descriptor y al ítem.

En fin, para cerrar este capítulo de mi artículo, resulta evidente, a partir de las observaciones realizadas, que las PED, desde el punto de vista de su calidad técnica como prueba de evaluación, son manifiestamente mejorables. Soy consciente de que para aproximarse las PED a sus modelos (PISA, PIRLS…) es necesario un aumento notable de su coste económico que, ahora, es muy reducido, dado que los costos de la aplicación y corrección se trasladan al gratuito voluntarismo de los profesores que realizan un trabajo no remunerado.

2. Pero, lamentablemente, las PED adolecen de unas deficiencias también en lo que se refiere a los contenidos de las competencias que se evalúan. Puesto que mi especialidad es la Lengua castellana, me referiré en este segundo apartado a la prueba que ha medido la competencia en comunicación lingüística.

a) Para no reiterarme, sintetizaré aquí, en primer lugar, las insuficiencias comunes a la prueba de 2012 (remito al artículo correspondiente) y a esta de 2013: un 30% (5 de los 17) de los ítems son de respuesta cerrada que siguen sin disponer de corrección automatizada (hoja de escáner); la desigual distribución de las dos partes del cuadernillo (en la primera parte los 50 minutos son excesivos; escasos para la segunda parte); la selección no funcional y muy heterogénea de los textos (de nuevo, una canción, Gracias a la vida, muy alejada de los gustos musicales de un alumno de 2º de ESO; preguntas difíciles, para el alumnado de este nivel, sobre metáforas de la canción; una instancia, un cuento literario, una factura de móvil cuyo importe supera los 1.200 euros, o un texto expositivo sobre Madame Curie); los conceptos de tipología textual son extraños (de un mismo texto sobre Madame Curie, pregunta 17ª, debe decirse que corresponde simultáneamente al tipo informativo, al tipo narrativo y al tipo expositivo) o el coste de impresión (también este año existen ilustraciones en color- pág. 3, pág. 19- innecesarias).
No obstante, es de justicia reconocer que en las pautas de corrección de 2013 el elemento de competencia SCL4.2. ahora sí describe las propiedades de coherencia y cohesión de un texto, a diferencia de lo que sucedía el curso pasado en el que los elementos SCL4.2 y SCL4.3 eran contradictorios. Además, también en este curso en los ítems de composición escrita se ha considerado que la práctica de escritura debe ser un proceso estratégico y modelado: composición de una instancia a partir de modelos (pregunta 4ª) desde unas pautas definidas previamente. Respecto del resumen (pregunta 10ª), la otra práctica de escritura de la prueba, hablaremos a continuación.

b) Un error que pervive, desde la primera edición del curso 2006-2007, en las pautas de corrección de 2013 es el concepto de resumen que se maneja. Ya señalé el curso pasado que el concepto subyacente (y explícito) de resumen que aparece en el cuadernillo de evaluación, así como en las pautas de corrección no se corresponde con el habitual del mismo en la literatura científica, esto es, un texto, elaborado a partir de otro texto, cuyas características básicas son fidelidad, objetividad, unidad y coherencia, brevedad y creatividad y originalidad. Por cierto, los rasgos de fidelidad y originalidad sí aparecen para evaluar la composición escrita del resumen en el elemento de competencia SCL4.1 de la pregunta 10ª, pese a que el resumen, como texto específico, se evalúa mediante el elemento de competencia SCL3.1: El resumen contiene las ideas principales del texto completamente desarrolladas.
Pero el rasgo característico del resumen que se viola es la brevedad. El texto original que debe resumirse (una adaptación de Historia de los dos que soñaron de Gustav Weil) ocupa unas 30 líneas, incluidas las intervenciones de los dos personajes en un diálogo, es decir, un texto breve, un minicuento, además reducido en alguna línea en relación al original. Lo sorprendente es que se solicita del alumno en la pregunta 10ª que escriba un resumen, dividido en planteamiento, nudo y desenlace, cuya extensión ¡¡mínima!! sea de 150 palabras, lo que equivale aproximadamente al 50% de la extensión del cuento original. Aquí estriba el principal y grave error cometido, dado que se nos indica en las pautas de corrección de esta pregunta 10ª que, con independencia de su calidad, todo resumen inferior a 120 palabras sea calificado con un 1, la calificación mínima: así se nos dice en los elementos de competencia SCL4.1., SCL4.2, SCL4.3, SCL4.4 y SCL4.5. Y este criterio de valoración al peso de la cantidad de palabras escritas es aun más sorprendente e inadmisible en el otro ejercicio de composición escrita del cuadernillo: una instancia. En este caso, se solicita una instancia compuesta por un mínimo de 120 palabras y toda aquella inferior a 100 palabras ha de calificarse, de nuevo, según los elementos de competencia SCL4.1., SCL4.2, SCL4.3, SCL4.4 y SCL4.5, de las pautas de corrección de la pregunta 4ª con un 1.

Es fácil concluir que si los codificadores (correctores) aplican rigurosamente estas pautas de corrección, como se entiende que estamos obligados en aras de la homogeneidad, las calificaciones globales en este curso se reducirán ostensiblemente, puesto que de las 27 respuestas correspondientes a los 17 ítems habrá 10 respuestas (5 de la pregunta 4ª y 5 de la pregunta 10ª) calificadas, mayoritariamente, con un 1. Por eso, más arriba, decía que el proceso de pilotaje, si ha existido, de las PED de este curso ha sido muy deficiente. Fácilmente, se habría advertido- hubiera bastado el testeo con un grupo de alumnos- esta dificultad en las pautas de corrección de estos dos ítems.

c) Errores en las pautas de corrección. También he indicado, supra, que los criterios de codificación de que dispone el corrector son insuficientes (con la excepción de los referidos a la corrección de la pregunta 13ª), lo que amenaza la homogeneidad. A ello debe sumarse que las pautas de corrección contienen errores manifiestos que ponen de relieve un impropio proceso de revisión de estas pautas de corrección. Baste con señalar algunos: en la pregunta 7ª se solicita del alumno un verbo en subjuntivo y en las pautas de corrección de la citada pregunta solo aparece como respuesta posible “sea”, sin embargo, existe en el texto original otro verbo en subjuntivo “especifiquen”; en la pregunta 9ª se pide clasificar una serie de palabras dadas según su categoría o clase de palabra y en las pautas de corrección la forma “la” solo aparece en la columna de los determinantes y no en la de los pronombres, así como “decreto” solo figura en la casilla de los nombres, pero no en la de los verbos.

Para concluir, me parece incuestionable, por lo que he manifestado en los apartados anteriores de esta entrada, que las PED exigen una revisión profunda, tanto desde el punto de vista técnico de la prueba, como de los contenidos de las materias y competencias que se evalúan.

6 comentarios en “Pruebas de Evaluación de Diagnóstico 2013

  1. Tras haber corregido buena parte de las PED que me han correspondido este curso, la lectura de este artículo ha sido un consuelo ante la desazón que me está provocando esta tarea. No se pueden expresar con mayor objetividad y argumentos mejor fundamentados en el conocimiento de los procesos de evaluación externos las deficiencias que presentan estas pruebas. Sería necesario, en mi opinión, que este artículo se difundiese más allá de lo que la publicación en esta web de nuestro centro pueda suponer. Enhorabuena, Joaquín.

  2. Veo que, al menos, Jose, te ha servido el articulillo como consuelo. Respecto de la difusión, hasta el momento es buena. Estoy respondiendo a varios comentarios de lectores (algunos muy enfadados), pero en las redes sociales.
    Muchas gracias por tus elogios.

  3. En teoría, quienes elaboran las Pruebas de Diagnóstico deben ser personas preparadas y con conocimiento suficiente en las diferentes competencias que se evalúan.

    Sin embargo, considerando los textos seleccionados (la canción “Gracias a la vida”, se encuentra a años luz de los gustos de los alumnos, como dices) y sobre todo los criterios de corrección (una instancia que debe tener un mínimo de 120 palabras, cuando yo mismo, antes de corregir las pruebas, he redactado una sin aproximarme a ese número; y un resumen que debe ocupar el 50 % del texto original, cuando lo que enseñamos en las aulas es que no ha de superar el 25 % o, como mucho el 30 %), sinceramente pongo en duda esa preparación y esos conocimientos.

    Son errores de bulto en los que ningún especialista de Lengua Española habría incurrido. Por eso, se podrían haber detectado, enseñándole las pruebas a algún profesor de esta materia, para que las revisara, o, como tú dices, pasándoselas a un grupo de alumnos.

    Pero, en fin, llueve sobre mojado, un año tras otro. Si lo que pretenden con las Pruebas de Diagnóstico es mejorar la calidad de la enseñanza, deberían empezar por los “profesionales” que las elaboran.

    Enhorabuena, Joaquín, por tu artículo.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s