LA EVALUACIÓN EN EL AULA* - Lorrie A. Shepard
←
→
Transcripción del contenido de la página
Si su navegador no muestra la página correctamente, lea el contenido de la página a continuación
La evaluación en el aula
LA EVALUACIÓN EN EL AULA*
Lorrie A. Shepard
Universidad de Colorado, Campus Boulder
Capítulo 17 de la obra Educational Measurement
(4ª Edición) Editado por Robert L. Brennan
ACE/ Praeger Westport. 2006
pp. 623-646.
*Estoy muy agradecida con Rick Stiggins y Mark Wilson por los alentadores y estimulantes análisis de los borradores de este
capítulo
1Textos de evaluación LA EVALUACIÓN EN EL AULA Coordinación Editorial: Miguel Á. Aguilar R. Diana L. Flores Vázquez Diseño y Formación: Juan Cristóbal Ramírez Peraza Irma Tapia Covarrubias Instituto Nacional para la Evaluación del Educación José Ma. Velasco 101, Col. San José Insurgentes, Delegación Benito Juárez, C. P. 03900, México D. F. Classroom Assesment. Lorrie A. Shepard / Robert Brennan. Educational Measurement Copyright © 30 de agosto, 2006. Reproducido con permiso de Greenwood Publishing Group Inc. Westport CT. Traducción: Martha Domís para el Instituto Nacional para la Evaluación de la Educación Impreso en México 2
Contenido
CONTENIDO
Presentación 5
La evaluación en el aula 9
1. Panorama histórico 10
2. Evaluación formativa 17
2.1 Teoría del aprendizaje 17
2.2 Un modelo de la evaluación formativa 19
2.3 La importancia del contenido: seleccion de las tareas de enseñanza
y de evaluación que encarnan objetivos de aprendizaje 21
2.4 Progresiones del aprendizaje 22
2.5 Evaluación del conocimiento previo 24
2.6 Criterios explicativos y el uso de guías de calificación (rúbricas) 25
2.7 Retroalimentaciuón 25
2.8 Enseñar y evaluar para que haya transparencia 26
2.9 Auto-evaluación del estudiante 27
2.10 Evaluación de la docencia 29
3. Evaluación sumativa y calificación 30
3.1 Finalidades de las calificaciones apropiadas a la edad 30
3.2 La investigación en la práctica actual 32
3.3 Importancia del contenido y del formato: qué se valora 33
3.4 La investigación sobre medición, psicología cognitiva
y psicología motivacional 35
3.5 Parámetros para el desarrollo de la competencia 37
4. Evaluaciones externas y en gran escala 38
5. Conclusiones implicaciones para la investigación y la teoría de la medición 40
5.1 Estudios de las herramientos y procesos de evaluación 40
5.2 Estudios del desarrollo del maestro 41
5.3 Nuevas conceptualizaciones de la confiabilidad y la validez 42
Bibliografía 45
3Textos de evaluación 4
Presentación
PRESENTACIÓN
Con este volumen, el Instituto Nacional para ciones a cargo de los maestros, de manera que la
la Evaluación de la Educación (INEE) inicia combinación de unas y otras contribuya verda-
una nueva serie de publicaciones, que difundirá deramente a avanzar en la dirección que a todos
textos relevantes sobre la evaluación educativa nos interesa: la de la mejora real y profunda de
creados por la pluma de autores externos al Ins- la educación que nuestras escuelas ofrecen a los
tituto, o que no caben dentro de las otras se- niños y niñas de México.
ries que comprende su programa editorial. En el La obra que se presenta es un texto de pri-
caso de obras de autores externos, además de su mera importancia en relación con estos temas, y
interés, se considerará la dificultad de acceder por ello el INEE la pone al alcance de los maes-
a ellas por los lectores mexicanos, debido a no tros de nuestro sistema educativo, y de todas
estar publicadas en español u otras razones. Este las personas interesadas por la calidad educati-
fue el caso de la obra Learning divides, del inves- va. En los párrafos siguientes se desarrollan con
tigador canadiense Jon Douglas Willms, que el mayor amplitud las preocupaciones que nos han
INEE hizo traducir y publicó con el debido per- llevado a difundirla.
miso del editor original, el Instituto de Estadís- En su forma más conocida, la evaluación edu-
ticas de la UNESCO, con el título Las brechas de cativa no es algo reciente. La tarea del maestro,
aprendizaje. en su interacción cotidiana con los alumnos, ha
La obra que se difunde ahora, de la profesora incluido siempre, como una dimensión funda-
Lorrie A. Shepard, de la Universidad de Colora- mental, el evaluar los avances de cada uno. En
do en Boulder, es un texto fundamental sobre las formas tradicionales de enseñanza que preva-
un tema que el INEE considera de gran interés lecieron hasta bien entrado el siglo XIX, cuando
para toda persona interesada en la evaluación, surgieron los sistemas educativos de concepción
especialmente para los que en el momento ac- moderna con los que estamos familiarizados
tual sienten preocupación por el enfoque que –con cobertura que tendía a ser universal y,
se está dando a la evaluación en gran escala en por ello, con muchos alumnos, organizados en
nuestro país. grados de edad y avance similar– la tarea de los
Convencido como lo está del potencial po- maestros era más de evaluación que de docencia.
sitivo de la evaluación en gran escala, el INEE En las escuelitas en que un dómine atendía a una
comparte la preocupación de no pocas perso- docena de chicos de distintas edades y niveles,
nas del medio educativo, en el sentido de que para enseñarles a leer, escribir, contar y rezar, la
ciertos usos de ese tipo de evaluaciones pueden lección magistral estaba ausente; el trabajo del
tener también serias consecuencias negativas. maestro se limitaba fundamentalmente a tomar
Por ello, es de gran importancia reflexionar se- la lección a cada alumno, indicándole, en función
riamente sobre los alcances y limitaciones de di- de su avance, la siguiente tarea.
chas evaluaciones, así como sobre la necesidad La que sí es bastante reciente es la evalua-
de que se fortalezcan paralelamente las evalua- ción en gran escala, la aplicación estandarizada de
5Textos de evaluación
pruebas a grandes números de alumnos, para cargo de los maestros, insustituibles para eva-
apreciar el nivel de aprendizaje que se alcanza luar de manera detallada todos los aspectos
en el sistema educativo de todo un país, región del currículo y para hacerlo de manera que
o distrito, ante la imposibilidad de agregar las puedan ofrecer a cada alumno la retroalimen-
evaluaciones que hacen los maestros, siempre tación precisa sobre sus puntos fuertes y dé-
ligadas al contexto en que trabaja cada uno. biles, esencial para mejorar el aprendizaje. Es
Con antecedentes que se remontan al final preciso, sin embargo, advertir sobre un riesgo
del siglo XIX, las evaluaciones en gran escala se que no se puede ignorar: el peligro de que las
desarrollaron en los Estados Unidos, durante la pruebas en gran escala produzcan consecuen-
primera mitad del siglo XX, adquirieron impor- cias negativas para la calidad educativa, si se
tancia a lo largo de su segunda mitad y se exten- les comprende y utiliza mal.
dieron a la mayor parte de los países del mundo En efecto: para poder dar resultados con-
en las dos o tres últimas décadas. Además de fiables de los niveles de aprendizaje que al-
evaluaciones nacionales, se desarrollaron pro- canzan muchos miles de alumnos, una prueba
yectos internacionales que hoy atraen poderosa- estandarizada necesariamente tiene que redu-
mente la atención cada vez que se difunden sus cirse a la medición de un número relativamen-
resultados. Las más conocidas son las pruebas te mínimo de temas, y debe hacerlo mediante
del Proyecto para la Evaluación Internacional de preguntas que no pueden atender los aspec-
los Estudiantes (PISA, por sus siglas en inglés), tos más complejos de las competencias que
de la Organización para la Cooperación y el De- pretende desarrollar la escuela. Por ello, hay
sarrollo Económicos (OCDE), cuyo desarrollo que reiterar que las pruebas en gran escala no
comenzó a planearse en 1995, y se aplican cada pueden sustituir el trabajo de evaluación de
tres años desde el 2000. los maestros, el único que puede atender con
Más de tres décadas antes, en 1958, comen- precisión los aspectos más complejos de la en-
zaba a gestarse la Asociación Internacional de señanza y el aprendizaje, y hacerlo de modo
Evaluación del Rendimiento Académico (IEA, que se brinde retroalimentación detallada y
por sus siglas en inglés), con la planeación del oportuna a cada alumno.
Primer Estudio Internacional sobre Matemá- Si no se entienden bien los alcances y límites
ticas que se llevó a cabo en la década de 1960, de los resultados de las pruebas en gran escala,
del que se deriva el Estudio de Tendencias en es fácil que se usen en forma inapropiada. El
Matemáticas y Ciencias (TIMSS) una de las eva- peligro más claro es la tendencia a tomar como
luaciones vigentes más importantes. En México, referente para la tarea docente el contenido de
el desarrollo de pruebas en gran escala para edu- las pruebas y no el de los programas de estudio,
cación básica dio inicio desde la década de 1970, enseñando para las pruebas, por la visibilidad de
y se desarrolló sobre todo a partir de la de 1990, sus resultados. Con ello la tarea de la escuela se
con las pruebas para evaluar el Factor Aprove- empobrece, al descuidar aspectos esenciales que
chamiento Escolar del Programa de Carrera Ma- no evalúan las pruebas en gran escala, como la
gisterial. La tendencia se acentuó en la última expresión escrita y oral, la formación de acti-
década, con las pruebas del Instituto Nacional tudes y valores, la educación artística, e incluso
para la Evaluación de la Educación (INEE), a los niveles cognitivos más complejos de las áreas
partir de 2003, y las pruebas censales de la Se- tradicionalmente cubiertas de Lectura, Mate-
cretaría de Educación Pública, desde 2006. máticas y Ciencias.
Las pruebas en gran escala pueden ser una Otros ejemplos de manejo inapropiado de los
herramienta valiosa para apoyar los esfuerzos resultados de las evaluaciones en gran escala son
de mejora de la calidad educativa, si se las ve la asignación de estímulos a los docentes o la ela-
como un complemento de las evaluaciones a boración de ordenamientos simples de escuelas,
6Presentación
supuestamente en función de la calidad de unos derá también que las preguntas de opción múl-
y otras, sin tener en cuenta los numerosos facto- tiple son esenciales en las primeras, pero que
res que inciden en los resultados de los alumnos las segundas, las evaluaciones que los maestros
en las pruebas ni tener en cuenta las limitacio- llevan a cabo, pueden utilizar acercamientos di-
nes de éstas. Este tipo de errores, además, pro- ferentes y mejores para evaluar aspectos finos
duce un explicable rechazo de toda evaluación y complejos, los cuales difícilmente se pueden
en gran escala por parte de muchos maestros, atender en gran escala, pero que en el ámbito del
que perciben sus graves consecuencias para la aula es posible emplear. Las preguntas de opción
educación. Por ello, conviene reiterar que la múltiple pueden ser usadas también en el aula,
evaluación en gran escala puede ser muy valio- y son adecuadas para evaluar algunos aspectos
sa para la mejora de la calidad, a condición de del aprendizaje, pero otros deben valorarse de
entenderla y usarla viéndola como complemento formas distintas, como mediante la producción
del trabajo del maestro, y no como sustituto del de textos amplios, la realización de ejercicios en
mismo. Para eso es necesario que los maestros vivo, la observación del trabajo individual y gru-
entiendan bien los alcances y límites de la eva- pal de los alumnos, entre otros.
luación en gran escala, y los de la evaluación que La expresión evaluación en aula (classroom as-
ellos llevan cabo. sessment) se refiere a este tipo de acercamientos.
En México la formación inicial que reciben Es importante que escuelas normales y progra-
muchos maestros no los prepara bien ni para mas de actualización de maestros en servicio
una cosa ni para la otra. Un indicio de ello es la presten la atención que merecen a estos enfo-
solicitud que el INEE suele recibir, de maestros, ques, relativamente recientes y poco conocidos
supervisores y directivos de escuelas normales, en nuestro medio.
para impartir talleres de elaboración de reacti- Para contribuir al desarrollo de estas innova-
vos de opción múltiple, gracias a lo cual se espe- doras ideas, el INEE hizo las gestiones necesa-
ra que mejore la calidad de las evaluaciones que rias para difundir en español el texto siguiente,
deben hacer los maestros. En el Instituto hemos de una de sus principales defensoras. Al invitar
mantenido la posición anterior sobre los alcan- a leerlo y reflexionar detenidamente sobre su
ces y límites de la evaluación en gran escala, y contenido, expreso el deseo de que la evaluación
sobre la necesidad de verla como complemen- educativa en México se desarrolle combinando
taria de la evaluación a cargo de los maestros, el avance técnico de las pruebas en gran escala,
y nos enfrentamos permanentemente con una con un uso de sus resultados que no ignore sus
dificultad considerable para conseguir que esta límites y un avance substancial de la evaluación
postura sea comprendida no sólo por la socie- en aula, a cargo de los maestros. Así, y sólo así, la
dad en general, sino también por las autoridades evaluación podrá contribuir realmente a la me-
educativas y por los maestros, como muestran jora educativa.
las demandas a las que alude el párrafo.
Si se comprenden las características de las Felipe Martínez Rizo
evaluaciones en gran escala y en aula, se enten- Julio de 2008.
7Textos de evaluación 8
La evaluación en el aula
La evaluación en el aula
El modelo de evaluación en el aula que se explica tivo de la evaluación como parte del proceso de
detalladamente en este trabajo es muy diferente aprendizaje (Black, y Wiliam, 1998; Gipps, 1999;
del modelo de pruebas y mediciones que predo- Shepard, 2000). A principios de la década de los
minó en aulas y escuelas durante el siglo pasado. ochenta, el interés en reformar la práctica de la
En los primeros años del siglo XX, los expertos evaluación se vio acuciado por un uso mayor de
en mediciones creían que podían usarse pruebas pruebas estandarizadas, cuyo propósito era la
nuevas y objetivas para estudiar y mejorar los re- responsabilización*, y por una evidencia cada vez
sultados de la educación, así como para encargar- mayor de que los formatos estrechos de pruebas
se del diagnóstico y la colocación de estudiantes tenían un efecto perjudicial en la calidad de la
de acuerdo con sus necesidades de aprendizaje enseñanza y el aprendizaje de los estudiantes
(Symonds, 1927; Thorndike, 1913). El punto de (Resnick y Resnick, 1992; U.S. Congress, Office of
vista prevaleciente fue que los expertos debían Technology Assessment, 1992). Adelantándose a los
elaborar pruebas estandarizadas que los do- expertos en mediciones, los especialistas en las
centes utilizarían con objeto de incrementar la materias empezaron a desarrollar estrategias de
precisión en su toma de decisiones. Además, los evaluación que se vinculaban más estrechamente
expertos en mediciones empezaron a enseñar a a los objetivos curriculares (Kulm, 1990; Mathe-
los maestros cómo hacer sus propias pruebas si- matical Sciences Education Boarad, 1993; Morrow
guiendo principios científicos de medición. En y Smith, 1990; Valencia y Calfee, 1991). Por otra
aquellos primeros años, se desarrolló un sistema parte, la investigación en psicología cognitiva
para los libros de texto de mediciones con el fin y motivacional aportó tanto la teoría como las
de enseñar a los maestros cuestiones sobre la evidencias, gracias a las cuales se perfiló el cami-
validez y la confiabilidad (utilizando representa- no para los cambios que se necesitaban (Black,
ciones en su mayor parte cuantitativas), la ela- y Wiliam, 1998; Crooks, 1988; Pellegrino, Chu-
boración de pruebas, los formatos y el análisis dowsky y Glaser, 2001). Por último, este nuevo
de reactivos, así como análisis estadísticos de los modelo de evaluación en el aula, se ha hecho
resultados de las pruebas. Este sistema —que manifiesto en un nuevo tipo de libro de texto de
consistía casi exclusivamente en pruebas forma-
les, cuestionarios y calificaciones— ha seguido
*
El concepto del que habla la autora es accountability, que se ha tra-
ducido como responsabilización porque se responsabiliza a escuelas,
siendo el modelo de los libros de texto hasta el directores y maestros del progreso académico de los estudiantes.
día de hoy. Este concepto, en el contexto de la educación, hace referencia al
uso sistemático de datos de evaluación y otro tipo de informa-
En contraste con este modelo técnico y cuan- ción para garantizar que las escuelas vayan en la dirección deseada.
titativo, existe un punto de vista diferente de la Con frecuencia, en los sistemas de responsabilización se incluyen
metas, indicadores de progreso hacia el cumplimiento de esas me-
evaluación en el aula, que se desarrolló a fines tas y análisis de datos, así como procedimientos de información
del siglo XX y que busca lograr que, en mucho prescritos y consecuencias o sanciones. La responsabilización a
menudo incluye el uso de resultados de evaluación y otros datos
mayor medida, el estudiante alcance un entendi- para determinar la eficacia del programa y para tomar decisiones
miento; asimismo, busca obtener el uso forma- sobre recursos, recompensas y consecuencias. (Nota de la traduc-
tora)[N. T.]
9Textos de evaluación
evaluación fundamentado en la práctica docente ban fallando (U. S. Congress, Office of Technology
(Stiggins, 2001; Taylor y Nolen, 2005). Al señalar Assessment, 1992), elaboraron instrumentos para
la naturaleza fundamental de esta transforma- documentar la necesidad de mejorarlas y esta-
ción, unos cuantos expertos en mediciones han blecer el rumbo para lograrlo. Se pedían pruebas
empezado a preguntar cómo deberían cambiar estandarizadas para que pudieran agregarse re-
las ideas tradicionales de validez y confiabilidad sultados de diversas escuelas y compararlas en-
en el contexto del aula (Brookhart, 2003; Mac- tre sí; y el nuevo tipo de examen objetivo se con-
millan, 2003; Moss, 2003; Smith, 2003). sideró como un remedio para la escandalosa falta
En este capítulo se presenta, tanto la concep- de confiabilidad de los exámenes que hacían los
ción como los fundamentos de la investigación maestros, y que había quedado demostrada en
sobre las estrategias de evaluación en el aula varios estudios anteriores (Thorndike, 1922).
concebidas para ser parte integral de la enseñan- Desde el principio hubo también críticos que
za y el aprendizaje. Comienza con una introduc- se quejaron de que las pruebas objetivas medían
ción histórica para explicar el punto de vista que tan sólo hechos o fragmentos de información en vez de
sostuvieron ciertos teóricos de la medición en el que midieran la capacidad de razonar y la aptitud
pasado sobre la aplicación de pruebas en el aula. para la organización, etcétera, (Wood, 1923). No
Se detiene específicamente en los puntos de vis- obstante, al hablar en nombre del pensamiento
ta presentados en ediciones previas de Educatio- dominante, Wood estableció los argumentos
nal Measurement, obras editadas por Lindquist fundamentales de las ventajas de la medición
(1951), Thorndike (1971) y Linn (1989), respec- objetiva1, los cuales fueron repetidos a lo largo
tivamente. La intención es identificar las ideas de todo el siglo:
que han perdurado, así como las que actualmen- La prueba estandarizada es sumamente
te se impugnan. La parte principal del capítulo exacta no sólo debido a que uno puede ca-
está organizada en tres secciones: 1) Evaluación lificarla objetivamente, sino porque da su-
formativa, 2) Evaluación sumativa y calificación, ficientes muestras del desempeño del exa-
3) Evaluaciones externas y en gran escala. En una minado así como del material sobre el cual
sección de conclusiones, se consideran las impli- se examina. Por otra parte, es lo bastante
caciones de estas ideas transformadoras para el flexible como para que pueda examinar no
campo de la medición educativa. Se propone un sólo información sino también juicio, y la
programa de investigación y se sugieren los cam- evaluación de relaciones, causas y conse-
bios que se necesitan en la conceptualización de cuencias. (p. 162)
la validez y la confiabilidad para los objetivos del No hay tanta oposición entre información
aula. y razonamiento como algunos maestros
quisieran hacernos creer … Los hechos no
1. PANORAMA HISTÓRICO son sólo un aspecto legítimo e indudable
DE LA MEDICIÓN EDUCATIVA del pensamiento… sino que sólo el pensa-
Y LAS AULAS miento puede adquirirlos, conservarlos y
reproducirlos, y sólo puede hacerse esto
El movimiento que pugnaba para que se apli- mediante la organización lógica y sistemá-
caran pruebas de rendimiento escolar —que se tica del material. (p. 162)
inició en 1908 con la publicación por Thorn- Todo estudio experimental del que tenga-
dike y sus alumnos de pruebas de Aritmética y
Escritura— estaba estrechamente relacionado 1
Para ser justos, Wood (1923) argumentó en favor del uso de prue-
bas estandarizadas por su mayor confiabilidad con el fin de com-
con el movimiento de la administración cien- plementar mediciones que utilizaban los exámenes tradicionales
tífica o movimiento de la eficiencia social. Sus de ensayo. Sin embargo, otros usaron posteriormente este mismo
líderes, que consideraban que las escuelas esta- razonamiento para sustituir pruebas de ensayo por pruebas obje-
tivas más confiables.
10La evaluación en el aula
mos conocimiento, y que se haya realizado con las decisiones rutinarias que se toman en el
hasta ahora, ha mostrado una fuerte rela- aula— no era una distinción evidente en 1951.
ción entre la medición de la información Walter Cook (1951), en su capítulo titulado
en un campo y la inteligencia o la capaci- The Functions of Measurement in the Facilitation of
dad de pensar en el material de ese campo. Learning, defendía el uso de la medición objetiva
(p. 163) para adaptar la enseñanza a las necesidades indi-
Por otra parte, puesto que las pruebas de ren- viduales de aprendizaje. En tanto que reconocía
dimiento se elaboraron en el mismo periodo y que “Los mejores maestros no dejan de seguir
las hicieron los mismos autores de las pruebas constantemente el proceso de verificación del
de Coeficiente Intelectual (CI), ambos tipos de aprendizaje mediante la observación directa de
pruebas llegaron a tener los mismos formatos la conducta y las pruebas informales”, al mismo
de reactivos y los mismos modelos estadísticos tiempo argumentaba en favor del valor de las
cuyas raíces se hundían en la psicología de las pruebas preparadas por expertos porque:
diferencias individuales. 1. Son más concienzudamente analíticas que
Después de la Primera Guerra Mundial, el la mayoría de las que podrían preparar los
uso de pruebas estandarizadas de rendimiento maestros.
aumentó notablemente debido al éxito práctico 2. Hacen que los maestros tomen concien-
y en gran escala de la prueba Army Alpha, al esta- cia de los elementos importantes, las se-
blecimiento de grandes oficinas de investigación cuencias necesarias y las dificultades del
educativa y agencias de investigación coopera- proceso.
tiva, y a la conceptualización de Ralph Tyler en 3. Ahorran tiempo y energía al maestro
el campo de la evaluación educativa, con el pro- para hacer diagnósticos, y le dejan más
pósito de evaluar cuán bien habían logrado sus tiempo y energía para que haga el trabajo
objetivos los programas educativos (Cook, 1941; de corrección.
Madaus y Stufflebeam, 2000; U. S. Congress, 4. Ayudan al alumno a reconocer sus necesi-
Office of Technology Assessment, 1992). dades de aprendizaje al hacer hincapié en
La primera edición de Educational Measure- forma sistemática en sus errores.
ment, libro que se publicó en 1951 y que editó 5. Los procedimientos correctivos se indi-
E. F. Lindquist, reflejó y extendió la idea de que can o proporcionan al maestro y le aho-
las pruebas estandarizadas eran esenciales para rran tiempo, así como también le ayudan
el proceso de evaluación y mejoramiento de la a sistematizar el proceso. (p. 37)
educación. Si bien los autores de los capítulos En el capítulo sobre The Functions of Measurement
de la edición de 1951 dicen que las “funciones in Improving Instruction, que se relaciona con lo
de la medición educativa se relacionan… con anterior, Tyler (1951) observó que “la medición
la facilitación del aprendizaje” (Cook, 1951, p. educativa está concebida, no como un proceso
4), lo que ellos tenían en mente era que esto lo totalmente distinto de la enseñanza, sino más
realizarían pruebas elaboradas fuera del aula. Su bien como una parte integral de ésta” (p. 47).
punto de vista era que había que desarrollar pro- Pese a la similitud entre estas palabras y las con-
gramas de pruebas estandarizadas en los distri- cepciones actuales de la evaluación en el aula, los
tos escolares, que es lo que hoy podría llamarse procesos que Tyler tenía en mente se asumían casi
administración de datos o sistemas manejados totalmente fuera del aula. Si bien algunos de los
con datos. La distinción que se hace en nuestro ejemplos de Tyler tomaban en cuenta la posibili-
informe contemporáneo Knowing What Students dad de que un instructor individual de un curso
Know (Pellegrino et al., 2001) —entre los tipos pudiera recorrer todo el proceso de planeación
de datos de evaluación que se necesitan para de la enseñanza —especificando objetivos, pla-
las políticas en gran escala, en contraposición nificando experiencias de aprendizaje y valoran-
11Textos de evaluación
do efectos—, Tyler se interesaba sobre todo en Al escribir él solo para la tercera edición, Ni-
que un programa de pruebas de rendimiento en tko (1989) ofreció nuevamente un enfoque sobre
un distrito escolar se “planificara y desarrollara la planificación de la enseñanza que aprovechaba
como parte integral del programa del currículo y una base de investigación cognitiva sumamente
la enseñanza” (p. 64). Los maestros aprenderían sofisticada con el fin de ofrecer pruebas pertinen-
participando en el desarrollo de objetivos y en la tes, desde el punto de vista de la instrucción, para
elaboración de pruebas, y también aprenderían que se utilizaran en el aula. Revisó la literatura
de los datos resultantes. sobre pruebas de diagnóstico que se basaban en
Para la segunda edición, de 1971, Robert Gla- los conocimientos previos requeridos, en habi-
ser, un psicólogo cognitivo, y Anthony Nitro, un lidades y en el dominio de objetivos conductua-
teórico de la medición, escribieron el capítulo les –acercamientos que reflejaban una idea muy
sobre Measurement in Learning and Instruction. Su estrecha de cómo se desarrolla el aprendizaje y
perspectiva formal de planificación de la ense- una representación relativamente empobrecida
ñanza estaba influida por supuestos docentes del dominio de los contenidos. En contraste con
conductistas y de la educación adaptativa por esto, Nitko (1989) también estudió textos emer-
computadora, que gozaban de popularidad en gentes de diagnóstico centrados en el análisis de
la época. Al igual que Tyler y Cook, su visión errores y estructuras de conocimiento de los es-
planteaba la necesidad de pruebas pertinentes tudiantes. Estas últimas categorías le permitieron
para la enseñanza, que se elaborarían fuera del vislumbrar los temas de investigación que serían
aula y se entregarían a los docentes. “A medida fundamentales para la concepción contemporá-
que se desarrolla la enseñanza, la información nea del aprendizaje y la evaluación. Por ejemplo,
para tomar decisiones educativas deben darse al “(la) comprensión que tenga quien diseña prue-
docente, al estudiante y posiblemente a una má- bas sobre el significado y la estructura del cono-
quina” (pp. 626-627). En vista de la complejidad cimiento que un estudiante trae al sistema de
que implica el diseño de pruebas apropiadas, in- enseñanza” podría utilizarse para identificar “la
cluyendo la validación de modelos cuantitativos comprensión cotidiana de palabras y fenómenos
de adaptación de la enseñanza, “parecería ade- […] que no concuerden con la comprensión ca-
más que el agobio de planificar y elaborar tales nónica de los expertos” (p. 461). Es importante
pruebas, de procesar las respuestas y de llevar a señalar que Nitko (1989) también observó que
cabo análisis preliminares de los resultados de “la investigación reciente en psicología educativa
la prueba, debe manejarlo alguien que no sea el indica que las formas en que los estudiantes re-
maestro de la clase.” De nueva cuenta, al igual presentan mentalmente el conocimiento son tan
que Tyler, Glaser y Nitko vieron que estos resul- importantes, para el desarrollo de sus habilida-
tados de las pruebas podrían estar al servicio de des para resolver problemas y para el aprendizaje
la evaluación de programas, al proporcionar una avanzado, como las formas en que manifiestan su
retroalimentación formativa a los responsables conocimiento conductualmente” (p.466). Si bien
del sistema. Sin embargo, a diferencia de Tyler, Nitko (1989) todavía imaginaba un sistema de en-
estaban más interesados en datos de las prue- señanza informal y de evaluación que se elabora-
bas que pudieran usarse en forma permanente ría fuera del aula y se entregaría a los maestros, su
para adaptar la enseñanza a los estudiantes in- punto de vista reflejó un cambio esencial e impor-
dividuales, y creían que su sistema de pruebas tante: quedaron lejos las pruebas de competencia
diseñado externamente podría quedar inclui- del estudiante después de una lección o periodo
do en la enseñanza de un modo perfectamente de instrucción, donde pasaba o reprobaba, y se
consistente. “Si se hacen apropiadas y sutiles, la dio un paso hacia las evaluaciones más ricas de
docencia, la educación y la aplicación de prue- su comprensión y aprovechamiento en un campo
bas se irán diluyendo una en otra”. (p. 646) del conocimiento.
12La evaluación en el aula
Si bien los primeros volúmenes de Educa- por sentado que sería sencillo “volver a enseñar
tional Measurement tenían poco que decir sobre ciertas cuestiones” (Torgerson, y Adams, 1954).
las pruebas que hacían los docentes o sobre las La estadística y las presentaciones cuantitativas
prácticas de evaluación en el aula, el movimien- de la confiabilidad y la validez fueron sobresa-
to de pruebas estandarizadas y el paradigma de lientes en cuanto a qué necesitaban saber los do-
la evaluación de programas determinaron, no centes. En el prefacio a su texto de Educational
obstante, qué se enseñaba a los docentes acer- Measurement, Travers (1955) señaló que muchos
ca de la evaluación. Los teóricos de la medición, de sus colegas tenían preferencia por los libros
responsables de los cursos de Pruebas y Medicio- de texto sobre medición psicológica porque brin-
nes para maestros, creían que debía enseñarse daban “un alimento intelectual más sólido que
a éstos cómo emular la confección de pruebas los libros sobre medición educativa” (p. vi), en
estandarizadas de rendimiento, así como de qué vista de lo cual aumentó el nivel técnico de su
manera debían usar una diversidad de medicio- libro “para ayudar a fortalecer una debilidad en
nes estandarizadas. Los libros de texto típicos la preparación de los maestros” (p. vi). En una
desde la década de 1940 hasta la de 1990 incluían muestra de treinta libros de texto examinados
los siguientes capítulos: para este análisis histórico, sólo encontré dos
I. Finalidad de la medición y la evaluación que tenían una sección o subsección dedicada
II. Análisis estadístico de los resultados de al uso de la observación en el aula. Encontré un
pruebas texto que menciona el uso de la evaluación para
111. Validez la retroalimentación2. La mayor parte de los tex-
IV. Confiabilidad tos tenían un capítulo sobre la especificación
V. Principios generales de la elaboración de objetivos para la enseñanza; y, si se captara
de pruebas (incluye la especificación el mensaje principal de estos libros, ayudaría a
de los objetivos de la enseñanza) los maestros a volverse más sistemáticos en el
VI. Principios de la elaboración de pruebas uso que hacen de diversos formatos de reacti-
objetivas vos para representar un contenido importante.
VII. Principios de elaboración de pruebas de Sin embargo, sería justo decir que los aspectos
ensayo técnicos de la elaboración de pruebas recibieron
VIII. Análisis de reactivos para pruebas en más atención que las conexiones entre la evalua-
el aula ción y las actividades de la enseñanza.
IX. Asignación de calificaciones y for- El acento que ponen los integrantes de la
ma de reportarlas comunidad de la medición en temas formales
X. Pruebas de CI y aptitud académica y técnicos también puede encontrarse en la li-
XI. Pruebas estandarizadas de rendimiento teratura de investigación sobre la capacitación
XII. Mediciones de intereses y personalidad en medición para los maestros. Esta literatura,
XIII. Interpretación de normas estadísticas que se extiende por varias décadas, se lamenta
para las pruebas constantemente de que los maestros han recibi-
Los libros de texto de medición se centraban do una preparación deficiente para cumplir con
en la elaboración de pruebas formales cuya fina-
lidad era la asignación de calificaciones. Si bien 2
Brown (1981), de manera profética, comentó: “(El) aspecto efi-
varios autores mencionaban la importancia de caz de la retroalimentación es saber si una pregunta se contestó
correctamente o, si se contestó en forma incorrecta, saber dónde
utilizar la información que aportaban las pruebas ocurrió el error y qué necesita hacerse para corregir dicho error.
para modificar la enseñanza, los libros de texto Esta información es suministrada por el señalamiento del maestro
sobre la corrección de la respuesta y/o por sus comentarios, no
daban pocas explicaciones sobre el modo en que por la calificación. Así, una prueba que se corrige, pero que no da
los docentes entenderían los datos con objeto de lugar a una calificación, puede proporcionar tanta retroalimenta-
rediseñar su enseñanza. Algunos autores dieron ción útil a los estudiantes como una que si lleva a una calificación”
(p. 171).
13Textos de evaluación
sus responsabilidades de medición y evaluación. la gran importancia de las pruebas elaboradas
Históricamente, muchos estudios dieron por por los maestros, las pruebas incluidas en el cu-
sentado que los maestros necesitaban saber lo rrículo, y las interacciones y observaciones in-
que se enseñaba en los cursos de Pruebas y Me- formales para su toma de decisiones cotidiana
diciones, y hablaban de la idoneidad de dicha (Dorr-Bremme, 1983; Salmon-Cox, 1981; Yeh,
preparación según cuántos programas forma- Herman y Rudner, 1981). Gracias a datos de en-
tivos ofrecían tales cursos, cuántos estados los trevistas, Dorr-Bremme (1983) concluyeron que
requerían y cuántos maestros los tomaban (Gos- los maestros actúan como razonadores prácticos
lin, 1967; Noll, 1955; Roeder, 1972; Ward, 1980). y como clínicos, y que orientan sus actividades
Cuando los investigadores intentaron identifi- de evaluación a las tareas prácticas que deben
car en forma directa las habilidades específicas de llevar a cabo en las rutinas cotidianas, tales
que se juzgaban esenciales para los maestros, los como “decidir qué enseñar y cómo enseñarlo a
instrumentos que utilizaron en sus encuestas li- los estudiantes de diferentes niveles de desem-
mitaron desafortunadamente la base de conoci- peño; llevar el registro de cómo progresan los
mientos posibles a los contenidos de los libros alumnos y cómo ellos (los maestros) pueden
de medición. Así, por ejemplo, en el estudio de ajustar su enseñanza apropiadamente y evaluar
mayo de 1964, se pidió a maestros y directores y calificar a los estudiantes en su desempeño”
así como a profesores de universidad y exper- (p. 3). Para estos fines, los maestros se apoyan
tos en pruebas, que clasificaran la importancia en muy buena medida en las pruebas hechas por
de setenta competencias. Treinta y dos de éstas ellos y en las interacciones con los estudiantes y
eran elementos estadísticos que tenían que ver las observaciones que hacen de éstos. Stiggins
con el cálculo y la interpretación de la media, y Conklin (1992) publicaron resultados de una
la mediana y la moda, la desviación estándar, las serie de estudios de campo que documentaban
puntuaciones estándar, las correlaciones y así qué hacen los maestros para evaluar a sus estu-
sucesivamente. Las competencias restantes que diantes, y analizaron qué necesitarían saber los
recibieron clasificaciones más altas, correspon- docentes para hacer bien estas tareas. Stiggins
dieron fielmente a los capítulos de los libros de (1991) concluyó que la capacitación tradicional
texto de medición citados anteriormente. De en medición ha estado crónicamente mal enfocada,
igual manera, en 1973, Goehring utilizó libros de tanto así, que sólo nosotros tenemos la culpa
texto de Pruebas y Medición para generar una lista por la falta de atención dada a la capacitación
de 116 competencias y luego pidió a maestros y en medición en los programas educativos para
directores de escuelas que analizaran su impor- maestros.
tancia relativa. Muy aparte de la literatura sobre medición,
Sólo alguna que otra vez, y relativamente en los expertos en los contenidos de la enseñanza
fecha reciente, han empezado los especialistas empezaron a elaborar alternativas a las pruebas
de medición a fijarse en el contexto del aula para estandarizadas para el aula, movidos por una
tratar de entender las necesidades que tienen aversión a los efectos de las pruebas de rendición
los maestros de obtener competencia en eva- de cuentas o responsabilización, pero también a
luación. En 1973 Fahr y Griffin cuestionaron la causa de profundos cambios en las concepcio-
literatura que, al parecer, hacía de la medición nes del aprendizaje y el aprovechamiento en las
un fin en sí mismo, y sostuvieron en cambio que materias (Shepard, 2000). En lectura, por ejem-
las habilidades deben estar relacionadas direc- plo, los investigadores que trabajaban desde una
tamente con las decisiones de enseñanza que perspectiva emergente del alfabetismo (Clay,
los maestros necesitan tomar. Varios estudios, 1985; Teale y Sulzby, 1986), se dedicaron mucho
centrados inicialmente en cómo se utilizaban más a observar y respaldar las habilidades en de-
en el aula las pruebas estandarizadas, revelaron sarrollo de niños en contextos sociales concre-
14La evaluación en el aula
tos, más que en habilidades aisladas y descon- do un cambio considerable en la investigación
textualizadas. Clay (1985) inventó estrategias de sobre la enseñanza y el aprendizaje. Debido a
evaluación insertas en el acto de leer, señalando la revolución de la ciencia cognitiva, la investi-
que la investigación había fracasado en demos- gación ya no se centraba solamente en conduc-
trar que el aprendizaje hubiera mejorado por la tas observables, sino que también tomaba en
asignación de estudiantes a grupos de diferente consideración procesos cognitivos internos. En
nivel con base en un diagnóstico asentado en vez de un modelo de aprendizaje en el que los
pruebas de velocidad en lectura o en pruebas maestros transmiten el conocimiento y los estu-
de prerrequisitos, tales como habilidad lingüís- diantes lo absorben, el nuevo modelo de apren-
tica o discriminación visual. Goodman (1985) dizaje sostiene que los estudiantes construyen
reintrodujo el concepto de vigilancia de los niños, activamente conocimiento nuevo. En las obras
un remanente del movimiento de estudios del del National Council of Teachers of Mathematics
niño, que estuvo en boga mucho tiempo antes. (Consejo Nacional de Maestros de Matemáticas
A diferencia de las pruebas estandarizadas que [NCTM], por sus siglas en inglés) Curriculum and
se aplican en un único momento, la vigilancia Evaluation Standards for School Mathematics (1989)
de niños es continua. Legitima la importancia y Everybody Counts, un informe del National Re-
de la observación profesional en el aula y tiene search Council (1989), el aprendizaje de las Mate-
en cuenta experiencias de aprendizaje más ricas máticas se redefinió, más bien, como un proceso
que aquellas que pueden sepultarse sin riesgos en de indagación y de búsqueda de sentido que una
la prueba (Goodman, 1985, p. 14). La reunión de repetición y mímica sin sentido. Para la evaluación
muestras del trabajo de los estudiantes (Teale, esto significaba que se necesitaban problemas
Hiebert y Chittenden, 1987) se convirtió en un más extensos y no rutinarios para atraer a los
recurso valioso, no sólo para alcanzar una com- estudiantes y para evaluar la potencia matemática
prensión del pensamiento de los niños, sino para –definida como la capacidad de usar el conoci-
documentar su progreso a lo largo del tiempo. miento matemático “para razonar y pensar crea-
Se descubrió que la narración de cuentos era tivamente y para formular, resolver y reflexionar
más eficaz, tanto para los fines de la enseñanza críticamente en los problemas” (NCTM, 1989,
como para los de evaluación, que las preguntas p. 205). Además, el discurso del aula se convirtió
tradicionales de comprensión de lectura (Mo- en un punto focal de las reformas en Matemáti-
rrow, 1985), y así sucesivamente. Irónicamente, cas que buscaba proporcionar a los estudiantes
estos investigadores estaban haciendo exacta- la oportunidad de conjeturar y explicar su razo-
mente lo que Tyler había recomendado décadas namiento. Estas nuevas rutinas de enseñanza
antes al clarificar sus objetivos de enseñanza y incrementaron al mismo tiempo la importancia
buscar una representación lo más fiel posible de de las evaluaciones informales e integradas −ob-
estos objetivos en sus planes de evaluación. Con servaciones, preguntas del maestro y escritura
todo, lo que Tyler no previó fueron las limitacio- de un diario− como medios para comprender el
nes de los formatos de las pruebas objetivas, que pensamiento de los estudiantes (Silver y Kenney,
para finales del siglo XX ya no eran adecuadas 1995). En vez de la práctica imperante según la
para corresponder a las nuevas concepciones del cual los maestros ajustaban sus propias pruebas
aprendizaje de las materias (Shepard, 2000). para que emularan tanto la forma como el conte-
En la comunidad de las Matemáticas, la fuer- nido de las pruebas externas de opción múltiple,
za motriz y la dirección para los cambios en la Silver y Kilpatrick (1989) sostuvieron que debía
evaluación fueron paralelos a los que hubo en hacerse un esfuerzo serio para dotar de nuevas ha-
Lectura. En el capítulo sobre Matemáticas del bilidades a los docentes, para que pudieran dar
tercer Handbook of Research on Teaching, Romberg clases con enfoque de resolución de problemas
y Carpenter (1986) observaron que había ocurri- y para evaluar las capacidades y actitudes de sus
15Textos de evaluación
estudiantes en cuanto a resolución de proble- tiva, diciendo que la evaluación es formativa “sólo
mas, en el contexto de tales clases. cuando la comparación de los niveles reales y los
Pueden narrarse historias parecidas para otras de referencia producen información que luego se
materias, como ciencias y estudios sociales. En usa para modificar la laguna” (p. 53).
cada caso, los reformadores de finales del siglo En la siguiente sección sobre la evaluación
XX estuvieron motivados por la teoría construc- formativa, me explayo sobre la idea del uso de
tivista del aprendizaje y la necesidad de una ense- la evaluación como parte del proceso de apren-
ñanza y una evaluación más auténticas (Resnick y dizaje. La evaluación formativa se define como
Resnick, 1992; Wiggins, 1993). Para la comunidad la evaluación llevada a cabo durante el proceso
dedicada a las mediciones en Estados Unidos, el de enseñanza con el fin de mejorar la enseñanza
impacto de estos cambios se concentró princi- o el aprendizaje. La evaluación formativa pue-
palmente en reformar programas de evaluación de implicar métodos informales, tales como
en gran escala, ya que varios estados iniciaron un la observación y las preguntas orales, o el uso
programa de evaluaciones innovadoras y basadas formativo de medidas más formales como exá-
en el desempeño (Baron y Wolf, 1996). Quizá a menes tradicionales, portafolios y evaluaciones
causa de la gran importancia de las pruebas de del desempeño. También me ocupo de proble-
responsabilización externa3, la comunidad estu- mas de coherencia y de cómo podríamos lograr
diosa de las mediciones mostró lentitud en consi- que las estrategias de evaluación formativas y
derar las implicaciones de estos cambios teóricos sumativas se respaldaran mutuamente. La dis-
para la evaluación en el aula. Se formó un peque- tinción entre la evaluación formativa y la suma-
ño Grupo de Interés Especial dentro de la American tiva es paralela al uso original que Michael Scri-
Educational Research Association; pero, durante los ven (1967) dio a estos términos, en el contexto
años noventa, por ejemplo, la evaluación en el de la evaluación curricular y la evaluación de
aula o temas afines, tales como las formas de asig- programas, para distinguir entre la evaluación
nar calificaciones, dieron cuenta de sólo el 4% de realizada durante el proceso de desarrollo para
las sesiones en las reuniones anuales del National dar información al proceso mismo, en contra-
Council on Measurement in Education (Consejo Na- posición con la evaluación del producto final.
cional de la Medición en Educación). En Gran La evaluación sumativa, que se considera en una
Bretaña, las pruebas estandarizadas tomaron una sección posterior, se refiere a las evaluaciones
dirección muy diferente. El Assessment Reform realizadas al final de una unidad de enseñanza
Group (1999), que empezó en 1989 como un Gru- o curso de estudio, con el propósito de dar ca-
po de Tareas [Task Group] de la British Educational lificaciones o de certificar el aprovechamiento
Research Association, se centró en el vínculo deci- del estudiante. Como veremos, el nuevo mode-
sivo entre la evaluación en el aula y la enseñanza lo de evaluación formativa aspira a hacer que la
y el aprendizaje. El Assessment Reform Group acu- evaluación forme parte integral de la enseñan-
ñó la expresión evaluación para el aprendizaje para za, tal como lo propusieron los primero teóri-
referirse a la evaluación que respalda el proceso cos de la medición. La diferencia importante
de aprendizaje, lo que contrasta con la evaluación es que las estrategias que se explican aquí están
que sólo mide los resultados del aprendizaje. Si- construidas sobre un modelo muy diferente de
guiendo a Sadler (1989), Black y Wiliam (1998) enseñanza y aprendizaje, y no dependen de ins-
hicieron que este aprendizaje se centrara en la trumentos estandarizados que se hayan elabo-
característica definitoria de la evaluación forma- rado fuera del salón de clase.
3
External accountability. Hace referencia a que la sociedad respon-
sabiliza y, también pide una rendición de cuentas a la institución,
a los maestros y/o a los estudiantes mismos. La interna sería la
propia de la institución, los maestros y/o los estudiantes [N. T.]
16La evaluación en el aula
2. EVALUACIÓN FORMATIVA ción futura debe considerar el aprendizaje y el
desarrollo profesional de los maestros así como
Para que los docentes sean eficaces en reforzar a la eficacia de herramientas específicas de eva-
el aprendizaje de los estudiantes, deben com- luación.
probar constantemente la comprensión que és-
tos vayan logrando. Por otra parte, tienen que 2.1 Teoría del aprendizaje, y coherencia
darles a conocer la importancia de que ellos mis- en el diseño de la evaluación
mos asuman la responsabilidad de reflexionar y
supervisar su propio progreso en el aprendiza- La obra Knowing What Students Know (Pellegrino
je. Un análisis fundamental de Black y Wiliam et al., 2001) fue el resultado de un comité del
(1998), que marcó un hito, descubrió que los es- National Research Council, que se encargó de re-
fuerzos orientados a mejorar la evaluación for- unir los avances hechos tanto en la ciencia cog-
mativa producían beneficios mayores a la mitad nitiva como en la medición. Una premisa central
de una desviación estándar. En otras palabras, que sustenta las recomendaciones de Knowing
la evaluación formativa, eficazmente implemen- What Students Know es que las observaciones e
tada, puede hacer tanto o más para mejorar la interpretaciones de la evaluación deben estar
realización y los logros que cualquiera de las relacionadas con un modelo cognitivo bien es-
intervenciones más poderosas de la enseñanza, tructurado de cómo aprende el estudiante en
como la enseñanza intensiva de Lectura, las cla- cierto campo. Este modelo fundamental debe
ses particulares y otras parecidas. reflejar una comprensión actualizada de cómo
En esta sección, comienzo con un resumen se desarrolla el aprendizaje en un campo, y no
de las teorías contemporáneas del aprendizaje las “creencias tan restrictivas” (Pellegrino et al.,
y luego presento un modelo de evaluación for- 2001, p. 54) en que se basan las evaluaciones del
mativa del que muestro su compatibilidad tan- logro académico que más se utilizan. Un modelo
to con la teoría cognitiva como con la teoría de aprendizaje sirve “como un elemento unifica-
sociocultural del aprendizaje. Luego considero dor, un núcleo que da cohesión al currículo, la en-
varias estrategias y herramientas específicas que señanza y la evaluación” (Pellegrino et al., 2001,
comprenden el modelo general que los docen- p. 54). Por otra parte, los autores de Knowing
tes utilizan como parte de las rutinas cotidianas What Students Know argumentan más adelante
de enseñanza. Estos procesos recursivos de eva- en favor de esta misma coherencia esencial entre
luación son esenciales para una revisión y per- las evaluaciones externas y las que se hacen en
feccionamiento continuos de la enseñanza así clase. Para trabajar conjuntamente y respaldar el
como para mejorar también el aprendizaje del aprendizaje del estudiante, las evaluaciones en
estudiante. ambos niveles de un sistema de evaluación de-
No obstante, antes es necesario hacer una ben apoyarse en modelos compatibles sobre el
advertencia. Las prácticas ideales de evaluación aprendizaje del estudiante, aun cuando los mo-
que aquí se explican y que se basan en la inves- delos referentes al aula pueden ser mucho más
tigación, son consistentes con las prácticas de detallados. En este capítulo, utilizo el concepto
maestros particularmente competentes y exper- de coherencia para hablar acerca de cómo puede
tos, pero no necesariamente reflejan prácticas de hacerse que se respalden mutuamente la evalua-
evaluación típicas. De hecho, la mayoría de los ción formativa y la sumativa dentro del aula.
maestros en servicio tiene solo un conocimiento En el panorama histórico que esbocé en lí-
limitado de estrategias de evaluación formativa, neas anteriores, los cambios en la teoría del
y sigue pensando en la evaluación como un pro- aprendizaje se mencionaron varias veces como la
ceso que sirve principalmente para calificar. Por fuerza motriz de los cambios en la forma en que
consiguiente, la sección final sobre la investiga- conceptualizaron la enseñanza y la evaluación
17También puede leer