LA EVALUACIÓN EN EL AULA* - Lorrie A. Shepard
←
→
Transcripción del contenido de la página
Si su navegador no muestra la página correctamente, lea el contenido de la página a continuación
La evaluación en el aula LA EVALUACIÓN EN EL AULA* Lorrie A. Shepard Universidad de Colorado, Campus Boulder Capítulo 17 de la obra Educational Measurement (4ª Edición) Editado por Robert L. Brennan ACE/ Praeger Westport. 2006 pp. 623-646. *Estoy muy agradecida con Rick Stiggins y Mark Wilson por los alentadores y estimulantes análisis de los borradores de este capítulo 1
Textos de evaluación LA EVALUACIÓN EN EL AULA Coordinación Editorial: Miguel Á. Aguilar R. Diana L. Flores Vázquez Diseño y Formación: Juan Cristóbal Ramírez Peraza Irma Tapia Covarrubias Instituto Nacional para la Evaluación del Educación José Ma. Velasco 101, Col. San José Insurgentes, Delegación Benito Juárez, C. P. 03900, México D. F. Classroom Assesment. Lorrie A. Shepard / Robert Brennan. Educational Measurement Copyright © 30 de agosto, 2006. Reproducido con permiso de Greenwood Publishing Group Inc. Westport CT. Traducción: Martha Domís para el Instituto Nacional para la Evaluación de la Educación Impreso en México 2
Contenido CONTENIDO Presentación 5 La evaluación en el aula 9 1. Panorama histórico 10 2. Evaluación formativa 17 2.1 Teoría del aprendizaje 17 2.2 Un modelo de la evaluación formativa 19 2.3 La importancia del contenido: seleccion de las tareas de enseñanza y de evaluación que encarnan objetivos de aprendizaje 21 2.4 Progresiones del aprendizaje 22 2.5 Evaluación del conocimiento previo 24 2.6 Criterios explicativos y el uso de guías de calificación (rúbricas) 25 2.7 Retroalimentaciuón 25 2.8 Enseñar y evaluar para que haya transparencia 26 2.9 Auto-evaluación del estudiante 27 2.10 Evaluación de la docencia 29 3. Evaluación sumativa y calificación 30 3.1 Finalidades de las calificaciones apropiadas a la edad 30 3.2 La investigación en la práctica actual 32 3.3 Importancia del contenido y del formato: qué se valora 33 3.4 La investigación sobre medición, psicología cognitiva y psicología motivacional 35 3.5 Parámetros para el desarrollo de la competencia 37 4. Evaluaciones externas y en gran escala 38 5. Conclusiones implicaciones para la investigación y la teoría de la medición 40 5.1 Estudios de las herramientos y procesos de evaluación 40 5.2 Estudios del desarrollo del maestro 41 5.3 Nuevas conceptualizaciones de la confiabilidad y la validez 42 Bibliografía 45 3
Textos de evaluación 4
Presentación PRESENTACIÓN Con este volumen, el Instituto Nacional para ciones a cargo de los maestros, de manera que la la Evaluación de la Educación (INEE) inicia combinación de unas y otras contribuya verda- una nueva serie de publicaciones, que difundirá deramente a avanzar en la dirección que a todos textos relevantes sobre la evaluación educativa nos interesa: la de la mejora real y profunda de creados por la pluma de autores externos al Ins- la educación que nuestras escuelas ofrecen a los tituto, o que no caben dentro de las otras se- niños y niñas de México. ries que comprende su programa editorial. En el La obra que se presenta es un texto de pri- caso de obras de autores externos, además de su mera importancia en relación con estos temas, y interés, se considerará la dificultad de acceder por ello el INEE la pone al alcance de los maes- a ellas por los lectores mexicanos, debido a no tros de nuestro sistema educativo, y de todas estar publicadas en español u otras razones. Este las personas interesadas por la calidad educati- fue el caso de la obra Learning divides, del inves- va. En los párrafos siguientes se desarrollan con tigador canadiense Jon Douglas Willms, que el mayor amplitud las preocupaciones que nos han INEE hizo traducir y publicó con el debido per- llevado a difundirla. miso del editor original, el Instituto de Estadís- En su forma más conocida, la evaluación edu- ticas de la UNESCO, con el título Las brechas de cativa no es algo reciente. La tarea del maestro, aprendizaje. en su interacción cotidiana con los alumnos, ha La obra que se difunde ahora, de la profesora incluido siempre, como una dimensión funda- Lorrie A. Shepard, de la Universidad de Colora- mental, el evaluar los avances de cada uno. En do en Boulder, es un texto fundamental sobre las formas tradicionales de enseñanza que preva- un tema que el INEE considera de gran interés lecieron hasta bien entrado el siglo XIX, cuando para toda persona interesada en la evaluación, surgieron los sistemas educativos de concepción especialmente para los que en el momento ac- moderna con los que estamos familiarizados tual sienten preocupación por el enfoque que –con cobertura que tendía a ser universal y, se está dando a la evaluación en gran escala en por ello, con muchos alumnos, organizados en nuestro país. grados de edad y avance similar– la tarea de los Convencido como lo está del potencial po- maestros era más de evaluación que de docencia. sitivo de la evaluación en gran escala, el INEE En las escuelitas en que un dómine atendía a una comparte la preocupación de no pocas perso- docena de chicos de distintas edades y niveles, nas del medio educativo, en el sentido de que para enseñarles a leer, escribir, contar y rezar, la ciertos usos de ese tipo de evaluaciones pueden lección magistral estaba ausente; el trabajo del tener también serias consecuencias negativas. maestro se limitaba fundamentalmente a tomar Por ello, es de gran importancia reflexionar se- la lección a cada alumno, indicándole, en función riamente sobre los alcances y limitaciones de di- de su avance, la siguiente tarea. chas evaluaciones, así como sobre la necesidad La que sí es bastante reciente es la evalua- de que se fortalezcan paralelamente las evalua- ción en gran escala, la aplicación estandarizada de 5
Textos de evaluación pruebas a grandes números de alumnos, para cargo de los maestros, insustituibles para eva- apreciar el nivel de aprendizaje que se alcanza luar de manera detallada todos los aspectos en el sistema educativo de todo un país, región del currículo y para hacerlo de manera que o distrito, ante la imposibilidad de agregar las puedan ofrecer a cada alumno la retroalimen- evaluaciones que hacen los maestros, siempre tación precisa sobre sus puntos fuertes y dé- ligadas al contexto en que trabaja cada uno. biles, esencial para mejorar el aprendizaje. Es Con antecedentes que se remontan al final preciso, sin embargo, advertir sobre un riesgo del siglo XIX, las evaluaciones en gran escala se que no se puede ignorar: el peligro de que las desarrollaron en los Estados Unidos, durante la pruebas en gran escala produzcan consecuen- primera mitad del siglo XX, adquirieron impor- cias negativas para la calidad educativa, si se tancia a lo largo de su segunda mitad y se exten- les comprende y utiliza mal. dieron a la mayor parte de los países del mundo En efecto: para poder dar resultados con- en las dos o tres últimas décadas. Además de fiables de los niveles de aprendizaje que al- evaluaciones nacionales, se desarrollaron pro- canzan muchos miles de alumnos, una prueba yectos internacionales que hoy atraen poderosa- estandarizada necesariamente tiene que redu- mente la atención cada vez que se difunden sus cirse a la medición de un número relativamen- resultados. Las más conocidas son las pruebas te mínimo de temas, y debe hacerlo mediante del Proyecto para la Evaluación Internacional de preguntas que no pueden atender los aspec- los Estudiantes (PISA, por sus siglas en inglés), tos más complejos de las competencias que de la Organización para la Cooperación y el De- pretende desarrollar la escuela. Por ello, hay sarrollo Económicos (OCDE), cuyo desarrollo que reiterar que las pruebas en gran escala no comenzó a planearse en 1995, y se aplican cada pueden sustituir el trabajo de evaluación de tres años desde el 2000. los maestros, el único que puede atender con Más de tres décadas antes, en 1958, comen- precisión los aspectos más complejos de la en- zaba a gestarse la Asociación Internacional de señanza y el aprendizaje, y hacerlo de modo Evaluación del Rendimiento Académico (IEA, que se brinde retroalimentación detallada y por sus siglas en inglés), con la planeación del oportuna a cada alumno. Primer Estudio Internacional sobre Matemá- Si no se entienden bien los alcances y límites ticas que se llevó a cabo en la década de 1960, de los resultados de las pruebas en gran escala, del que se deriva el Estudio de Tendencias en es fácil que se usen en forma inapropiada. El Matemáticas y Ciencias (TIMSS) una de las eva- peligro más claro es la tendencia a tomar como luaciones vigentes más importantes. En México, referente para la tarea docente el contenido de el desarrollo de pruebas en gran escala para edu- las pruebas y no el de los programas de estudio, cación básica dio inicio desde la década de 1970, enseñando para las pruebas, por la visibilidad de y se desarrolló sobre todo a partir de la de 1990, sus resultados. Con ello la tarea de la escuela se con las pruebas para evaluar el Factor Aprove- empobrece, al descuidar aspectos esenciales que chamiento Escolar del Programa de Carrera Ma- no evalúan las pruebas en gran escala, como la gisterial. La tendencia se acentuó en la última expresión escrita y oral, la formación de acti- década, con las pruebas del Instituto Nacional tudes y valores, la educación artística, e incluso para la Evaluación de la Educación (INEE), a los niveles cognitivos más complejos de las áreas partir de 2003, y las pruebas censales de la Se- tradicionalmente cubiertas de Lectura, Mate- cretaría de Educación Pública, desde 2006. máticas y Ciencias. Las pruebas en gran escala pueden ser una Otros ejemplos de manejo inapropiado de los herramienta valiosa para apoyar los esfuerzos resultados de las evaluaciones en gran escala son de mejora de la calidad educativa, si se las ve la asignación de estímulos a los docentes o la ela- como un complemento de las evaluaciones a boración de ordenamientos simples de escuelas, 6
Presentación supuestamente en función de la calidad de unos derá también que las preguntas de opción múl- y otras, sin tener en cuenta los numerosos facto- tiple son esenciales en las primeras, pero que res que inciden en los resultados de los alumnos las segundas, las evaluaciones que los maestros en las pruebas ni tener en cuenta las limitacio- llevan a cabo, pueden utilizar acercamientos di- nes de éstas. Este tipo de errores, además, pro- ferentes y mejores para evaluar aspectos finos duce un explicable rechazo de toda evaluación y complejos, los cuales difícilmente se pueden en gran escala por parte de muchos maestros, atender en gran escala, pero que en el ámbito del que perciben sus graves consecuencias para la aula es posible emplear. Las preguntas de opción educación. Por ello, conviene reiterar que la múltiple pueden ser usadas también en el aula, evaluación en gran escala puede ser muy valio- y son adecuadas para evaluar algunos aspectos sa para la mejora de la calidad, a condición de del aprendizaje, pero otros deben valorarse de entenderla y usarla viéndola como complemento formas distintas, como mediante la producción del trabajo del maestro, y no como sustituto del de textos amplios, la realización de ejercicios en mismo. Para eso es necesario que los maestros vivo, la observación del trabajo individual y gru- entiendan bien los alcances y límites de la eva- pal de los alumnos, entre otros. luación en gran escala, y los de la evaluación que La expresión evaluación en aula (classroom as- ellos llevan cabo. sessment) se refiere a este tipo de acercamientos. En México la formación inicial que reciben Es importante que escuelas normales y progra- muchos maestros no los prepara bien ni para mas de actualización de maestros en servicio una cosa ni para la otra. Un indicio de ello es la presten la atención que merecen a estos enfo- solicitud que el INEE suele recibir, de maestros, ques, relativamente recientes y poco conocidos supervisores y directivos de escuelas normales, en nuestro medio. para impartir talleres de elaboración de reacti- Para contribuir al desarrollo de estas innova- vos de opción múltiple, gracias a lo cual se espe- doras ideas, el INEE hizo las gestiones necesa- ra que mejore la calidad de las evaluaciones que rias para difundir en español el texto siguiente, deben hacer los maestros. En el Instituto hemos de una de sus principales defensoras. Al invitar mantenido la posición anterior sobre los alcan- a leerlo y reflexionar detenidamente sobre su ces y límites de la evaluación en gran escala, y contenido, expreso el deseo de que la evaluación sobre la necesidad de verla como complemen- educativa en México se desarrolle combinando taria de la evaluación a cargo de los maestros, el avance técnico de las pruebas en gran escala, y nos enfrentamos permanentemente con una con un uso de sus resultados que no ignore sus dificultad considerable para conseguir que esta límites y un avance substancial de la evaluación postura sea comprendida no sólo por la socie- en aula, a cargo de los maestros. Así, y sólo así, la dad en general, sino también por las autoridades evaluación podrá contribuir realmente a la me- educativas y por los maestros, como muestran jora educativa. las demandas a las que alude el párrafo. Si se comprenden las características de las Felipe Martínez Rizo evaluaciones en gran escala y en aula, se enten- Julio de 2008. 7
Textos de evaluación 8
La evaluación en el aula La evaluación en el aula El modelo de evaluación en el aula que se explica tivo de la evaluación como parte del proceso de detalladamente en este trabajo es muy diferente aprendizaje (Black, y Wiliam, 1998; Gipps, 1999; del modelo de pruebas y mediciones que predo- Shepard, 2000). A principios de la década de los minó en aulas y escuelas durante el siglo pasado. ochenta, el interés en reformar la práctica de la En los primeros años del siglo XX, los expertos evaluación se vio acuciado por un uso mayor de en mediciones creían que podían usarse pruebas pruebas estandarizadas, cuyo propósito era la nuevas y objetivas para estudiar y mejorar los re- responsabilización*, y por una evidencia cada vez sultados de la educación, así como para encargar- mayor de que los formatos estrechos de pruebas se del diagnóstico y la colocación de estudiantes tenían un efecto perjudicial en la calidad de la de acuerdo con sus necesidades de aprendizaje enseñanza y el aprendizaje de los estudiantes (Symonds, 1927; Thorndike, 1913). El punto de (Resnick y Resnick, 1992; U.S. Congress, Office of vista prevaleciente fue que los expertos debían Technology Assessment, 1992). Adelantándose a los elaborar pruebas estandarizadas que los do- expertos en mediciones, los especialistas en las centes utilizarían con objeto de incrementar la materias empezaron a desarrollar estrategias de precisión en su toma de decisiones. Además, los evaluación que se vinculaban más estrechamente expertos en mediciones empezaron a enseñar a a los objetivos curriculares (Kulm, 1990; Mathe- los maestros cómo hacer sus propias pruebas si- matical Sciences Education Boarad, 1993; Morrow guiendo principios científicos de medición. En y Smith, 1990; Valencia y Calfee, 1991). Por otra aquellos primeros años, se desarrolló un sistema parte, la investigación en psicología cognitiva para los libros de texto de mediciones con el fin y motivacional aportó tanto la teoría como las de enseñar a los maestros cuestiones sobre la evidencias, gracias a las cuales se perfiló el cami- validez y la confiabilidad (utilizando representa- no para los cambios que se necesitaban (Black, ciones en su mayor parte cuantitativas), la ela- y Wiliam, 1998; Crooks, 1988; Pellegrino, Chu- boración de pruebas, los formatos y el análisis dowsky y Glaser, 2001). Por último, este nuevo de reactivos, así como análisis estadísticos de los modelo de evaluación en el aula, se ha hecho resultados de las pruebas. Este sistema —que manifiesto en un nuevo tipo de libro de texto de consistía casi exclusivamente en pruebas forma- les, cuestionarios y calificaciones— ha seguido * El concepto del que habla la autora es accountability, que se ha tra- ducido como responsabilización porque se responsabiliza a escuelas, siendo el modelo de los libros de texto hasta el directores y maestros del progreso académico de los estudiantes. día de hoy. Este concepto, en el contexto de la educación, hace referencia al uso sistemático de datos de evaluación y otro tipo de informa- En contraste con este modelo técnico y cuan- ción para garantizar que las escuelas vayan en la dirección deseada. titativo, existe un punto de vista diferente de la Con frecuencia, en los sistemas de responsabilización se incluyen metas, indicadores de progreso hacia el cumplimiento de esas me- evaluación en el aula, que se desarrolló a fines tas y análisis de datos, así como procedimientos de información del siglo XX y que busca lograr que, en mucho prescritos y consecuencias o sanciones. La responsabilización a menudo incluye el uso de resultados de evaluación y otros datos mayor medida, el estudiante alcance un entendi- para determinar la eficacia del programa y para tomar decisiones miento; asimismo, busca obtener el uso forma- sobre recursos, recompensas y consecuencias. (Nota de la traduc- tora)[N. T.] 9
Textos de evaluación evaluación fundamentado en la práctica docente ban fallando (U. S. Congress, Office of Technology (Stiggins, 2001; Taylor y Nolen, 2005). Al señalar Assessment, 1992), elaboraron instrumentos para la naturaleza fundamental de esta transforma- documentar la necesidad de mejorarlas y esta- ción, unos cuantos expertos en mediciones han blecer el rumbo para lograrlo. Se pedían pruebas empezado a preguntar cómo deberían cambiar estandarizadas para que pudieran agregarse re- las ideas tradicionales de validez y confiabilidad sultados de diversas escuelas y compararlas en- en el contexto del aula (Brookhart, 2003; Mac- tre sí; y el nuevo tipo de examen objetivo se con- millan, 2003; Moss, 2003; Smith, 2003). sideró como un remedio para la escandalosa falta En este capítulo se presenta, tanto la concep- de confiabilidad de los exámenes que hacían los ción como los fundamentos de la investigación maestros, y que había quedado demostrada en sobre las estrategias de evaluación en el aula varios estudios anteriores (Thorndike, 1922). concebidas para ser parte integral de la enseñan- Desde el principio hubo también críticos que za y el aprendizaje. Comienza con una introduc- se quejaron de que las pruebas objetivas medían ción histórica para explicar el punto de vista que tan sólo hechos o fragmentos de información en vez de sostuvieron ciertos teóricos de la medición en el que midieran la capacidad de razonar y la aptitud pasado sobre la aplicación de pruebas en el aula. para la organización, etcétera, (Wood, 1923). No Se detiene específicamente en los puntos de vis- obstante, al hablar en nombre del pensamiento ta presentados en ediciones previas de Educatio- dominante, Wood estableció los argumentos nal Measurement, obras editadas por Lindquist fundamentales de las ventajas de la medición (1951), Thorndike (1971) y Linn (1989), respec- objetiva1, los cuales fueron repetidos a lo largo tivamente. La intención es identificar las ideas de todo el siglo: que han perdurado, así como las que actualmen- La prueba estandarizada es sumamente te se impugnan. La parte principal del capítulo exacta no sólo debido a que uno puede ca- está organizada en tres secciones: 1) Evaluación lificarla objetivamente, sino porque da su- formativa, 2) Evaluación sumativa y calificación, ficientes muestras del desempeño del exa- 3) Evaluaciones externas y en gran escala. En una minado así como del material sobre el cual sección de conclusiones, se consideran las impli- se examina. Por otra parte, es lo bastante caciones de estas ideas transformadoras para el flexible como para que pueda examinar no campo de la medición educativa. Se propone un sólo información sino también juicio, y la programa de investigación y se sugieren los cam- evaluación de relaciones, causas y conse- bios que se necesitan en la conceptualización de cuencias. (p. 162) la validez y la confiabilidad para los objetivos del No hay tanta oposición entre información aula. y razonamiento como algunos maestros quisieran hacernos creer … Los hechos no 1. PANORAMA HISTÓRICO son sólo un aspecto legítimo e indudable DE LA MEDICIÓN EDUCATIVA del pensamiento… sino que sólo el pensa- Y LAS AULAS miento puede adquirirlos, conservarlos y reproducirlos, y sólo puede hacerse esto El movimiento que pugnaba para que se apli- mediante la organización lógica y sistemá- caran pruebas de rendimiento escolar —que se tica del material. (p. 162) inició en 1908 con la publicación por Thorn- Todo estudio experimental del que tenga- dike y sus alumnos de pruebas de Aritmética y Escritura— estaba estrechamente relacionado 1 Para ser justos, Wood (1923) argumentó en favor del uso de prue- bas estandarizadas por su mayor confiabilidad con el fin de com- con el movimiento de la administración cien- plementar mediciones que utilizaban los exámenes tradicionales tífica o movimiento de la eficiencia social. Sus de ensayo. Sin embargo, otros usaron posteriormente este mismo líderes, que consideraban que las escuelas esta- razonamiento para sustituir pruebas de ensayo por pruebas obje- tivas más confiables. 10
La evaluación en el aula mos conocimiento, y que se haya realizado con las decisiones rutinarias que se toman en el hasta ahora, ha mostrado una fuerte rela- aula— no era una distinción evidente en 1951. ción entre la medición de la información Walter Cook (1951), en su capítulo titulado en un campo y la inteligencia o la capaci- The Functions of Measurement in the Facilitation of dad de pensar en el material de ese campo. Learning, defendía el uso de la medición objetiva (p. 163) para adaptar la enseñanza a las necesidades indi- Por otra parte, puesto que las pruebas de ren- viduales de aprendizaje. En tanto que reconocía dimiento se elaboraron en el mismo periodo y que “Los mejores maestros no dejan de seguir las hicieron los mismos autores de las pruebas constantemente el proceso de verificación del de Coeficiente Intelectual (CI), ambos tipos de aprendizaje mediante la observación directa de pruebas llegaron a tener los mismos formatos la conducta y las pruebas informales”, al mismo de reactivos y los mismos modelos estadísticos tiempo argumentaba en favor del valor de las cuyas raíces se hundían en la psicología de las pruebas preparadas por expertos porque: diferencias individuales. 1. Son más concienzudamente analíticas que Después de la Primera Guerra Mundial, el la mayoría de las que podrían preparar los uso de pruebas estandarizadas de rendimiento maestros. aumentó notablemente debido al éxito práctico 2. Hacen que los maestros tomen concien- y en gran escala de la prueba Army Alpha, al esta- cia de los elementos importantes, las se- blecimiento de grandes oficinas de investigación cuencias necesarias y las dificultades del educativa y agencias de investigación coopera- proceso. tiva, y a la conceptualización de Ralph Tyler en 3. Ahorran tiempo y energía al maestro el campo de la evaluación educativa, con el pro- para hacer diagnósticos, y le dejan más pósito de evaluar cuán bien habían logrado sus tiempo y energía para que haga el trabajo objetivos los programas educativos (Cook, 1941; de corrección. Madaus y Stufflebeam, 2000; U. S. Congress, 4. Ayudan al alumno a reconocer sus necesi- Office of Technology Assessment, 1992). dades de aprendizaje al hacer hincapié en La primera edición de Educational Measure- forma sistemática en sus errores. ment, libro que se publicó en 1951 y que editó 5. Los procedimientos correctivos se indi- E. F. Lindquist, reflejó y extendió la idea de que can o proporcionan al maestro y le aho- las pruebas estandarizadas eran esenciales para rran tiempo, así como también le ayudan el proceso de evaluación y mejoramiento de la a sistematizar el proceso. (p. 37) educación. Si bien los autores de los capítulos En el capítulo sobre The Functions of Measurement de la edición de 1951 dicen que las “funciones in Improving Instruction, que se relaciona con lo de la medición educativa se relacionan… con anterior, Tyler (1951) observó que “la medición la facilitación del aprendizaje” (Cook, 1951, p. educativa está concebida, no como un proceso 4), lo que ellos tenían en mente era que esto lo totalmente distinto de la enseñanza, sino más realizarían pruebas elaboradas fuera del aula. Su bien como una parte integral de ésta” (p. 47). punto de vista era que había que desarrollar pro- Pese a la similitud entre estas palabras y las con- gramas de pruebas estandarizadas en los distri- cepciones actuales de la evaluación en el aula, los tos escolares, que es lo que hoy podría llamarse procesos que Tyler tenía en mente se asumían casi administración de datos o sistemas manejados totalmente fuera del aula. Si bien algunos de los con datos. La distinción que se hace en nuestro ejemplos de Tyler tomaban en cuenta la posibili- informe contemporáneo Knowing What Students dad de que un instructor individual de un curso Know (Pellegrino et al., 2001) —entre los tipos pudiera recorrer todo el proceso de planeación de datos de evaluación que se necesitan para de la enseñanza —especificando objetivos, pla- las políticas en gran escala, en contraposición nificando experiencias de aprendizaje y valoran- 11
Textos de evaluación do efectos—, Tyler se interesaba sobre todo en Al escribir él solo para la tercera edición, Ni- que un programa de pruebas de rendimiento en tko (1989) ofreció nuevamente un enfoque sobre un distrito escolar se “planificara y desarrollara la planificación de la enseñanza que aprovechaba como parte integral del programa del currículo y una base de investigación cognitiva sumamente la enseñanza” (p. 64). Los maestros aprenderían sofisticada con el fin de ofrecer pruebas pertinen- participando en el desarrollo de objetivos y en la tes, desde el punto de vista de la instrucción, para elaboración de pruebas, y también aprenderían que se utilizaran en el aula. Revisó la literatura de los datos resultantes. sobre pruebas de diagnóstico que se basaban en Para la segunda edición, de 1971, Robert Gla- los conocimientos previos requeridos, en habi- ser, un psicólogo cognitivo, y Anthony Nitro, un lidades y en el dominio de objetivos conductua- teórico de la medición, escribieron el capítulo les –acercamientos que reflejaban una idea muy sobre Measurement in Learning and Instruction. Su estrecha de cómo se desarrolla el aprendizaje y perspectiva formal de planificación de la ense- una representación relativamente empobrecida ñanza estaba influida por supuestos docentes del dominio de los contenidos. En contraste con conductistas y de la educación adaptativa por esto, Nitko (1989) también estudió textos emer- computadora, que gozaban de popularidad en gentes de diagnóstico centrados en el análisis de la época. Al igual que Tyler y Cook, su visión errores y estructuras de conocimiento de los es- planteaba la necesidad de pruebas pertinentes tudiantes. Estas últimas categorías le permitieron para la enseñanza, que se elaborarían fuera del vislumbrar los temas de investigación que serían aula y se entregarían a los docentes. “A medida fundamentales para la concepción contemporá- que se desarrolla la enseñanza, la información nea del aprendizaje y la evaluación. Por ejemplo, para tomar decisiones educativas deben darse al “(la) comprensión que tenga quien diseña prue- docente, al estudiante y posiblemente a una má- bas sobre el significado y la estructura del cono- quina” (pp. 626-627). En vista de la complejidad cimiento que un estudiante trae al sistema de que implica el diseño de pruebas apropiadas, in- enseñanza” podría utilizarse para identificar “la cluyendo la validación de modelos cuantitativos comprensión cotidiana de palabras y fenómenos de adaptación de la enseñanza, “parecería ade- […] que no concuerden con la comprensión ca- más que el agobio de planificar y elaborar tales nónica de los expertos” (p. 461). Es importante pruebas, de procesar las respuestas y de llevar a señalar que Nitko (1989) también observó que cabo análisis preliminares de los resultados de “la investigación reciente en psicología educativa la prueba, debe manejarlo alguien que no sea el indica que las formas en que los estudiantes re- maestro de la clase.” De nueva cuenta, al igual presentan mentalmente el conocimiento son tan que Tyler, Glaser y Nitko vieron que estos resul- importantes, para el desarrollo de sus habilida- tados de las pruebas podrían estar al servicio de des para resolver problemas y para el aprendizaje la evaluación de programas, al proporcionar una avanzado, como las formas en que manifiestan su retroalimentación formativa a los responsables conocimiento conductualmente” (p.466). Si bien del sistema. Sin embargo, a diferencia de Tyler, Nitko (1989) todavía imaginaba un sistema de en- estaban más interesados en datos de las prue- señanza informal y de evaluación que se elabora- bas que pudieran usarse en forma permanente ría fuera del aula y se entregaría a los maestros, su para adaptar la enseñanza a los estudiantes in- punto de vista reflejó un cambio esencial e impor- dividuales, y creían que su sistema de pruebas tante: quedaron lejos las pruebas de competencia diseñado externamente podría quedar inclui- del estudiante después de una lección o periodo do en la enseñanza de un modo perfectamente de instrucción, donde pasaba o reprobaba, y se consistente. “Si se hacen apropiadas y sutiles, la dio un paso hacia las evaluaciones más ricas de docencia, la educación y la aplicación de prue- su comprensión y aprovechamiento en un campo bas se irán diluyendo una en otra”. (p. 646) del conocimiento. 12
La evaluación en el aula Si bien los primeros volúmenes de Educa- por sentado que sería sencillo “volver a enseñar tional Measurement tenían poco que decir sobre ciertas cuestiones” (Torgerson, y Adams, 1954). las pruebas que hacían los docentes o sobre las La estadística y las presentaciones cuantitativas prácticas de evaluación en el aula, el movimien- de la confiabilidad y la validez fueron sobresa- to de pruebas estandarizadas y el paradigma de lientes en cuanto a qué necesitaban saber los do- la evaluación de programas determinaron, no centes. En el prefacio a su texto de Educational obstante, qué se enseñaba a los docentes acer- Measurement, Travers (1955) señaló que muchos ca de la evaluación. Los teóricos de la medición, de sus colegas tenían preferencia por los libros responsables de los cursos de Pruebas y Medicio- de texto sobre medición psicológica porque brin- nes para maestros, creían que debía enseñarse daban “un alimento intelectual más sólido que a éstos cómo emular la confección de pruebas los libros sobre medición educativa” (p. vi), en estandarizadas de rendimiento, así como de qué vista de lo cual aumentó el nivel técnico de su manera debían usar una diversidad de medicio- libro “para ayudar a fortalecer una debilidad en nes estandarizadas. Los libros de texto típicos la preparación de los maestros” (p. vi). En una desde la década de 1940 hasta la de 1990 incluían muestra de treinta libros de texto examinados los siguientes capítulos: para este análisis histórico, sólo encontré dos I. Finalidad de la medición y la evaluación que tenían una sección o subsección dedicada II. Análisis estadístico de los resultados de al uso de la observación en el aula. Encontré un pruebas texto que menciona el uso de la evaluación para 111. Validez la retroalimentación2. La mayor parte de los tex- IV. Confiabilidad tos tenían un capítulo sobre la especificación V. Principios generales de la elaboración de objetivos para la enseñanza; y, si se captara de pruebas (incluye la especificación el mensaje principal de estos libros, ayudaría a de los objetivos de la enseñanza) los maestros a volverse más sistemáticos en el VI. Principios de la elaboración de pruebas uso que hacen de diversos formatos de reacti- objetivas vos para representar un contenido importante. VII. Principios de elaboración de pruebas de Sin embargo, sería justo decir que los aspectos ensayo técnicos de la elaboración de pruebas recibieron VIII. Análisis de reactivos para pruebas en más atención que las conexiones entre la evalua- el aula ción y las actividades de la enseñanza. IX. Asignación de calificaciones y for- El acento que ponen los integrantes de la ma de reportarlas comunidad de la medición en temas formales X. Pruebas de CI y aptitud académica y técnicos también puede encontrarse en la li- XI. Pruebas estandarizadas de rendimiento teratura de investigación sobre la capacitación XII. Mediciones de intereses y personalidad en medición para los maestros. Esta literatura, XIII. Interpretación de normas estadísticas que se extiende por varias décadas, se lamenta para las pruebas constantemente de que los maestros han recibi- Los libros de texto de medición se centraban do una preparación deficiente para cumplir con en la elaboración de pruebas formales cuya fina- lidad era la asignación de calificaciones. Si bien 2 Brown (1981), de manera profética, comentó: “(El) aspecto efi- varios autores mencionaban la importancia de caz de la retroalimentación es saber si una pregunta se contestó correctamente o, si se contestó en forma incorrecta, saber dónde utilizar la información que aportaban las pruebas ocurrió el error y qué necesita hacerse para corregir dicho error. para modificar la enseñanza, los libros de texto Esta información es suministrada por el señalamiento del maestro sobre la corrección de la respuesta y/o por sus comentarios, no daban pocas explicaciones sobre el modo en que por la calificación. Así, una prueba que se corrige, pero que no da los docentes entenderían los datos con objeto de lugar a una calificación, puede proporcionar tanta retroalimenta- rediseñar su enseñanza. Algunos autores dieron ción útil a los estudiantes como una que si lleva a una calificación” (p. 171). 13
Textos de evaluación sus responsabilidades de medición y evaluación. la gran importancia de las pruebas elaboradas Históricamente, muchos estudios dieron por por los maestros, las pruebas incluidas en el cu- sentado que los maestros necesitaban saber lo rrículo, y las interacciones y observaciones in- que se enseñaba en los cursos de Pruebas y Me- formales para su toma de decisiones cotidiana diciones, y hablaban de la idoneidad de dicha (Dorr-Bremme, 1983; Salmon-Cox, 1981; Yeh, preparación según cuántos programas forma- Herman y Rudner, 1981). Gracias a datos de en- tivos ofrecían tales cursos, cuántos estados los trevistas, Dorr-Bremme (1983) concluyeron que requerían y cuántos maestros los tomaban (Gos- los maestros actúan como razonadores prácticos lin, 1967; Noll, 1955; Roeder, 1972; Ward, 1980). y como clínicos, y que orientan sus actividades Cuando los investigadores intentaron identifi- de evaluación a las tareas prácticas que deben car en forma directa las habilidades específicas de llevar a cabo en las rutinas cotidianas, tales que se juzgaban esenciales para los maestros, los como “decidir qué enseñar y cómo enseñarlo a instrumentos que utilizaron en sus encuestas li- los estudiantes de diferentes niveles de desem- mitaron desafortunadamente la base de conoci- peño; llevar el registro de cómo progresan los mientos posibles a los contenidos de los libros alumnos y cómo ellos (los maestros) pueden de medición. Así, por ejemplo, en el estudio de ajustar su enseñanza apropiadamente y evaluar mayo de 1964, se pidió a maestros y directores y calificar a los estudiantes en su desempeño” así como a profesores de universidad y exper- (p. 3). Para estos fines, los maestros se apoyan tos en pruebas, que clasificaran la importancia en muy buena medida en las pruebas hechas por de setenta competencias. Treinta y dos de éstas ellos y en las interacciones con los estudiantes y eran elementos estadísticos que tenían que ver las observaciones que hacen de éstos. Stiggins con el cálculo y la interpretación de la media, y Conklin (1992) publicaron resultados de una la mediana y la moda, la desviación estándar, las serie de estudios de campo que documentaban puntuaciones estándar, las correlaciones y así qué hacen los maestros para evaluar a sus estu- sucesivamente. Las competencias restantes que diantes, y analizaron qué necesitarían saber los recibieron clasificaciones más altas, correspon- docentes para hacer bien estas tareas. Stiggins dieron fielmente a los capítulos de los libros de (1991) concluyó que la capacitación tradicional texto de medición citados anteriormente. De en medición ha estado crónicamente mal enfocada, igual manera, en 1973, Goehring utilizó libros de tanto así, que sólo nosotros tenemos la culpa texto de Pruebas y Medición para generar una lista por la falta de atención dada a la capacitación de 116 competencias y luego pidió a maestros y en medición en los programas educativos para directores de escuelas que analizaran su impor- maestros. tancia relativa. Muy aparte de la literatura sobre medición, Sólo alguna que otra vez, y relativamente en los expertos en los contenidos de la enseñanza fecha reciente, han empezado los especialistas empezaron a elaborar alternativas a las pruebas de medición a fijarse en el contexto del aula para estandarizadas para el aula, movidos por una tratar de entender las necesidades que tienen aversión a los efectos de las pruebas de rendición los maestros de obtener competencia en eva- de cuentas o responsabilización, pero también a luación. En 1973 Fahr y Griffin cuestionaron la causa de profundos cambios en las concepcio- literatura que, al parecer, hacía de la medición nes del aprendizaje y el aprovechamiento en las un fin en sí mismo, y sostuvieron en cambio que materias (Shepard, 2000). En lectura, por ejem- las habilidades deben estar relacionadas direc- plo, los investigadores que trabajaban desde una tamente con las decisiones de enseñanza que perspectiva emergente del alfabetismo (Clay, los maestros necesitan tomar. Varios estudios, 1985; Teale y Sulzby, 1986), se dedicaron mucho centrados inicialmente en cómo se utilizaban más a observar y respaldar las habilidades en de- en el aula las pruebas estandarizadas, revelaron sarrollo de niños en contextos sociales concre- 14
La evaluación en el aula tos, más que en habilidades aisladas y descon- do un cambio considerable en la investigación textualizadas. Clay (1985) inventó estrategias de sobre la enseñanza y el aprendizaje. Debido a evaluación insertas en el acto de leer, señalando la revolución de la ciencia cognitiva, la investi- que la investigación había fracasado en demos- gación ya no se centraba solamente en conduc- trar que el aprendizaje hubiera mejorado por la tas observables, sino que también tomaba en asignación de estudiantes a grupos de diferente consideración procesos cognitivos internos. En nivel con base en un diagnóstico asentado en vez de un modelo de aprendizaje en el que los pruebas de velocidad en lectura o en pruebas maestros transmiten el conocimiento y los estu- de prerrequisitos, tales como habilidad lingüís- diantes lo absorben, el nuevo modelo de apren- tica o discriminación visual. Goodman (1985) dizaje sostiene que los estudiantes construyen reintrodujo el concepto de vigilancia de los niños, activamente conocimiento nuevo. En las obras un remanente del movimiento de estudios del del National Council of Teachers of Mathematics niño, que estuvo en boga mucho tiempo antes. (Consejo Nacional de Maestros de Matemáticas A diferencia de las pruebas estandarizadas que [NCTM], por sus siglas en inglés) Curriculum and se aplican en un único momento, la vigilancia Evaluation Standards for School Mathematics (1989) de niños es continua. Legitima la importancia y Everybody Counts, un informe del National Re- de la observación profesional en el aula y tiene search Council (1989), el aprendizaje de las Mate- en cuenta experiencias de aprendizaje más ricas máticas se redefinió, más bien, como un proceso que aquellas que pueden sepultarse sin riesgos en de indagación y de búsqueda de sentido que una la prueba (Goodman, 1985, p. 14). La reunión de repetición y mímica sin sentido. Para la evaluación muestras del trabajo de los estudiantes (Teale, esto significaba que se necesitaban problemas Hiebert y Chittenden, 1987) se convirtió en un más extensos y no rutinarios para atraer a los recurso valioso, no sólo para alcanzar una com- estudiantes y para evaluar la potencia matemática prensión del pensamiento de los niños, sino para –definida como la capacidad de usar el conoci- documentar su progreso a lo largo del tiempo. miento matemático “para razonar y pensar crea- Se descubrió que la narración de cuentos era tivamente y para formular, resolver y reflexionar más eficaz, tanto para los fines de la enseñanza críticamente en los problemas” (NCTM, 1989, como para los de evaluación, que las preguntas p. 205). Además, el discurso del aula se convirtió tradicionales de comprensión de lectura (Mo- en un punto focal de las reformas en Matemáti- rrow, 1985), y así sucesivamente. Irónicamente, cas que buscaba proporcionar a los estudiantes estos investigadores estaban haciendo exacta- la oportunidad de conjeturar y explicar su razo- mente lo que Tyler había recomendado décadas namiento. Estas nuevas rutinas de enseñanza antes al clarificar sus objetivos de enseñanza y incrementaron al mismo tiempo la importancia buscar una representación lo más fiel posible de de las evaluaciones informales e integradas −ob- estos objetivos en sus planes de evaluación. Con servaciones, preguntas del maestro y escritura todo, lo que Tyler no previó fueron las limitacio- de un diario− como medios para comprender el nes de los formatos de las pruebas objetivas, que pensamiento de los estudiantes (Silver y Kenney, para finales del siglo XX ya no eran adecuadas 1995). En vez de la práctica imperante según la para corresponder a las nuevas concepciones del cual los maestros ajustaban sus propias pruebas aprendizaje de las materias (Shepard, 2000). para que emularan tanto la forma como el conte- En la comunidad de las Matemáticas, la fuer- nido de las pruebas externas de opción múltiple, za motriz y la dirección para los cambios en la Silver y Kilpatrick (1989) sostuvieron que debía evaluación fueron paralelos a los que hubo en hacerse un esfuerzo serio para dotar de nuevas ha- Lectura. En el capítulo sobre Matemáticas del bilidades a los docentes, para que pudieran dar tercer Handbook of Research on Teaching, Romberg clases con enfoque de resolución de problemas y Carpenter (1986) observaron que había ocurri- y para evaluar las capacidades y actitudes de sus 15
Textos de evaluación estudiantes en cuanto a resolución de proble- tiva, diciendo que la evaluación es formativa “sólo mas, en el contexto de tales clases. cuando la comparación de los niveles reales y los Pueden narrarse historias parecidas para otras de referencia producen información que luego se materias, como ciencias y estudios sociales. En usa para modificar la laguna” (p. 53). cada caso, los reformadores de finales del siglo En la siguiente sección sobre la evaluación XX estuvieron motivados por la teoría construc- formativa, me explayo sobre la idea del uso de tivista del aprendizaje y la necesidad de una ense- la evaluación como parte del proceso de apren- ñanza y una evaluación más auténticas (Resnick y dizaje. La evaluación formativa se define como Resnick, 1992; Wiggins, 1993). Para la comunidad la evaluación llevada a cabo durante el proceso dedicada a las mediciones en Estados Unidos, el de enseñanza con el fin de mejorar la enseñanza impacto de estos cambios se concentró princi- o el aprendizaje. La evaluación formativa pue- palmente en reformar programas de evaluación de implicar métodos informales, tales como en gran escala, ya que varios estados iniciaron un la observación y las preguntas orales, o el uso programa de evaluaciones innovadoras y basadas formativo de medidas más formales como exá- en el desempeño (Baron y Wolf, 1996). Quizá a menes tradicionales, portafolios y evaluaciones causa de la gran importancia de las pruebas de del desempeño. También me ocupo de proble- responsabilización externa3, la comunidad estu- mas de coherencia y de cómo podríamos lograr diosa de las mediciones mostró lentitud en consi- que las estrategias de evaluación formativas y derar las implicaciones de estos cambios teóricos sumativas se respaldaran mutuamente. La dis- para la evaluación en el aula. Se formó un peque- tinción entre la evaluación formativa y la suma- ño Grupo de Interés Especial dentro de la American tiva es paralela al uso original que Michael Scri- Educational Research Association; pero, durante los ven (1967) dio a estos términos, en el contexto años noventa, por ejemplo, la evaluación en el de la evaluación curricular y la evaluación de aula o temas afines, tales como las formas de asig- programas, para distinguir entre la evaluación nar calificaciones, dieron cuenta de sólo el 4% de realizada durante el proceso de desarrollo para las sesiones en las reuniones anuales del National dar información al proceso mismo, en contra- Council on Measurement in Education (Consejo Na- posición con la evaluación del producto final. cional de la Medición en Educación). En Gran La evaluación sumativa, que se considera en una Bretaña, las pruebas estandarizadas tomaron una sección posterior, se refiere a las evaluaciones dirección muy diferente. El Assessment Reform realizadas al final de una unidad de enseñanza Group (1999), que empezó en 1989 como un Gru- o curso de estudio, con el propósito de dar ca- po de Tareas [Task Group] de la British Educational lificaciones o de certificar el aprovechamiento Research Association, se centró en el vínculo deci- del estudiante. Como veremos, el nuevo mode- sivo entre la evaluación en el aula y la enseñanza lo de evaluación formativa aspira a hacer que la y el aprendizaje. El Assessment Reform Group acu- evaluación forme parte integral de la enseñan- ñó la expresión evaluación para el aprendizaje para za, tal como lo propusieron los primero teóri- referirse a la evaluación que respalda el proceso cos de la medición. La diferencia importante de aprendizaje, lo que contrasta con la evaluación es que las estrategias que se explican aquí están que sólo mide los resultados del aprendizaje. Si- construidas sobre un modelo muy diferente de guiendo a Sadler (1989), Black y Wiliam (1998) enseñanza y aprendizaje, y no dependen de ins- hicieron que este aprendizaje se centrara en la trumentos estandarizados que se hayan elabo- característica definitoria de la evaluación forma- rado fuera del salón de clase. 3 External accountability. Hace referencia a que la sociedad respon- sabiliza y, también pide una rendición de cuentas a la institución, a los maestros y/o a los estudiantes mismos. La interna sería la propia de la institución, los maestros y/o los estudiantes [N. T.] 16
La evaluación en el aula 2. EVALUACIÓN FORMATIVA ción futura debe considerar el aprendizaje y el desarrollo profesional de los maestros así como Para que los docentes sean eficaces en reforzar a la eficacia de herramientas específicas de eva- el aprendizaje de los estudiantes, deben com- luación. probar constantemente la comprensión que és- tos vayan logrando. Por otra parte, tienen que 2.1 Teoría del aprendizaje, y coherencia darles a conocer la importancia de que ellos mis- en el diseño de la evaluación mos asuman la responsabilidad de reflexionar y supervisar su propio progreso en el aprendiza- La obra Knowing What Students Know (Pellegrino je. Un análisis fundamental de Black y Wiliam et al., 2001) fue el resultado de un comité del (1998), que marcó un hito, descubrió que los es- National Research Council, que se encargó de re- fuerzos orientados a mejorar la evaluación for- unir los avances hechos tanto en la ciencia cog- mativa producían beneficios mayores a la mitad nitiva como en la medición. Una premisa central de una desviación estándar. En otras palabras, que sustenta las recomendaciones de Knowing la evaluación formativa, eficazmente implemen- What Students Know es que las observaciones e tada, puede hacer tanto o más para mejorar la interpretaciones de la evaluación deben estar realización y los logros que cualquiera de las relacionadas con un modelo cognitivo bien es- intervenciones más poderosas de la enseñanza, tructurado de cómo aprende el estudiante en como la enseñanza intensiva de Lectura, las cla- cierto campo. Este modelo fundamental debe ses particulares y otras parecidas. reflejar una comprensión actualizada de cómo En esta sección, comienzo con un resumen se desarrolla el aprendizaje en un campo, y no de las teorías contemporáneas del aprendizaje las “creencias tan restrictivas” (Pellegrino et al., y luego presento un modelo de evaluación for- 2001, p. 54) en que se basan las evaluaciones del mativa del que muestro su compatibilidad tan- logro académico que más se utilizan. Un modelo to con la teoría cognitiva como con la teoría de aprendizaje sirve “como un elemento unifica- sociocultural del aprendizaje. Luego considero dor, un núcleo que da cohesión al currículo, la en- varias estrategias y herramientas específicas que señanza y la evaluación” (Pellegrino et al., 2001, comprenden el modelo general que los docen- p. 54). Por otra parte, los autores de Knowing tes utilizan como parte de las rutinas cotidianas What Students Know argumentan más adelante de enseñanza. Estos procesos recursivos de eva- en favor de esta misma coherencia esencial entre luación son esenciales para una revisión y per- las evaluaciones externas y las que se hacen en feccionamiento continuos de la enseñanza así clase. Para trabajar conjuntamente y respaldar el como para mejorar también el aprendizaje del aprendizaje del estudiante, las evaluaciones en estudiante. ambos niveles de un sistema de evaluación de- No obstante, antes es necesario hacer una ben apoyarse en modelos compatibles sobre el advertencia. Las prácticas ideales de evaluación aprendizaje del estudiante, aun cuando los mo- que aquí se explican y que se basan en la inves- delos referentes al aula pueden ser mucho más tigación, son consistentes con las prácticas de detallados. En este capítulo, utilizo el concepto maestros particularmente competentes y exper- de coherencia para hablar acerca de cómo puede tos, pero no necesariamente reflejan prácticas de hacerse que se respalden mutuamente la evalua- evaluación típicas. De hecho, la mayoría de los ción formativa y la sumativa dentro del aula. maestros en servicio tiene solo un conocimiento En el panorama histórico que esbocé en lí- limitado de estrategias de evaluación formativa, neas anteriores, los cambios en la teoría del y sigue pensando en la evaluación como un pro- aprendizaje se mencionaron varias veces como la ceso que sirve principalmente para calificar. Por fuerza motriz de los cambios en la forma en que consiguiente, la sección final sobre la investiga- conceptualizaron la enseñanza y la evaluación 17
También puede leer