教育测评的未来发展趋势
7月8-11日,上海市教育考试院举办“K-12科学测评研究项目”上海研讨会,国际教育评价协会(IAEA)主席、美国ETS著名专家Randy E.Bennett率领美方工作组一行四人全程参加会议,并在会议期间做了以“测评的将来”为主题的演讲。Randy对教育测评未来十年的发展趋势所做的分析,很值得我们学习和借鉴。
1.新技术在测评中的应用
新的技术在教育测量方面所发挥的作用,正在越来越凸显出来,只要看看当下一些主要的教育测评项目比如OECD的PISA测试等,就能明白。新技术的应用,不仅能更有效地考查传统意义上所定义的那些能力,还能考查传统测评方式无法企及的新能力,并且能够收集和挖掘在线学习活动蕴含的大数据。另外,新技术让收集和分析在线学习的“大数据”成为可能。
2.测评新的构念
在测量领域,一个众所周知的事实就是:我们能测的信息,远远少于在学习的活动中所涉及到的多样化的信息。但随着社会的发展,各方所需要的人才规格也越来越多样化,需要通过测评将具有各种特质的人区分和辨别出来。对个体来说,问题解决的过程和能力、社会情绪方面的“坚毅性”、社会意识和自我意识等等,都是新的构念;从群体的角度看,学习的环境因素、社会和学校对教育的支持、合作学习等,也是新的构念。我们既需要关注新构念的测评结果在多大程度上用于重要决策,例如高校招生或者对学校进行问责,还要关注新构念的测评在多大程度上用于形成性评价。
3.将测评建立在更深层次的认知和学习模型的基础之上
测评将建立在更深层次的认知学习和学习模型的基础之上,比如说我们现在所开展的K-12科学测评项目,就是建立在认知学习、学习进阶等前沿理论的基础上所进行的探索。这样的测评将对考试设计和试题命制提供更多参考,对学生学习能力发展的测评也将更有意义。
4.充分利用更复杂的测评任务
一个学科中具有熟练水平特征的活动通常包含多样化的问题情境,但受限于测量任务,测量过程往往仅针对其中的某些内容,有很多信息并没有体现出来。比如说有的孩子动手能力很强,在制作方面很有天赋,但他的文化课成绩一般,而现有的通过文化课测评的方式,就很难将他动手方面的特点测量出来。为了弥补传统测量中的这些缺憾,人们设计出了通过论文、实验、作品集等方式来考查学生的学科能力。近年来,开始提倡甚至利用模拟任务或教育游戏等对学生进行测评。当然,测评任务越复杂,考试的覆盖面、公平性,考试开发、命题和评分的成本,考生时间消耗等方面的问题就越大。为此,可以尝试设计结构化的任务、采用更高级的考试开发工具、采取自动评分等。
5.测评更加个性化
接受教育和测评的学生,具有不同的学习水平和学历、不同的学习背景和兴趣,采取整齐划一的测评手段和方法,显然不能将这些学生的学习状况精准地测量出来。个性化的测评有几个主要的维度:一是普惠性,比如采取盲文试卷、大字号试卷等,让残疾的学生能够和普通学生一样便捷地参加测试。还有的在测评的过程中,允许学生使用自己的计算机来参与测评,避免因为不熟悉集中提供的计算机而导致测量的误差;二是自适应性测量,也就是把考生的能力与试题的难题相匹配,测评试卷因人而异,具有很鲜明的个性特色;三是让学生自己选择测评的试题,根据学生的选择以及作答情况对学生的学习状况给出评价。在一些学科的终结性评价中,老师会让学生选择是写论文形式的开卷考试,还是常规测评的闭卷考试,就是如此。四是让学生选择考什么,即选择自己的测评目标和课程标准。新高考改革中让学生在六门课中选择三门课,就体现出这一点。
6.测评是为了促进学习
长期以来,教育测评为政策制定或行政决策提供信息,从而间接地提升学生的学习效果。然而,教育测评的价值受到越来越多的质疑,如有人认为它浪费了教学时间,有人甚至觉得它对考生有害。未来,教育测评不但要更好地考查学生能力,还应该设计一些能够指导学生学习的任务,帮助学生通过考试学习一些重要的内容,通过为学生提供质性评价来鼓励学生反思解决问题的过程。
7.测评应更好地考虑学生的背景
大规模的终结性考试往往是通过“去背景化”的试题对学生能力进行推断,忽视了学生所处的社会、学习和教学环境。好的测评应该结合学生背景判断学生的真实能力。未来可以尝试创造电子化学习环境,并将测评嵌入其中,成为“嵌入式”测评,以使测评结果更加合理可行。
8.将测评“嵌入”在教学的不同环节和阶段
“嵌入”式测评,更能体现真实的学习情境,可以通过2种方式实现:第一种是对学生在学校或其他学习环境中不同时间段的表现进行随机抽样,形成大数据记录,这种测评方式可以是描述性的,即只展示学生在做什么或学习什么,也可以是推断性的,即推断出学生知道什么或能做什么;第二种是选择特定时间在课程中插入一系列预先设计的活动,对学生在课堂上的反应进行记录,这种测评方式对学生的行为抽样进行预先设计,因此比较聚焦,对学生知识和能力的推断也更加可靠。在理想的情况下,最好将这2种“嵌入式”测评方式结合起来。需要注意的是,“嵌入式”测评可能引发隐私问题。
9.采用自动评分技术
借助自动评分技术,可以提高评分效率,还能够采用更加复杂的测评任务,从而向考生提供更详细的反馈信息。自动评分用于形成性评价完全可行,但用于高利害性考试则需要谨慎,因为其算法类似于“黑箱子”,无法检测,而且很多自动评分技术的原理只是基于相关性分析进行预测,并没有考虑构念,有些考生可能因此投机取巧获得比实际能力高的分数。对此,在应用自动评分技术之前,需要向相关方面充分解释算法原理;此外还应该确保算法模型与考试的构念相契合。
10.把新技术整合到建模和分析中
在线学习和评估导致新数据类型的出现,包括考生各种类型的活动、延续时间等,这些都是非常有用的信息。传统的心理测量学模型只适用于比较简单的数据处理,当我们拥有越来越多来自在线学习和在线测评的新型数据,尤其是过程性数据,就需要综合教育数据挖掘技术、学习分析技术、教育测量学、统计学等领域的最新成果,这些都应该在建模和分析时加以考虑。
11.提供更加有效的分数报告
分数报告是考生作为用户体验的重要组成部分,能够体现出测评的正面影响机制。然而,相对于测评的其他环节,如自适应测试、模拟任务、自动评分等,分数报告的革新还比较缓慢。未来的分数报告应该以简明、直观、生动的方式反馈给学生,还能对学生的表现进行重现,同时支持学生与分数报告的互动等。