思维水平的成长评估

2021年1月30日星期六上午9时,“教育统计与测量学会教育测评系列讲座之三——思维水平的成长评估”讲座正式开始。主讲人为谢小庆博士,研究员,博士生导师,北京语言大学教育测量研究所原所长,中国教育学会教育统计与测量分会学术委员会副主任,中国心理学会测验专业委员会理事。曾长期从事中国汉语水平考试(HSK)的研究工作;主持开发了广泛应用于国家公务员录用考试的“行政职业能力测验”和“中国少数民族汉语水平等级考试(MHK)”。谢教授近年来的关注焦点是学生的成长评估(growth assessment)和如何提升学生的思维品质,尤其是提升学生的审辩式思维(critical thinking)水平。

上午的讲座是从温忠麟教授的欢迎词开始的:

“今天很荣幸请到教育测量界前辈谢小庆教授来做讲座。开始之前,我要用一段不长不短的话向谢老师致敬。

谢老师属于传说中的老三届(即66-68毕业的中学生),16岁上山下乡到内蒙古插队,一去就是11年。

内蒙古草原,最怕春天的暴风雪。可能刚刚还蓝天万里,阳光明媚,脱去了一身厚重的冬衣;转眼间,大风裹着雪粒铺天盖地而来,骑在马上看不见马头,身不由己地被刮出几十里地。不知多少次,他在夜沉沉、雪茫茫的大草原上走着,走着,迷失了方向。累极了,每挪一步,都像爬一条陡坡。好想倒下来躺那么一会儿……但只要一倒下,便什么都结束了。求生的欲望、坚强的意志让他一次又一次从暴风雪中走了出来。是的,在草原上,即使什么都没有了,只要还有勇气,就是最大的财富,有了勇气就可以得到一切。只要自己不倒下,什么风暴都改变不了一个人总的方向和最终的理想目标。

谢老师的前半生,是一次次从暴风雪中走出来的。正是他没有倒下,才有了我们今天看到的谢老师。在谢老师面前,我们在场的一些年轻老师和研究生,没有资格去悲伤、抑郁,甚至连说苦闷、忧虑都可能不好意思。

90年代中期我转行到教育领域的时候,谢老师早已经成名成家。实际上,早在1985年,他便已经在权威的学术刊物《中国社会科学》发表了论文。

谢老师是坚定的爱国者,他说过,与其羡慕美国人的护照,不如国人努力提高中国护照的含金量。退休了的谢老师,不用打卡考勤,不用绩效考评,但凭着对学术的热爱,以及对孩子、对教育的情怀,一直活跃在学术圈里圈外,大力呼吁培养学生的审辩式思维。下面就请谢老师开讲。”

谢老师讲座的内容主要分三大块:

什么是思维水平?

首先,谢老师回顾了国内外教育评价的发展沿革。谢老师指出,社会的发展给教育带来了新的挑战,教育评价成为了当下教育发展的瓶颈。对比美国在教育评价上的变革,国内以北师大刘坚教授为代表的一批探索者提出了具有时代特征的5C模型,迎接从“知识就是力量”到“思维才是力量”的教育测评挑战。

其次,谢老师对思维水平进行了分类,思维水平主要体现为:1、交流沟通(communication)能力,主要是口头和书面的表达能力;2、逻辑推理(logical reasoning)能力;3、审辩式思维(critical thinking)。其中,审辩式思维是建立在前两者的基础之上的。今天,国际教育界已经形成共识:教育最重要的任务之一是发展学生的审辩式思维,审辩式思维是最值得期许的、最核心的教育成果。几乎所有对世界各国教育都有所了解的人的共同感受是,与发达国家相比,今日中国学校中最缺乏的就是对审辩式思维的培养。

谢老师在上个世纪八、九十年代主持开发了广泛应用于国家公务员录用考试的“行政职业能力测验”。他凭借丰富的经验和创意,结合具体案例阐释了“知识记忆”、“逻辑推理能力”和“审辩式思维”的联系与区别。“审辩式思维”是本次讲座的重点,也是大家理解的难点。谢老师结合国际上认可度较高的研究《德尔菲报告——审辩式思维:对以评估和教学为目的的专家共识的说明》介绍了专家们关于审辩式思维的共识。

左右滑动查看更多

然后,提炼出了审辩式思维的最简描述:不懈质疑、包容异见、力行担责。并对此进行了解析:

左右滑动查看更多

思维水平的评估

谢老师指出:如果采用传统的“知识记忆测试”,往往不足以反映教学改革在发展学生交流表达、逻辑推理和审辩式思维方面所取得的成效,不足以反映教学改革在提高学生核心素养方面的成效。因此,今天我们迫切需要一个测试学生核心素养的测试工具。

谢老师分别介绍了“美国教育测验服务中心(ETS)”、“牛津、剑桥招生中的思维技能评估(TSA)”和“华生-格拉瑟审辩式思维测试”三个较为成熟的审辩式思维能力测试方法。

左右滑动查看更多

左右滑动查看更多

左右滑动查看更多

谢老师指出,有些论题虽然没有唯一的标准答案,测试者可以各抒己见,但是论证水平却可以有高下之分。在讲座中,谢老师分别针对思维水平进行客观化测试的5个主要题型:阅读理解、逻辑推理、事实判断、假设辨认和论证评价进行了举例说明。并进一步解析了在认知技能(level of argument)方面的思维水平,指出思维水平不仅可以测试,而且还可以进行客观化测试。

从“达标(结果)评估”到“达标+成(增值)评估”

2020年10月,中共中央、国务院发布《深化新时代教育评价改革总体方案》,提出未来教育评价改革的思路:以“倡四评(结果,过程,增值,综合)”实现“破五唯(分数、升学、文凭、论文、帽子)”,以成长(growth)、增值(value-added)评价补充原有的结果、达标评估。如何实现这一改革路径,是我们教育评价工作者需要承担的社会责任。

谢老师分析了美国基础教育特点和变革。美国精英教育的成功与其宽松的、非竞争的教育环境有关,这种教育环境,使孩子的好奇心、探究欲和创造力得到保护。在美国,学校教育从一开始就注意发展孩子的审辩式思维,鼓励孩子的独立思考和质疑精神,注意保护孩子的个性和兴趣。“成也萧何,败也萧何”,但也正是这种宽松的、非竞争的教育环境,使美国学校中出现了一大批“掉队(left behind)”学生或“差生”。这种局面显然不利于美国的人力资源开发和社会稳定,使美国社会长期受到贫困、犯罪、吸毒等问题的困扰。为了改变这种局面,美国先后修订《初等和中等教育法》,分别发布了2001年的《一个都不能少法案(NCLB)》和2018年的《每一个学生都成功法案(ESSA)》。与强调“一个都不能少”的NCLB相比,强调“人人成功”的ESSA的突出特点是以“达标+成长”的概念取代了原来的“达标”概念。

谢老师指出,新的“达标+成长”的教育评估模型体现了一种新的教育理念。学习,不仅要追求“达标”,更要追求“成长(growth)”。对于一些基础好的学生,实现“达标”并不一定能够实现“成长”;对于一些基础薄弱的学生,即使暂时“达标”有困难,仍然可以通过学习获得“成长”。新的“达标+成长”的教育理念和教育测量模型是我们从“结果评估”到“结果+增值评估”的改革之路。进行成长评估,不仅可以更准确地了解学生学习的实际成效(outcome),同时可以更准确、清晰地了解教师、学校对学生成绩的提高所实际产生的影响。

成长评估模型是指一组定义、计算方法和规则,可以根据学生两个或多个时间点的表现,做出与学生、班级、教师和学校有关的解释。它需要用“等值”和“纵向量表”来突破技术难点,实现不同时间点表现的可比性。

随后,谢老师详细介绍了美国学校使用的七个成长模型。这些模型可以分为三大类。第一类基于纵向量表的模型,包括增分模型(gain score)、轨道模型(Trajectory)、分类模型(categorical);第二类是回归预测模型,包括残差模型(the residual gain)、投射模型(projection)、学生成长百分等级模型(SGP);第三类是多变量模型,即增值模型(value added)。各种模型并无简单的好坏优劣之分,各有长处和不足。对于不同的模型,可以对评估结果做出不同的解释。选择哪种模型,要考虑自身分数解释的不同需要。以下是谢老师针对这七种模型进行的列表比较:

左右滑动查看更多

今天,各种模型在美国的各个州中都有应用,其中使用最多的是学生成长百分等级模型,其次是增值模型和轨道模型。

如何在国内实施成长评估?谢老师针对国内的实际情况为我们推荐了一个实施策略:“低起点,低水平”。结合实际介绍了实现“低起点”的两个方法:等值方法和残差方法,并讲解了成长(增值)评估结果在学生、教师、学校(学区)、学材和教法上的应用。谢老师殷切希望我们先迈出第一步“做起来”,再力争逐步“做得好”。

最后,谢老师呈现了本次讲座引用到的文章、书籍和相关公众号,为听众进一步深入学习提供了资料。

左右滑动查看更多

由于谢老师的讲座不仅理念先进而且能整体解决实际问题,所以在最后的提问环节,听讲座的各位研究者和一线教师都踊跃提问,谢老师一一耐心解答,直至超出了预定时间。另外,谢老师从早上7点多就开始调试网络,测试音视频以保证讲座的效果。谢老师的讲座内容丰富(共有264张PPT),切中时要,思路敏捷。谢谢谢老师。

附:《思维能力的成长评估》思维导图

(0)

相关推荐