有根•有效•有度:未来学科评价需关注三个重点
我们许多学校把评价简单于评级和评分。其实,评价在更加宽泛的范围和角度都表现为隐性评价,由文化现象和文化氛围以及文化互动方式呈现出来。在这个层面上设计评价的文化行为,可以超出单纯的级评与分评的效用,是学校急需重视的负面。
作者:赵德成
当前,很多中小学校已开始在课改理念与核心素养框架的引领下,从明确学校发展愿景与培养目标入手,系统思考与设计教育评价改革思路,并在评价主体多元化、新兴评价方式应用、教学评一致性等方面取得了明显突破。同时,如何在现有基础上进一步推动评价研究,以充分发挥其激励与导向性功能,也成为摆在教育者面前的新课题。基于日常在一线的深入观察,笔者认为,未来中小学教育评价研究尤其是学科评价中应关注三个重点问题。
一、聚焦核心素养,探索表现性评价的设计与应用
为全面深化课程改革,落实立德树人根本任务,2016年,《中国学生发展核心素养》总体框架正式公布,基于核心素养的课标修订、教材编写及评价改革也陆续启动。尽管仍有人对核心素养框架的表述存在质疑,但对于学校和教师究竟应重点培养学生哪些具体能力,教育者并不难达成共识。例如:褚宏启提出在基础教育领域应关注学生的六项核心素养,分别是创新能力、批判性思维、公民素养、合作与交流能力、自我发展素养与信息素养。[1]这一提法不仅与我国官方认可的核心素养框架保持基本一致,且由于更具体化而更容易使教育者找到操作抓手,故得到比较广泛的认可。因此,在核心素养培育的宏观背景下,中小学不能将目光仍然局限于学科教学以及对学科知识的掌握,而要参考国内外有关框架和思路,结合本校实际情况,明确学校所关注的核心素养,并在评价研究中关注对学生必备品质与关键能力的培育。
具体到核心素养评价,教育者需要借鉴国外经验,在实践中探索表现性评价技术的应用。表现性评价通常要求学生运用先前所获得的知识,解决某个生产生活情境中的真实问题或创造出符合某种特定标准的成果,教师通过观察学生完成任务的过程与结果评价学生表现。[2]这种评价方式克服了传统测验中仅能测试低水平知识和孤立技能的弊端,能有效评价学生在真实世界中应用所学知识与技能解决问题、交流合作及批判性思考等多种复杂能力,特别适合于核心素养评价。
以一道小学五年级数学题为例,有教师在教完“组合图形面积”一课后,在当堂检测中出了这样一道题:
智慧老人要装修自家的客厅,客厅形状及各面墙的长度如右图所示,他家的客厅面积有多大?
从整体上看,这道题已经具备了表现性评价的雏形,创设了一个看上去比较生活化的情境,但由于智慧老人不是真实的人物,其情境本身是虚假的,加之题目难度太低,因此并不能有效考查学生在真实生产生活情境中运用学科知识解决问题的能力。
如果将题目修改成:“张爷爷买了套小单元房,房产证上注明这套房子的建筑面积是38平方米,可张爷爷感觉家里没有那么大。他测量了家里几面墙的长度,如图(同智慧老人一题),请问开发商是不是测量错了?”那么我们可以看到,题目修改后所涉及的情境相对真实得多,学生在解题过程中需要分清商品房的建筑面积、套内面积及使用面积等相关概念,能较好地评价学生的问题解决能力。如果所提供的房屋平面图再稍复杂一点,增加学科知识的难度,那么这道题就变成了一道优秀的表现性评价题目。
因此,深入研究表现性评价,特别是非纸笔类表现性评价,使评价嵌套进真实的生产生活情境中,有效考查学生的问题解决能力、沟通合作能力、批判性思考能力、信息媒体技术等多种跨学科核心素养,这是未来评价改革应该关注的重点。
二、注重效度分析,提升评价研究的科学性
评价的质量如何也需要被评价。学术界将对评价的评价称为元评价。[3]通常,人们在元评价中主要分析试题的难度和区分度,即便是建立在项目反应理论基础上的深入分析也是如此。但实际上,教师在实践中接触最多的当堂检测、单元验收、期末考试、毕业水平测试,乃至大规模的教育质量监测,都是标准参照性质的测试,是绝对评价,其主要目的是检测学生达到既定学习目标的程度。在这种测验中,教师不需要刻意控制题目的难度和区分度,只要严格依照课程标准、教材和教学目标编制题目,同时考查点在预测目标范围内,是教学的重点,即使题目特别容易或特别难,都可以是好的题目,也可以出现在测验中。[4]
因此,反映评价质量好坏的最重要指标不是难度和区分度,而是效度。很多人会望文生义地认为,效度就是评价有效性的程度,以及有效促进学生学习与发展的程度。这种理解在方向上似乎没有错误,但专业性不够。从专业角度来看,效度是一个综合性概念,是指评价能测到所要测量特质的程度以及能为有关推论与决策提供有价值依据的程度。以七年级语文“口语交际”教学评价为例,有教师在单元验收中出了这样一道题目:
“同学们,我们每个人心底都有自己的秘密。今天晚上回家后,请和你的父母说说你心底的秘密。你会如何说呢?请把它写下来。”
这道题要考查的是学生口语交际能力达成单元目标的程度,但它让学生将想说的话写出来,实际上考查的主要是书面语言表达能力,而不是口语交际能力。想测量的特质没有测量到,就是效度不良。一旦效度不良,我们就无法对学生的学习水平和教师的教学质量做出准确有效的判断。可见,一道测试题或者一套评价方案,只有效度良好,才能产生好的评价。如果试题效度不良,即使其难度、区分度等指标都合乎测量学要求,也没有什么实质意义,也不是好的评价。
效度好是高质量评价的首要条件。由美国教育研究协会、美国心理学协会与全美教育测量学会共同编定的《教育与心理测试标准》是当前元评价领域影响最大的一个分析框架。1999年版及2014年最新版本的《教育与心理测试标准》都强调效度是评价最基本的要求,所有评价必须保证其能测到所欲测的特质,能依据所收集的信息做出准确而有效的推论。[5]在实践层面最具影响力的美国教育考试服务中心也反复强调,效度是反映试题质量最为重要的指标,测验编制者必须清晰界定要测量的特质,并提供概念性、实证性或理论性证据说明推论解释的有效性。[6]
但必须承认的是,效度分析在我国尚未受到足够重视。教师、教研员、研究者,特别是参与各种考试命题的人,需要认真学习有关专业知识,掌握分析试题、试卷及评价方案效度的技能,提高评价研究的科学性。
三、适时适度评价,避免过度评价引发的负效应
评价是质量管理体系中的重要环节,在课程改革与教学实践中受到广泛重视。“教育测量学之父”桑代克曾说过,“凡客观存在的事物都有数量,凡有数量的事物都可以测量”。[7]但我们必须承认,这只是经典测量理论的一个假设,就人类所掌握的技术而言,不少心理特质因为具有间接性、隐蔽性、随机性与复杂性等特点,目前仍难以进行准确有效的评价。所以,教育者必须注意到评价工作的这种局限性,不能急躁冒进,更不能为评价而评价。
为评价而评价,如果评价效度不良,抑或在难度、区分度、信度等方面存在瑕疵,不仅不能准确评判学与教的质量,而且会对实践产生或大或小的误导。有些地区或学校在综合素质评价实践中评价学生个体道德品质、学习能力、创造性,或者审美情趣的某些做法,已经显现出这种负效应。
“为评价而评价”现象中还有一种亟待关注的表现就是教师评价过多。在本轮新课改推进过程中,教师开始接受发展性评价理念,将终结性评价与形成性评价结合起来,注重在教学过程中开展即时和动态呈现的形成性评价。但有些课堂出现了满堂评的问题,有些学校甚至谋划以各种方式记录和评价学生的一言一行,导致学生无时无刻不被评价。这在无形中织就了一张大网,不要说消极的评价,即使是完全无条件的赏识性评价,也会给学生造成难以想象的压力。
1973年,心理学家莱珀基于儿童绘画兴趣实验的发现提出过分肯定理论。她指出,当个体从事一项自身感兴趣的活动时,外界所给予其的奖励会使活动成为一种达到目的(获奖)的手段,那么个体以后从事这种活动的兴趣就会降低。[8]将这一理论嫁接到评价实践可以预见,如果一个学生的某种努力、进步或成就频繁得到教师的赏识性评价,学生担心失败的压力会增大,而且追求进步的动机会由内在动机转变成外在的工具性动机,会在很大程度上影响其长远发展。相反,如果教师适当减少评价和激励,反而可以激发学生的内在成就动机,培养其自我评价、监控与发展的能力。
因此,评价很重要,但也要适度。“好雨知时节,当春乃发生”,只有评价做到适时、适量,且科学有效,才能更好地发挥其导向、激励、诊断和发展的积极功用,促进教与学的改进,也服务于学生的成长。