美国用这7种模型测量学生“成长”
背景
2015年,经过美国参众两院讨论,最终通过了新的教育改革法案——《每一个学生都成功法案》(Every Student Succeeds Act,ESSA),12月10日,奥巴马总统正式签署该法案。这意味着,美国的教育改革进入一个新的阶段。
《每一个学生都成功法案》于2018年正式实行,各州在贯彻执行过程中,通过对学生成绩进步进行评估,对教师、学校和学区进行评价和问责。
在过去的几十年中,美国教育理念从“达标”发展到“达标+成长”。
这里所用的成长模型(growth model)的评估对象是在校学生,评估的内容是学习成果,既评估学生学习成果随时间的变化,也评估学生在特定群体(全班、全校、全学区、全州、全国)中相对位置的变化。
在美国教育体系中,常用的成长测量模型有7种,可以分为基于纵向量表的模型、预测模型和增值模型3类。美国各州根据使用目的和成绩解释框架,选用不同的成长测量模型。
1)增分(gain score)模型。这种模型是计算2次测试的差异,用后一次测试的分数减去前一次测试的分数,二者之差就是成长指标。由于这种方法简便、直观、容易理解,因此使用非常广泛,常常会伴随其他方法同时使用,是“渐进达标模型”的基础。
2)渐进达标(trajectory)模型。这种模型根据最初2年的增分幅度,确定今后每年的进步值,最终达到预期的成长目标。采用此模型的主要有阿拉斯加州、亚利桑那州、阿肯色州、北卡罗来纳州、佛罗里达州、康涅狄格州、缅因州、明尼苏达州等。
3)分类(categorical)模型。主要看跨年级成绩等级的变化,比如美国全国教育进步评估项目(National Assessment of Educational Progress,NAEP)的测试结果划分为低于基本要求(below basic)、达到基本要求(basic)、达标(proficient)和优秀(advanced)4个等级。如果一个学生从“达到基本要求”上升到“达标”,就有进步。分类模型对等级划分有很高的要求,等级标准的制定也是一个很复杂、很严密的过程。采用这种模型的主要有德里瓦尔州、衣阿华州等。
4)残差(the residual gain)模型。这是一种最容易理解的回归方法,只能应用于连续数据,不适用于及格/不及格的二分计分方法,也不适用于A、B、C、D的等级计分方法。残差模型的基本计算方法是:在2年的年级成绩之间建立线性回归方程,根据回归方程和某学生上一年的成绩,计算出该学生今年的预期成绩,然后计算该学生预期成绩与实际成绩之间的“残差”。如果实际成绩高于预期成绩,该学生就取得了比较满意的“成长”;相反,则“成长”的情况不理想。在实际的操作中,通常会将残差进行标准化处理,处理的方法是进行残差百分等级排列(percentile rank of residual,PRR)。
5)学生成长百分等级(student growth percentile,SGP)模型。2009 年,达米安·比特本纳(Damien Betebeener)开发了基于R语言的SGP数据处理软件——Quantile。借助 Quantile软件,学生当年的成绩与在前一年测试中获得相同成绩的群体进行比较,计算出其在这一与自己相近水平群体中的百分等级,即在1~99百分等级序列中所处位置。如果百分等级高于50,就显示这个学生一年来有所“成长”;如果百分等级低于50,就显示这个学生的“成长”效果不理想。SGP模型也被称为正态模型(normative model),因为这个模型假设与考生第一年分数相同的群体在第二年所得分数呈正态分布。
6)投射(projection)模型,也称为预测(prediction)模型和回归(regression)模型。在投射模型回归方程的建立中,采用尽可能多的历史数据和追踪数据来建立尽可能可靠、有效的回归方程,通常不仅仅采用2年的数据,而是采用多年的追踪数据,通过尽可能多的预测源和预测变量来建立回归方程。例如,如果有证据表明数学成绩可以增加对物理成绩的预测准确性,就可以将数学成绩作为一种预测源包含进回归方程。
7)增值模型
增值模型,又称为多变量(multivariate)模型、教育增值评估系统(Education Value-Added Assessment System,EVAAS)、田纳西增值评估系统(Tennessee Value-Added Assessment System,TVAAS)、变量保持(Variable Persistence)模型,等等。在增值模型中,不仅包含测试分数,而且包含多种变量。增值模型不仅描述学生的成长状况,而且分析影响学生成长的原因。在一些州,增值模型不仅用于学生评估,而且用于教师、学校和学区评估,甚至被用于决定教师的奖金和聘用。最常用的增值计算工具是EVAAS软件系统,其次是层级线性和非线性模型(Hierarchical Linear and Nonlinear Modeling,HLM)。采用增值模型的主要有田纳西州、宾夕法尼亚州、俄亥俄州等。
由于增值模型被用于对教师、校长、学校的评价以至决定奖惩,近年来许多专家学者呼吁慎重使用增值评估。
结语
上述7种模型并无简单的好坏优劣之分,各有长处和不足,使用方法的简单比较见表2。对于不同的模型,可以对评估结果作出不同的解释。至于选择哪种模型,要考虑分数解释的不同需要。
在上述7种成长模型之外,教育问责中还会采用一些其他的评估指标,包括:
1)参加考试的学生比率;
2)考试平均分或熟练掌握比率;
3)学生平均出勤率;
4)高中学生毕业率;
5)7~12年级的辍学率;
6)学生和家长对学校教师的满意程度;
7)教师流失率;等等。
2018年3月16日,教育部部长陈宝生在“两会”教育问题专题记者招待会上回答记者的提问时说:“要改变评价方式,完善学业考试办法,建立素质综合评价制度,不允许以分数高低对学生排名”“这次高考改革之后,高中阶段对学生的考核,增加了综合素质评价这样一个内容。这是非常明显的素质教育措施”。
美国基础教育评估从“达标模型”到“达标+成长模型”的发展变化,从幼儿园到高中教育中所采用的7种主要的成长评估模型,可以为我国改进和完善基础教育的综合素质评价带来一些启发,值得我们思考和借鉴。
*本文删改编辑自“中国考试”《美国学校“成长测量”的7种主要方法》