完善新高考学业水平等级考试赋分方案的三种策略

作者介绍

杨志明/湖南师范大学测评研究中心主任、外国语学院教授,ETS Assessments(Beijing)顾问,(美国)教育考评局(ERB)原技术总监,香港中文大学博士。

【摘 要】 高考新方案中学业水平等级考试的赋分方案备受争议,因为方案实施后选考物理等较难学科的中上水平考生因“高手对决”得了低分,而选考较易学科的考生因“矮子里面拔将军”获得了高分,导致高考总分排序出现了问题。本文根据国际考试行业的成功经验和我国的实际情况,为完善赋分方案提出了“理想方案”和“满意方案”,讨论了一些“无奈方案”,期待这些讨论能为正在制定高考新方案的有关省市带来新的视角。

【关键词】 高考;学业水平考试;赋分方法

2014年9月颁布的《国务院关于深化考试招生制度改革的实施意见》(以下简称《实施意见》)明确提出,要“改革招生录取机制,探索基于统一高考和高中学业水平考试、参考综合素质评价的多元录取机制”,并在赋予学生“选学选考自由”的权利、克服“一考定终身”的弊端、实现“由选分为主到选人为主”的招生模式等方面提出了殷切期待。从社会经济发展对人才素质的要求等方面来看,《实施意见》是完全顺应时代发展方向的一项重大举措。然而,“好马还需配好鞍”,一项政策的实施效果往往受制于许多因素,如思想观念、公平机制、技术手段等,其中任何一个环节出现问题都可能造成严重的负面影响。从浙江、上海两地的试点情况来看,“技术环节”的一些不足直接导致了“选考物理的学生人数大幅度下降”[1][2],以及“选学自由被'田忌赛马’规则所左右”[3]等非常棘手的问题。从已经公布的6省市高考综合改革方案来看,大家的问题解决思路基本局限在“限制选择”等政策调整方面,技术方面的问题解决力度明显不够[4][5][6][7][8]。比如,目前所设计的一些“保障机制”[9][10]就很可能演变成一系列“防不胜防”的麻烦。其实,“赋分方案”好比是一辆汽车的“发动机”,汽车设计得再好,如果发动机质量存在先天缺陷,整台汽车的质量就会大打折扣。为了完善高考改革新方案,很有必要把“赋分方案”这台“发动机”设计到尽可能地令人满意。为此,本文从教育测量学的理论与应用角度,为完善高中学业水平等级考试赋分方案,设计了“理想方案”和“满意方案”,并讨论了一些“无奈方案”,期待可以为其他正在准备实施高考新方案的省(区、市)提供一些参考。

一、学业水平等级考试赋分方案存在的问题

高考新方案的一个亮点是赋予了学生选考的自由,即语文、数学和外语为必考科目,其他3门可以从政治、历史、地理、物理、化学、生物6门或7门(含信息技术)科目中任选。其中,必考科目主要为全国统一命题,其他科目为分省(市)命题,统考之外的科目成绩来自高中学业水平等级考试。不过,目前的学业水平等级考试赋分规则值得进一步完善。教育部在《关于普通高中学业水平考试的实施意见》[11]中规定,“计入高校招生录取总成绩的学业水平考试3个科目成绩以等级呈现,其他科目一般以'合格、不合格’呈现。以等级呈现成绩的一般分为五个等级,位次由高到低为A、B、C、D、E。原则上各省(区、市)各等级人数所占比例依次为:A等级15%,B等级30%,C等级30%,D、E等级共25%。E等级为不合格,具体比例由各省(区、市)根据基本教学质量要求和命题情况等确定”。根据这个规定,目前出台的6省市高考综合改革赋分方案设计了如表1所示的具体赋分规则(海南省使用标准分,本文不做讨论)。

表1 目前出台的部分省市学业水平等级考试赋分规则

十分遗憾的是,这些赋分规则存在着一些问题,因为在“选考自由”的情况下,这些规则会直接导致很多考生的等级分数被严重低估或高估。也就是说,一旦发生大量低水平考生弃考的情况(如物理),选考群体的原始得分分布必定会呈极端负偏态,这时,很多中上水平考生的等级分数就会比应有水平低估很多;一旦出现大多数高水平考生没有选考的情况(如浙江省的信息技术学科),选考群体的原始得分分布必定会呈极端正偏态,这时很多中下水平考生的等级分数就会比应有水平高估很多。有大数据模拟研究发现,只要某门学科的竞争对手很强并且低水平考生大规模弃考,很多实质上水平不错的考生(约66%)就必定会获得比自己应有水平更低的分数(最不幸者会少得6分);只要某门学科的竞争对手不强并且大多数高水平考生没有选考,很多实质上水平不高的考生(约84%)就必定会获得比自己应有水平更高的分数(最幸运者可多得6分)。[12]于是,一个中等水平的考生,一旦他选考了很多低水平考生弃考的,而且一流高校招生又强行要求的较难学科(比如物理),则很可能会比应有水平少拿6分;若他选考了大部分高水平考生看不上的,而且一流高校招生也可以使用的较易学科(比如信息技术),则很可能会比应有水平多得6分。这样一反一复,一个中等水平考生的“选考决策”会直接导致高考总分少拿12分左右的严重后果。特别地,当这种“低估或高估”现象在试点过程中被大家亲身感受之后,选学选考过程中的“田忌赛马”行为就变得更加严重,这就极大地增加了社会治理成本。

更为不妙的是,由于“避难就易”是人的天性,所以选学物理等较难学科的人数一定会更少。这种现象即使在国家或高校大力鼓励学生选学物理等学科的情况下也无法杜绝。比如,美国的高考是高度自由选择的,学生在9~12年级期间,每年都有12次机会(6次SAT和6次ACT)参加任何一门学科或SAT-I的高考。令人吃惊的是,美国的高中生仅有16%的人对较难学科STEM(科学、技术、工程和数学)相关的职业感兴趣[13],这还是在美国政府和许多高校从招生到助学贷款等方面给出许多实质性优惠政策,大力鼓励学生选学STEM项目的情况下发生的。于是,“避难就易”的人性特点叠加上“田忌赛马”的游戏规则,直接导致了选学选考物理学科人数大幅度下降等一系列问题。

为了解决物理等学科出现的大规模弃考等问题,试点省市推出了等级分数计算过程中的“保障机制”。比如,浙江省规定,当物理考生人数低于6.5万人时,各等级分数的人数比例按分母为6.5万人由高到低计算(上海市为1.5万)。十分遗憾的是,这种保障机制存在着很多隐患。比如,除了物理学科,其他学科是否也需要设置保障机制?这个保障基数为什么是6.5万而不是7万或8万?不同省市的保障机制该如何设定?假若全省只有6500人参加物理考试,则无论大家的物理知识和能力水平如何,任何选考了物理学科的学生闭着眼睛也可以获得91分以上的成绩(按照浙江省的赋分规则)。假若真的出现这种情况,其他没有选考物理的考生是否会特别委屈?这种保障机制是在消除“田忌赛马”投机行为,还是在迫使大家更加仔细地去琢磨谁可能是自己的竞争对手?显然,目前设置的保障机制可能带来意想不到的麻烦。

实际上,高中学业水平等级考试赋分问题的解决还需要有测量技术手段的强力支持,简单的行政命令或维稳措施是不可能消除“田忌赛马”行为的。这就好比一辆汽车,一旦其发动机在设计上出了问题,要想依靠调整汽车外形或内部装修等手段来解决问题显然是不可能的。目前一些省市因为遇到分数转换等难题而推出的“限考一次”等规定,显然属于政策调整,其问题的完全解决还需要依靠教育测量科学等方面的手段。

二、完善高中学业水平等级考试赋分的“理想方案”

从教育测量的理论与应用角度看,根治“低估或高估等级分数”和“田忌赛马”问题的理想方案是采用“标准设定”(standard setting)与“测验等值”(test equating)相结合的解决方法。[4]也就是说,各选考科目首次考试成绩要进行等级标准设定,以后每年要精心选择一个测验等值样本,通过测验等值的办法推算每个科目、每次考试的水平等级线。具体来说,该方案包括“标杆试卷的研发”“学业标准的设定”“分数常模的研制”以及“测验等值的实现”4项内容。[5]简单地说,规避学业水平等级考试赋分方案风险的理想方案是“固定标准 年年等值”。其具体操作技术需要由相关的专业团队来完成。

事实上,我国目前遇到的问题在20世纪30~40年代美国推行高考(SAT)选考自由机制时也同样存在。比较幸运的是,他们在经过3年左右的混乱之后,通过“固定标准与年年等值”相结合的办法,在1941年就把问题解决了。他们在1941年设定好高考标杆和标准之后,不再每年每次更新标准,而是长期使用同样的标准(1941—1990),所有新测验都被通过类似于美元与人民币兑换的测验等值方式,把卷面分数转换成标杆试卷刻度系统上的分数(量表分数)。广东省当年的高考标准分制度本来效果不错,可惜其具体操作过程中所采用的“年年设定新标准”而不是“固定标准 年年等值”的思路,在遇到学生具有选考自由的情况下(“3 X”高考方案),直接造成了“低估高水平学生成绩”的严重后果。这种“缺失标准和缺失等值”的“伪标准分”制度最终被广东省所抛弃。

有评论说[8],“固定标准 年年等值”的赋分方案“是理论上最为完美的解决方案,是最与世界接轨的思路与做法,也是国外很多著名考试项目的常规做法”。不过,不少人对这个方案表示担忧,认为“老百姓可能不会接受等值分数”。比如,有学者指出,“我国的考情和欧美一些发达国家大不一样,他们很多成熟有效的做法在我国未必可行。如每次考试都要组织动机相似的考生样本组进行保密的额外测试和数据分析等值等工作,不仅在我国由于操作可行性原因难以实施,从理论上看,我国高考和西方以选择题等客观性题目为主的考试形式不同,大量内容是难以定量分析的主观性试题,更有满分达60分之多的写作等大型主观题,也会提出更多的技术挑战”[8]

诚然,我国国情的特殊性的确会造成一定困难,但这些困难也是有办法被克服的。比如,关于我国高考中主观题题量大的问题,如果采用代表性样本基础上的等值“等组设计”(equivalent group design),配合“线性等值”(linear equating)或“等百分位等值”(equipercentile equating)技术,就不会成为问题。关于“等值样本应考动机不强”和保密等问题,也可以通过“外锚设计”配合一定的优惠政策等办法得到解决。当然,具体的等值操作过程需要有一批经过专门训练的测量分析专家(psychometrician),这就需要转变各省(区、市)考试机构的职能,变单纯的管理部门为考试专业服务机构,通过培训和招募专业人才等办法,提升测验命题和测量分析的水平。在美国的考试行业一直流行这样一个“潜规则”:如果舍不得花大价钱聘用高水平的测验命题和测量分析专家,就不得不花费大价钱聘用高水平的律师去帮测评机构打官司。两种人才尽管都是为测评机构“消灾解难”服务的,但管理的层次却差别很大。显然,这个规则在我国同样很有参考价值,如果大家舍不得花大力气建设好各省市的测评机构,就一定会为后续的社会维稳等工作付出较高成本。事实上,在海外所有专业性考试机构中,测验等值等心理计量学的工作一般由测量学家(psychometrcian)和统计分析师(statistician)组成的专业团队合作完成,他们大多具有心理计量学(psychometrics)、统计学和数学等相关专业的博士学位,并有过3年以上的实战经验。这些做法值得各级考试机构参考。

三、完善高中学业水平等级考试赋分的“满意方案”

由于各级考试机构大多缺乏测验等值的专业团队,老百姓也不太明白什么是等值分数,因此,直接使用国际考试行业通行做法的时机尚不成熟。为此,建议暂时放弃“理想方案”中的“测验等值”,尝试使用另一种方案,即保留各省(区、市)目前推出的赋分规则,但在确定各科等级分数时,“以全省(区、市)的代表性样本为参照”。因为根据代表性样本所确定的等级分数,不会受到选考群体的得分分布为极端正偏态或极端负偏态的影响。这个方案尽管不能保障每次考试的分数是等值的,但可以避免“田忌赛马”行为所造成的分数被低估或高估等问题,因此,这个方案可以称之为“满意方案”。

实施“满意方案”的步骤十分简单。第一步,根据历年的高考数据确定全省(区、市)代表性样本的构成方式。其中最重要的两个变量是:在理科综合(含物理、化学、生物)或文科综合(政治、历史、地理)考试中,全省各地、州、市历年的考生比例均值(用变量D表示),以及示范性高中与普通高中历年的考生比例均值(用变量K表示);第二步,按照原有模式举行学业水平等级考试,不改变现行考试的所有做法;第三步,从全省(区、市)选考群体中通过控制变量D和K的方式,随机选取100个代表性样本(也可以是1000个代表性样本等);第四步,对每个代表性样本按照各省(区、市)现行赋分规则确定等级分数线(如5等21级),再求取这些分数线在100个或更多个代表性样本上所得等级分数线的均值,这些均值即为全省(区、市)该学科的“原始分数与等级分数的转换关系”(年度学科常模);第五步,根据“年度学科常模”,把所有考生在对应学科上的原始分数转换为等级分数。其他工作与常规步骤完全一致。

根据大数据模拟研究的结果,使用代表性样本确定等级分数线的方案,无论考生群体是特别优秀的还是优秀学生特别少的,其原始分数经过“年度学科常模”转化之后的等级分数,都与“没有选考自由”情况下很多考生参加考试时的分数非常相似,没有考生的等级分数会被低估,但约有5.98%的中等水平考生可以多得3分。这与“大约66%的中上水平考生成绩被低估”和“大约84%的中下水平考生成绩被高估”的局面完全不同。[12]可以说,“田忌赛马”无法获得明显好处。这时,只要明确高校招生工作中对物理等学科的要求,选考物理学科的学生人数一定可以得到有力的保障。不过,只要存在选考的自由,选考物理等较难学科的人数一定会有所下降,但使用“满意方案”后不会因为赋分规则的不合理而加剧这种下降。

使用“满意方案”的最大好处是,不需要对现行赋分规则做调整,仅仅需要在确定等级分数线的时候增加一个前提条件——用代表性样本确定等级分数线,“田忌赛马”难题就可以得到根治。由此,中学选课走班制的试行、高考招生工作中管理成本的降低等,都有了期许。

四、完善高中学业水平等级考试赋分的“无奈方案”

为了完善学业水平等级考试的赋分方案,许多专家提出了自己的解决方案,其中,“使用标准分”“使用原始分”和“将语、数、外考试作为锚测验去预测物理等学科等级分数”这3种思路影响最大。其实,这些方案各自存在着一些不足,可以被统一归纳为“无奈方案”。

关于“使用标准分”方案,该方案的前提条件是“标准设定或常模研发与分数等值相结合”“测验的原始得分分布基本上呈正态分布”,缺乏其中任何一个环节的标准分方案都属于“伪标准分”方案。这是因为,一方面,一旦选考群体为高水平群体(如浙江省的物理考生),则注定会出现原始分数的极端负偏态分布的局面(图1)。这时,无论使用何种方法计算标准分(公式方法、百分位等级化方法、正态化方法等),由原始分所转换过来的任何标准分数都是不恰当的,因为会有相当多的中上水平考生的标准分数变得比应有的分数更低。

图1 大量低水平考生弃考物理等较难学科时的负偏态分布

另一方面,一旦发生大家只能在物理和信息技术两科中选考一门的情况,优秀学生为了报考“985”和“211”等高水平学校,必定会选考物理。于是,选考信息技术的考生群体中的“高手”很可能会变得较少,考生原始得分分布很可能会是极端的正偏态分布(图2)。因此,这种情况下的“伪标准分”一定会把很多中下水平的考生成绩推高,造成另一种不公平的结果。广东省当年试行了几十年的高考标准分制度,在遇到“3 X”方案时,就因为物理选考群体主要由“尖子”学生构成,导致了许多物理高水平学生的标准分数被严重低估。

图2 大量高水平考生没有选考较易学科时的正偏态分布

关于使用原始分数,这种方案也是一种无奈的倒退。这种倒退还特别久远,因为这与持续了1300多年的科举考试赋分方法基本一致。其中的问题或后果已经有大量研究报告,此处不再进行讨论。不过,使用原始分数也有一个好处,即没有“3分一跳”的麻烦,老百姓认为这个分数很“公平”。其实,“3分一跳”的麻烦若采用“山东方案”也是可以解决的,前提是命题水平要足够高,不能出现很多高手都得同一个分数的局面,否则,谁也没有办法把学生区分开来。

关于“将语、数、外考试作为锚测验去预测物理等学科等级分数”的方案,它在现代考试科学面前是属于一种特别没有底气的办法。因为语、数、外与物理等学科的成绩之间仅仅具有一定的正相关关系,用语、数、外成绩来预测物理等学科的等级分数,不仅计算过程复杂,而且误差特别大,并具有明显的“混淆相关关系与因果关系”痕迹,这个办法实在是自找麻烦的无奈方案。

总之,高中学业水平等级考试的赋分方案存在着明显缺陷。这个问题如果放任自流,必定会带来重大负面影响,甚至造成“播下龙种收获跳蚤”的后果。本文所归纳的“理想方案”“满意方案”和“无奈方案”可以粗略地看作是问题解决的上、中、下三策,期待能为正在制定赋分规则的有关部门带来一些启发。当然,除了上述3类方案,可能还有其他更合适的方案。无论何种方案,希望有关部门能组织考试科学方面的专业团队,结合本省(区、市)自身的特点进行攻关和试点,尽早把这个隐患消除在没有发生之前,使得新高考这台“高档汽车”能够尽早配上高质量的“发动机”,安全、平稳和高效地行驶在改革大道之上。

参考文献

[1]熊丙奇.浙沪新高考改革试点,我们试得怎么样?[EB/OL].(2017-08-16)[2017-12-10].http://www.sohu.com/a/165029675_567589.

[2]朱邦芬.为什么浙江省选考物理人数大幅下降值得担忧[EB/OL][.2018-11-10].http://cul.qq.com/a/20171024/013215.htm.

[3]浙江省教育厅办公室.关于纠正部分普通高中学校违背教育规律和教学要求错误做法的通知(浙教办基〔2016〕97号)[EB/OL][.2018-11-10].http://www.zjedu.gov.cn/news/147737035226665750.html.

[4]杨志明.学业水平考试成绩等级化中的风险及其规避办法[J].教育测量与评价,2015(9):62-64.

[5]杨志明.做好高中学业水平考试所必需的四项测量学准备[J].中国考试,2017,297(1):8-13.

[6]新高考改革研究课题组.沪浙新高考改革4年效果如何?等级赋分技术待改进[EB/OL](.2018-07-13)[2018-09-10].http://cnews.chinadaily.com.cn/2018-07/13/content_36566407.htm.

[7]温忠麟.新高考选考科目计分方式探讨[J].中国考试,2017(12):23-29.

[8]于涵,韩宁,关丹丹,等.关于改进新高考选考科目赋分方案的若干思考[J].中国高等教育研究,2018(6):44-49.

[9]浙江省教育考试院.浙江:深化高考综合改革试点相关政策解读 [EB/OL](.2017-11-30)[2018-09-10].http://www.moe.edu.cn/jyb_zwfw/zwfw_gdfw/gdfw_zjs/201711/t20171130_320254.html.

[10]上海市人民政府《.关于进一步深化本市高考综合改革试点工作的若干意见》政策解读[EB/OL].(2018-04-03)[2018-09-10].http://www.shanghai.gov.cn/nw2/nw2 314/nw2319/nw12344/u26aw55501.html.

[11]教育部.关于普通高中学业水平考试的实施意见(教基二〔2014〕10号)[EB/OL](.2014-12-10).http://old.moe.gov.cn//publicfiles/business/htmlfiles/moe/s4559/2014 12/181664.html.

[12]Yang,Z.Big Data-Based Norming for Academic Proficiency Tests in China[R/OL].Keynote Speech at the Annual Conference of the Chinese American Educational Research and Development(2018-04-12).https://www.caerda.org/2018_caerda_conference_nyc.php.

[13]U.S.Department of Education.Science,Technology,Engineering and Math:Education for Global Leadership[EB/OL][.2018-10-20].https://www.ed.gov/Stem.

(0)

相关推荐