会议综述|“形成性评价的理论与实践”分论坛综述

发布时间：2020-04-01浏览次数：815

形成性评价作为促进学习的一种有效方法，受到了广泛的关注和探索，其使用者通过不断的发问、技巧性的探究以及有效的反馈去掌握学生的学习过程，并指导自己的教学实践。形成性评价以学生为中心，能够有效地指导教学决策，服务学生学习。

2019年10月26-27日，由北京大学中国教育财政科学研究所、中国教育发展战略学会教育财政专业委员会联合主办，北京化工大学经济管理学院承办的“第五届中国教育财政学术研讨会暨2019年中国教育发展战略学会教育财政专业委员会年会”在北京化工大学昌平校区举办。在27日上午举行的“形成性评价的理论与实践”分论坛上，相关领域研究者就“形成性评价的实践研究”和“形成性评价的技术探讨”两个主题分享了近期研究成果，并展开了讨论。

一、形成性评价的实践研究

浙江师范大学教师教育学院李菲茗教授以自己近期的实证研究为例，展示了形成性评价如何与STEM课堂教学进行融合。李菲茗教授认为形成性评价的核心内涵在于融入（融入学生日常学习和教师日常授课）和反馈。而STEM教育具有以素质教育为目标、跨学科性、过程性的特征，因此与形成性评价非常契合。李菲茗教授以《替代能源解决方案和风力涡轮机挑战》课程为例，介绍了如何在课程的各个阶段设计相关的测试和问卷，实现对教学过程的形成性评价。

浙江师范大学教师教育学院陈殿兵老师介绍了他通过教育行动研究，实践以改善学生学习效果为目的的过程性评价方法。陈殿兵老师认为，应将任务驱动作为形成性评价的基本手段；在学习过程中，学生在教师的引导下，紧紧围绕一个共同的任务活动中心，在强烈的问题动机的驱动下，通过对学习资源的积极主动应用，进行自主探索和互动协作的学习。小组合作学习应作为过程性评价的重要形式，同时学生应当被纳入到评价主体中，通过学生间的点评、自评、互评活动，使学生从中得到参与感、成就感、获得感。过程性评价中的评价标准应由教师主导，且具有导向性和可预测性。

中国教育智库联盟教育测量与评价研究中心常务副主任、中国教育技术协会教育测量与评价专业委员会理事刘歌介绍了其团队开发的综合素质评价平台系统，该系统包括指标体系、记录和赋分管理等多个模块，可以对学生、教学、管理等方面提供指导和帮助。

北京大学中国教育财政科学研究所科研助理关可心介绍了教育实践中进行形成性评价的七大技巧。教学过程中形成性评价的七大技巧包括：（1）启动：让学生做好准备。（2）提出精准的问题：给予只理解表面知识的学生深入思考的机会。（3）提问中的停顿：在停顿时间可以安排小组讨论和头脑风暴。（4）探究学生们给出的答案：根据学生的回答提出后续问题，帮助搜集更多证据，决定教学方法。（5）课堂上的互动提问：包括提问—回答式以及提问—轮流发言两种方式，以鼓励小组发言。这样可以系统地对学生的反应进行抽样，了解学生的反馈，从而促进教学。（6）做标记：对学生给出的所有答案做标签可以帮助扩大答案的范畴，分析学生理解问题的思路和程度。（7）打包：对标记好的答案进行分类。通常老师习惯对学生的答案按照对错与否进行分类，从而更加关心正确答案，但错误答案也对教学有重要意义。

二、形成性评价的技术探讨

江西师范大学心理学院涂冬波教授报告了新开发的Dual-CAT（双目的计算机化自适应测试）选题策略及其效果。心理与教育测量中的两大类模型分别对应着终结性评价和形成性评价，即项目反应理论（IRT）对应终结性评估，从宏观角度考察学生；认知诊断理论（CD）对应形成性评价，从微观角度考察学生的认知结构。已有研究已尝试将两类模型与计算机化自适应测试（CAT）结合，从而实现既可以评估学生宏观能力，又能考察学生微观认知结构的双目的CAT（Dual-Objective CAT），但目前Dual-CAT的选题策略存在难以兼顾估计精度和题库均匀性、测试效率不高等问题。基于此，涂冬波教授首先提出了基于基尼系数指标的Dual-CAT选题策略，该选题策略可以同时基于α和θ进行选题，模拟研究表明，相对常见的ASI、DWI、JSD方法，基于基尼系数的选题策略对于α和θ的估计精度都较好，在题目使用均匀性上也较好，总体来看该方法综合表现最优。其次，提出了在HO—CDMs下的Dual-CAT选题策略，即HO-KL类算法，模拟研究结果表明HO-KL类算法在能力和属性掌握模式估计精度、题库使用均匀性上都表现较好。

北京师范大学心理学部副教授骆方介绍了人机交互式的科学探究能力评估方法。骆方老师认为目前常见的人机交互式的科学探究能力评估方式包括计算机交互式测评、基于情景的交互式测评、形成性测评和虚拟环境表现性测评。骆方老师分别以PISA、CBAL、SimScientists测验中的部分题目为例，展示了四种评价方式，并具体分析了这些方式的特点。总体而言，骆方老师认为随着这些评价方式的情景真实性提高，对无关刺激控制难度会提高，使得对特定能力的测量容易混淆无关因素，从而降低测量的有效性；但是更加真实的情景更能考察学生解决真实问题的能力，以及复合式、高阶的思维能力。而目前我国国家教育质量监测中的科学素养测评将主要采用计算机交互式测评和基于情景的交互式测评这两种方式。

中山大学心理学系副教授陈劲松介绍了如何将贝叶斯正则化应用于项目反应模型。他认为诊断性评估属于形成性评价的一种，可以给学生提供更加详细的诊断信息，而多维项目反应理论作为与认知诊断非常相近的评价模型，在应用于过程性评价中有两个问题需要解决：内部多维性和局部独立性。传统的解决方法是事后修正调整，但这种方法受题目数量影响较大，且统计假设只能在嵌套模型里依次检验，是次优解。而贝叶斯正则化方法有着更稳定的标准误，并且能够同时估计调优参数（tuning parameters）和其他参数，是更有效的解决方法。随后陈教授详细给出了贝叶斯正则化方法与多维项目反应理论结合的公式推导和技术细节，并用模拟研究的方法证明该技术的可用性。

北京大学中国教育财政科学研究所科研助理刘舒畅介绍了基于文本分析的课堂情感氛围测量。目前课堂情感氛围的测量主要是问卷法和基于CLASS系统的观察法，但是采用问卷法测量课堂情感氛围存在内容偏差问题；而CLASS评分系统存在易受主观因素影响、耗时耗力等问题。基于此，尝试使用基于文本分析的方法测量课堂情感氛围，并与CLASS分数进行对比验证效度。结果表明，对于中等积极氛围组，CLASS分数与文本分析结果存在显著相关；对于高积极氛围组，无显著相关。可能原因是更高的课堂积极氛围不仅仅体现在课堂语言上，还体现在教师表情、动作、眼神、师生互动等，语言只占其中一部分，但这些信息无法通过文本分析体现。

浙江师范大学教师教育学院讲师詹沛达介绍了面向精细化学习追踪的纵向概率态认知诊断模型。詹沛达老师认为原有认知诊断测验只有0-1结果（即掌握或未掌握某项能力），这种结果过于粗糙。此外，形成性评价需要对纵向过程数据进行处理，因此如何实现更为精细化的追踪诊断成为此研究的主要议题。詹沛达老师结合之前开发的具有纵向诊断数据分析功能的Long-DINA模型和具有精细化诊断功能的HO-PINC模型，提出了纵向高阶概率性输入噪音连接(Long-PINC)模型。研究结果表明，Long-PINC的参数返真性较好，并且Long-PINC不仅保留了认知诊断功能，同时能够比Long-DINA提供更精细化的学习诊断和追踪。

三、点评与讨论

针对上述主题发言，《中小学管理》杂志社社长柴纯青和教育部考试中心副处长张卫分别进行了点评。点评专家认为当前我们面临着评价焦虑，其原因在于科学的评价太少了。另外，在评价实践中，存在着评价技术发展与社会理解不匹配的矛盾，因此我们的任务不仅仅是用数据来为决策提供咨询，同时也需要向大众普及科学评价的知识。形成性评价作为一种重要的评价形式，应该更好地服务于促进学生的发展，服务于学生对个性化教学的需要。

【信息来源：中国教育财政校对：郭艳玲审核：时华伟】