教育评价新趋向:智能化测评研究综述

时间:2021-11-03浏览:2209

摘要

教育评价改革在我国受到了前所未有的重视,然而受限于传统测评手段,个性化评价和过程性评价难以得到有效实现,教育评价改革需要新型的测评技术作为支撑。计算机技术与人工智能的发展为测评领域注入了新的活力,推动了智能化测评的产生,为我国教育评价改革提供了新的解决方案。目前,智能化测评已经在学生能力和知识水平评估、人格与心理健康评估以及教学过程评估等方面取得进展:(1)学生能力和知识水平评估突破纸笔测验的局限,转向过程性评价、综合能力评价和动态性评价;(2)人格与心理健康评估摆脱了对自陈量表法的依赖,依据多模态数据有望实现无痕式和伴随式评估;(3)智能分析技术助力教学反馈,使教学过程评估更加直接、便捷和精准。智能化测评对教育评价改革起到了重要促进作用,但在多模态数据应用、模型的针对性、精细化、准确性与可解释性以及信效度检验等多个方面仍然存在问题。后续需探索多模态数据的协同分析,在权衡模型的准确性和可解释性基础上,提高模型的针对性和精细化,打通信息科学与测评领域的学科壁垒,确保模型可实用、可泛化和可扩展。

关键词:教育评价;人工智能;智能化测评;研究进展;问题剖析

1引言

教育评价新趋向:智能化测评研究综述

教育评价是教育活动中至关重要的一部分,是教育活动的“指挥棒”,直接影响着教育活动的开展。当前教育评价改革在我国受到了前所未有的重视,中共中央、国务院印发的《深化新时代教育评价改革总体方案》从学校、教师、学生多个方面对我国教育评价改革提出了新的要求。然而传统教育评价方法已无法满足我国教育评价的需求,也无法为我国教育评价改革提供有效的支持。人们期望采用更可靠、更高效、更智能的手段整合多维度、多层次的信息,制定更具准确性和解释性的测评方案,来推动教育评价改革顺利开展。

随着计算机、互联网的普及和人工智能技术的发展,智能化技术在教育评价领域的应用及研究已初步展开,人工智能和教育测量研究的相互渗透催生了智能化测评这一新兴领域。智能化测评将人工智能领域新兴技术应用于能力评估、人格评估、课程风险评估、学习过程评估等评价任务中,不仅提高了评估的效率和准确性,有助于实现过程性评价和个性化评价,而且能够整合多维度信息对学生个体进行全面评估,这对于解决教育评价难题和推进我国智能化教育发展具有重要意义。本文将对智能化测评领域的应用场景与研究进展进行系统梳理,并对其存在的问题及未来的发展方向进行述评。

2智能化测评的应用场景与研究进展

教育评价新趋向:智能化测评研究综述

计算机技术与人工智能的发展为测评领域注入了新的活力,推动了智能化测评的产生,为我国教育评价改革提供了新的解决方案。通过对近年来智能化测评技术的研究进展进行系统的回顾、总结与深入剖析,可以看出智能化测评技术已应用于学生能力和知识水平评估、人格与心理健康评估以及教学过程评估三个方面,逐步实现了对传统测评手段的突破,对教育评价改革起到了重要促进作用。

1.学生能力和知识水平评估:突破纸笔测验的局限

传统测评关注对学生能力的终结式评价,将单一的考试成绩作为学生能力评价的标准,而忽视了对学生学习过程的评估。纸笔测验是传统测评中最常用的评估形式,施测成本低廉、评分易标准化,在知识类测验中具有较好的效果(Gobert et al.,2013),但在问题解决能力、批判性思维、创造性思维、科学探究技能等综合能力的测评中,往往具有较大的局限性(Gobert et al.,2013;Quellmalz et al.,2013)。同时,纸笔测验的题目脱离真实情境,难以考查学生在真实问题情境中的表现;且主观题评分依赖评分专家,评分周期长、成本高。不同于传统测评方法,智能化测评在过程性评价、综合能力评价、动态性评价上实现了突破。

(1)过程性评价

智能化测评更加关注测评的形成性功能,能够基于长期的学习过程性数据,对学生的特定学科知识与学科能力进行诊断与分析。例如,贝叶斯知识追踪技术的发展逐步形成了动态知识水平分析的解决方案(Piech et al.,2015),可以实现对学生学习过程的建模,动态分析学生在学习过程中能力的变化,为教学提供更有价值的信息。Zhao等(2017)在数学在线学习的场景中将认知诊断中Q矩阵先验知识引入到知识追踪技术中,建立了基于贝叶斯理论的可解释知识追踪模型,实时评估学生知识掌握状况,并对学生随后的作答情况进行预测。此外,也有研究者利用作答过程中的生理指标数据对学生的能力水平进行分析。例如,Rodrigo(2020)在编程教学过程中,使用学习者的眼动数据对学生的编程能力进行实时的诊断,并通过分析教师与学生在教学互动中学生编程能力的变化,对教师教学有效性与学生掌握情况进行系统评估。

(2)综合能力评价

在大规模的综合能力(问题解决能力、批判性思维、创造性思维、科学探究能力等)测评中,研究者们开始设计模拟式测评(Simulation-Based Assessment,SBA)与游戏式测评(Game-Based Assessment,GBA)等智能化测评。这些测评为学生提供了一个完整、真实且开放的问题情境,允许学生在任务情境中自由探索和表达(Gobert et al.,2013;Baker et al.,2016;Cui et al.,2019)。目前,许多国际大型教育监测项目已经广泛使用了这种测评方式,例如PISA  2015年开始大规模施行问题解决与科学探究能力的人机交互式测评。这些基于技术增强的新型测评不但更加贴合真实的问题情境(Quellmalz et al.,2013),同时也使作答过程更容易被记录和留存(Akpınar et al.,2014)。此外,尽管人机交互式测评的测试时间一般较短,但却能够从作答过程中获得丰富的与学生能力和人格特质相关的诊断信息(Gobert et al.,2013;Vista et al.,2016)。这些丰富的诊断信息往往以“Log File”的形式保存在计算机的根目录中,已经有许多研究者利用这些作答过程数据对学生知识与能力水平进行分析与诊断。例如,He等(2016)通过分析PIAAC信息素养测验(ICT)中被试的作答时间、题目跳转作答情况,采用聚类分析的方法将被试划分为不同的类别,探索了不同类型被试能力表现存在差异的原因;Baker等(2016)从哈佛大学教育学院开发的虚拟表现性测验(VPA)产生的过程性数据中提取了29个特征,采用决策树、分步回归的方法对学生作答过程数据进行建模,实时评价了学生的实验设计能力。

(3)动态性评价

采用人工智能的分析方法对测验结果进行自动评分,并将测评结果进行即时反馈,实现动态性评价,也是智能化测评的主要研究方向之一。针对作文的自动化评分就是一种动态性评价方式,不但能够减轻评分员的负担,增强分数报告的及时性,同时也可以增加评分的客观性并获得更细粒度的评阅信息。例如,辛涛等(2020)基于概念图的方法对作文文本进行处理,构建了作文文本主旨观点自动评价模型;付瑞吉(2020)使用自然语言处理技术构建了语法错误检测模型、论辩结构识别模型等,通过这些模型自动提取指定维度的作文特征,进而获取细分维度的作文评分。除作文之外,短文本作答的自动化评分也是教育评价近年来比较关注的研究问题(Burrows et al.,2015)。研究者采用不同的方法构建了短文本的自动化评分模型。例如,Madnani等(2017)对科学、数学、英语、艺术四门学科中的130道问题,共计230000个作答文本使用8种不同的监督学习方法构建了自动化评分模型;Cinar等(2020)针对土耳其学生在科学测验上的作答信息进行分词、赋权、特征提取,然后将筛选的特征作为输入,人工评分作为输出,构建了包括袋装法、自适应提升法、基尼系数算法、支持向量机、K-近邻算法等多个机器学习模型,并计算了其预测准确率(Cinar et al.,2020);Zhang等(2016)使用基于深度置信网络(Deep Belief Networks,DBN)的深度学习方法对大学物理知识作答文本进行自动化评分,并证明该方法具有比传统模型更高的准确率。

综合来看,智能化测评可以突破纸笔测验的局限性,可以实现对学习过程或作答过程数据的建模。高保真的测验场景与交互式的新型测评方法可以实现对学生综合素质更准确地评估。此外,智能化测评的自动化、高效性,能为师生提供实时的反馈,实现动态性评价。值得注意的是,从目前教育评价实践来看,纸笔测验仍然是最主要的学生能力测评方式,终结性的评估仍然在教育评价中占据主流地位。智能化测评在综合能力的测量中,无论是施测形式还是施测内容均与传统测量方法存在较大差异,测量结果往往与传统的知识类测验结果并不匹配,因而在实际的应用中还需要进行充分的对比研究,探索造成差异的原因并提出相对稳妥的改进方案。另外,新型测评产生的过程性数据具有丰富的诊断信息,当前虽然已经有了一些对过程性数据进行挖掘的探索性研究,但真正将过程性数据作为评估证据进行教学评价的研究仍然较少。智能化测评中针对主观题构建的自动评分模型提高了测评的效率,但这些模型的构建过程往往还属于一个“黑匣子”,人们对模型评分过程的信任度不高,其评分结果往往作为人工评分的校验手段。总体而言,智能化测评在学习与能力评估方面仍然处于发展探索阶段,需要进行更充分和系统的研究。

2.人格与心理健康评估:无痕式和伴随式评估

教育评价改革不仅要求对学生的能力素养进行全面评估,同时也关注学生的个性品质和心理健康。目前对学生个性品质(如人格、兴趣、动机等)和心理健康(如焦虑、抑郁、主观幸福感等)的评估主要采用自陈量表法。自陈量表向学生提供一系列客观问题,由学生本人根据实际情况报告自己是否具有某些典型的行为表现,最后根据量表得分评估学生的状况。自陈量表作答的有效性依赖于被试对题目的理解和作答态度。同时,自陈量表法难以短期内多次测量,无法及时有效地反映学生个性品质和心理健康的发展与变化。智能化测评突破了传统心理健康测评对自陈量表法的依赖。基于社交媒体与在线文本信息、可穿戴式传感器数据以及音视频数据等多模态数据,智能化测评通过人工智能分析方法,可以实现对学生人格与心理健康的无痕、伴随式评估。

(1)基于社交媒体与在线文本数据的智能化测评

社交媒体与在线文本数据中包含了大量的被试情绪情感信息,对人格与心理健康测评具有重要的价值。目前已有大量利用社交媒体与在线文本数据对人格与心理健康进行测评的研究,例如,利用小学生在教客网上的在线写作数据对小学生的羞怯特质进行预测(骆方等,2020;景丽萍,2020);利用推特中的社交媒体信息对个体的大五人格进行预测(Quercia et al.,2012);基于在线网络数据对个体与群体的成长轨迹、人格、态度、兴趣进行探索性的分析(孔仪,2019);基于微博分析比较不同生活满意度的用户在社交媒体中文本表达的差异(汪静莹等,2016)。这些研究证明了将社交媒体和在线文本数据用于人格与心理健康评估的潜力与可行性。

(2)基于生理数据的智能化测评

来自可穿戴智能设备、脑电设备收集的生理数据同样也被用于人格与心理健康测评中。例如,Muramatsu等(2016)基于学生学习过程中的眼动数据对学生的无聊与好奇情绪进行了评估;Faust等(2014)对脑电信号进行分解,采用t检验筛选抑郁症患者与正常人群之间具有显著差异的特征,并根据筛选出的特征构建机器学习分类器,发现利用左右半球大脑活动情况的最优预测准确率分别为0.982与0.995;Deng等(2019)采集高情绪障碍者和低情绪障碍者在观看不同情感类型影片过程中的脑电数据,采用支持向量机构建预测模型,达到0.952的准确度。也有研究者利用深度模型对脑电与智能设备采集的数据进行建模,实现人格与心理健康问题更精确的测量。比如,Ay等(2019)在脑电数据中运用循环神经网络识别抑郁症,模型在左右脑半球的准确率分别为0.935和0.960;随后,其采用长短时记忆网络(Long Short-Term Memory,LSTM)进行建模,将左右脑半球的准确率提升至0.977和0.971。

(3)基于音视频数据的智能化测评

音视频数据同样包含着丰富的能够反映个体内在心理特质的表现数据。例如,Whitehill等(2015)从视频中提取面部特征,并采用支持向量机对学生的学习投入程度进行分析,获得了较高的预测准确率;Zhao等(2019)对视频中个体在自然状态下的步态进行研究发现,3~5分钟的步态数据可以精准预测个体的情绪状态,模型准确率达到0.80以上;在焦虑与抑郁的心理问题预测任务中,模型预测结果与效标之间的相关分别为0.74与0.64。

综合来看,人格与心理健康的智能化测评中,不再以自陈量表作为评价的唯一依据,数据来源更加丰富,对社交媒体、音视频和生理数据的利用也促进了人格与心理健康水平的伴随式与无痕式评估,有助于解决人格与心理健康传统测量误差较大、容易受个体作答态度影响等问题。但目前对于这些多模态数据的分析往往是从单一模态的数据出发,研究目的是为了验证使用某一模态数据进行心理健康问题诊断或人格测评的可行性,还缺乏对多模态数据进行协同建模的研究。此外,这些研究只是关注了智能化心理健康测评的可行性,缺乏对模型的精细化以及针对性程度的细致探讨,模型的精度和效率都较低,很难用于实际的心理健康筛查与人格测评中,也没有出现影响力比较大、应用广泛的心理健康预测模型。

3.教学过程评估:更加直接、便捷和精准

对教学过程的评价通常有两种途径:第一,基于学生的评教结果,即通过学生对教师教学行为的主观感受来对教学过程进行评估。目前,结构化的教学评价问卷是最主要的评教方法,成本低、分析简便,然而受限于固定的问题形式,学生真实的想法往往无法表达。大多数学校通过在结构化问卷的基础上设置若干开放式评价题目,允许学生自由填写对教师的看法来弥补这一缺陷,但由于评教文本量化分析成本高、难度大,所以评教文本一般仅作为辅助性信息提供给教师参考。第二,对教师的育人表现进行直接评估,通常由专家对课堂教学、班级管理等进行观察和打分。这种依靠人工打分的方式费时费力,难以在日常教学中大规模和高频率开展。

随着人工智能技术,尤其是自然语言技术的不断发展,越来越多的研究者开始将评教文本的自动化评估用于实际的教学评价中。例如,Esparza 等(2017)将评教文本的分析转化为情感分析问题,采用随机森林与支持向量机对墨西哥某大学的学生评教文本进行情感分类(正向、负向与中性三个类别),模型达到0.85的评价准确率。景丽萍(2020)首先使用BERT语言模型构建多标签分类模型,预测评教文本是从哪个方面对教师进行评价;之后再针对每一个方面构建情感倾向多分类模型;最后通过整合多个学生对同一位教师的评价结果,形成情感摘要,进而对教师的教学效果进行综合评价。

基于课堂音视频数据对教师进行评价、对教学类型进行分类,也是智能化测评的一个重要方向。研究者通过新技术提取课堂音视频的关键信息特征,挖掘学习活动中潜在的师生互动方式、问答模式、师生关系、活动策略等。例如 Kashyap等(2018)从课堂教学视频中提取教师的演讲、行为线索以及视频本身属性作为特征,使用机器学习方法构建课堂氛围的自动评分系统,对课堂气氛进行实时评价。有研究证明,针对课堂录像的机器评分比专家评价更具优势,机器评分结果更加严格,评价结果也更加稳定、客观(Haudek et al.,2020)。随着课堂视频分析技术与分析方法的不断发展,课堂教学评估逐渐从课程结束后评估转向课堂教学过程中的评估,比如卡内基梅隆大学开发的智能导学系统Lynnette、FACT系统、清华大学雨课堂等智能导学系统能够实时对教学情况进行诊断,即时反馈教学信息,助力教师教学。

将人工智能应用于教学过程分析中,能够对教师教学进行精确画像,帮助学校和教师了解学生的需求,及时精准地调整教学育人的方式方法。然而,教学文本的自动化评价研究非常少,还没有引起人们足够的重视。此外,所采用的建模方法也较为简单,仅将其作为简单的情感分类问题来处理,能够给教师提供的教学参考意见比较有限。其实,评价文本作为反映和收集学生心声的重要渠道,如果能够实现机器建模,对教学意见精细提取和汇总,将能够搭建起学生和教师充分和及时沟通的桥梁。而且,对课程教学的自动化评估受限于弱人工智能的不足,还很难实现对教学语言层面的深入分析,也很难对个性化、复合型的教学手段进行甄别和评估。此外,如何有效保护课堂中师生的隐私也是一个不容忽视的问题。

3智能化测评的关键问题与发展方向

教育评价新趋向:智能化测评研究综述

智能化测评能够充分利用人工智能的优势,减少测评过程中的人力消耗,实现更具准确性和解释性的测评方案,增强过程性评价和个性化评价。然而目前,智能化测评依然处于初步发展的阶段,存在一些共性和亟待解决的关键问题。

1.多模态数据的利用问题

智能化测评采用数据驱动的人工智能分析方法,能够最大程度上利用多模态数据,实现对个体能力、认知水平、人格特质、心理健康等更全面和精准的评估。然而,目前智能化测评中对多模态数据的利用仍然处于起步阶段,基于多模态数据的测评主要以探索性研究为主,对多模态数据的协同分析还不够深入。从以往的研究来看,对多模态数据的研究主要存在以下问题和局限:

第一,数据采集的限制。目前用于测评任务的数据主要包括文本模态、视觉模态、语音模态和生理信号模态等,虽然计算机技术的发展提供了诸多高效的数据收集手段,例如网络数据爬虫、在线学习平台、可穿戴设备等,但针对指定被试人群同时采集多来源多模态数据以及支持有监督学习建模的标签数据依然是困难的。同时,对人的测评不同于其他,需考虑隐私、伦理等问题,所收集的数据往往难以被公开使用。数据采集的困难让许多研究局限在特定的场景中,限制了多模态数据在模型构建中的应用。

第二,研究内容的局限。由于数据的可采集性和流通性差,目前使用人工智能技术将多模态数据应用于测评的研究大多数仍然属于探索性研究,研究的目的一般是为了证明某一来源或某种模态数据在进行能力或人格测量与诊断中的可行性,包括针对社交网络数据(Quercia et al.,2012;孔仪,2019)、生理指标数据(Whitehill et al.,2015;Muramatsu et al.,2016;Cui,2020)以及对学生作答的过程数据(Vista et al.,2016)的探索,而将多模态数据应用于测评任务的实践工作仍然较为缺乏。虽然已有研究者开始将多模态数据应用于教育中,包括教学策略的制定(王慧君等,2015)与学习分析领域(张琪等,2020),但将多模态数据应用于人格与心理健康测评中的研究仍然较少。

第三,当前测评任务中多模态数据的使用方法较粗糙。基于多模态数据的建模过程需要充分关注跨模态间的一致性和互补性,同时关注测量任务中的可解释需求,而目前测量中对多模态数据进行分析时采用的方法更多是在特征层面进行融合,然后利用传统的机器学习模型对多模态数据与相对应的数据标签进行建模,通过模型准确率对模型进行评价(Whitehill et al.,2015;Muramatsu et al.,2016)。现有的方法在准确性提升上具有较好的表现,但没有对跨模态数据关系进行充分地挖掘,特别是不同模态数据的特征在支持决策时是一致的还是互补的,在测评中还需要探索更加严谨、可解释的分析方法。

第四,人工智能中的多模态学习方法并不是领域自适应的。多模态学习在人工智能领域受到了很大关注,相关的研究成果也很多,但主要关注的是如何建立能够整合多模态信息的表示学习方法(Xu et al.,2020)。这些方法在应用于指定的数据和任务时,并不能保证一定有效,需要根据特定的任务需求进行模型设计上的调整。

第五,研究人员的缺乏。目前应用多模态数据进行评估与测评的研究人员大都来源于计算机与人工智能领域,他们利用多模态数据实现用户画像,进而解决市场上一些容错率高的应用问题,如商品推荐。但从研究角度来看,基于多模态数据的测评中结果精度往往达不到要求,在利用多模态数据进行智能化测评的研究中,仍然需要大量具有心理测量学背景的专业人才。

结合智能化测评对多场景、多模态数据研究存在的问题,本文提出以下解决方法:

一是针对特定领域或研究任务,逐步建立统一的数据标准和联合研究平台。引入人工智能技术开展基于多模态数据的测评研究,首先需要构建一定规模的数据集。为此,在一些测评任务上,不可避免需要研究者建立统一的数据标准来整合多个数据源,例如综合分析上百所学校的考试数据、多个网络平台的博客数据进行协同分析等。为了在打破数据孤岛的同时保护用户隐私,未来需要逐渐建立统一的联合研究平台,特别是针对教育、求职等过多涉及个人信息的场景,有学者建议应用联邦学习策略(李默妍,2020)来构建和应用机器学习模型。

二是从测量研究角度出发,融合多场景中产生的多模态数据作为智能化测评的评估证据,建立多模态数据与评估目的之间的链接。在证据链接建立过程中可以同时采用自上而下与自下而上的方法进行确定。自上而下即依靠专家通过领域先验知识从多模态数据中提取与评估目的相关的数据,建立联系;自下而上的方式是通过数据挖掘方法,从数据出发,提取特征。自上而下的方法往往解释性较好,但在数据规模大且内容非常繁琐与复杂时,会产生重要特征遗漏的问题;而自下而上的方法虽然最大程度上保留了数据特征,但可能产生预测变量的解释问题。

三是将测评分析方法与机器学习方法相结合,对多模态数据进行建模与分析。基于海量多模态数据进行的测评分析结果一般更加准确。目前使用多模态数据进行的智能化测评研究中,主要还是采用特征融合策略,结合传统的机器学习模型(如随机森林、支持向量机等)进行分析。为了充分发挥多模态数据的优势,基于深度学习模型构建统一的跨模态表示学习方法会有更好的性能表现(Xu et al.,2020),相关的研究成果应该进一步应用于测评实践中。

四是加强人工智能和测量领域合作,关注具有解释性的表示学习方法研究。可解释性的深度学习策略已经受到人工智能领域的广泛关注,信息理论、因果学习等为表示深度特征与可解释特征间的对应关系提供了探索性的解决方案(Besserve et al.,2020;Cheng et al.,2020)。基于测量领域既有经验,这些方法能够逐步应用于一些特定的测量任务。

五是构建多模态知识图谱,将先验的领域知识引入到多模态数据建模过程中来。一些数据丰富的场景早已具备多模态知识图谱的研究基础,相关研究已经扩展到推荐系统等下游任务中(Sun et al.,2020),在MOOC这样的教育场景也有所涉猎(王亮,2018)。多模态知识图谱结构化地表征了多模态数据中的已知关系,能够更有效地整合既有研究结果并用来提升测量性能和效率。然而,针对人的能力或心理特质的测量还缺乏多模态知识图谱相关的研究,但随着一些联合研究平台的建立和相关研究人才的累积,这将成为未来一个重要的发展方向。

2.测评结果的准确性与可解释性问题

智能化测评结果的准确性与可解释性是测评研究中最为重要的评价指标。准确性要求尽可能降低测评的误差;可解释性是测评结果可以被理解的程度。智能化测评不仅对测评精度要求高,而且还要能够清楚解释测评分数是如何得到的。因为如果测评分数的计算过程是一个黑匣子,往往会招来考生对测评过程公平公正的质疑,尤其是在高利害测试的场景下。因此,如何结合人工智能技术来提高测评的准确性并保证可解释性,是面向教育评价改革的智能化测评技术需要解决的主要问题之一。

(1)准确性问题

对于如何提高测评的准确性,传统的测评方法强调的是对测验误差的精准控制,而智能化测评关注的是测验的评分结果与真实的能力水平或专家标签之间的匹配程度。研究者主要从特征提取与模型构建两方面来试图提高智能化测评的准确性。

在特征提取方面,智能化测评所面对的数据往往是海量的、多模态化的。这些数据中蕴含丰富的信息,如何对这些数据进行表征直接影响了智能化测评的准确性。不同的研究者使用不同的方法进行特征提取。例如,吴君胜等(2020)利用Dlib提取人脸68个点位特征,Huang等 (2012)和Gao等(2013)等利用LIWC和Text Mind等语言词典针对文档提取100维左右的词性特征。随着人工智能技术的不断发展,特征提取工作也越来越精细。以文本数据为例,词袋模型、基于TF-IDF或TextRank的关键词提取等基于词频的特征提取方法,在早期的研究中被大量应用。自2014年起,依赖词嵌入(Word Embeddings)技术(Mikolov et al.,2013)与神经语言模型(Devlin et al.,2019)等文本特征提取方法逐渐成为主流的特征提取方法。这种特征提取方式可以关注到文本之间的上下文关系,与基于词频的方法相比具有更高的准确率(Devlin et al.,2019)。

在模型训练方法上,深度置信网络(DBN)、循环神经网络(RNN)、卷积神经网络(CNN)等深度学习算法被用于智能化测评中。Zhang等(2020)的研究证明了深度模型比传统方法具有更高的预测准确率。但在深度模型提高准确率的同时,模型的可解释性往往较差,因而如何在可解释的前提下进行准确预测是智能化测评中更加需要关注的问题。

(2)解释性问题

可解释性是智能化测评中需要重点考量的因素。测验工具在保证准确性的同时,需要达到可接受的解释性。目前,机器学习模型具有一定的可解释性,例如,逻辑回归中的参数可以直接反映单个变量与预测结果的正负相关,决策树中的节点直接对应预测中的规则选择过程。深度学习具备强大的非线性拟合能力,往往具有更高的准确率,但同时也使行为指标和能力特质之间的关系变得难以解释。为此,研究者尝试通过各种手段来提高模型的可解释性。解决方案之一是采用Attention机制(Vaswani et al.,2017)或者探索解耦的向量表示(Cheng et al.,2020),即通过捕捉对于预测特定能力或特质最重要的特征,帮助研究者及教育工作者理解测评结果的意义。以作文自动化评分为例,近年来深度学习模型已被用于作文分数预测(Zhao et al.,2017;Jin et al.,2018),深度学习模型将大量特征或原始文本输入模型,经过复杂的深度学习过程直接输出作文的分类结果,通常能在特定情境的任务中得到较高的准确率。为了进一步明确特征体系与评价标准的关系,检验模型评估对构念的覆盖情况,研究者采用Attention机制来解决可解释性的问题,得到了较为理想的结果(Ive et al.,2018)。

此外,研究者还尝试构建并纳入知识图谱来提升模型的可解释性。知识图谱是将人类知识或经验表示成图结构以供计算机分析的一种技术,目前在智能教育中的应用仅限于“基于知识图谱的课程推荐任务”,尚未在测评任务中得到应用。知识图谱的优势在于强解释性,图中的节点和边都具有明确的实际意义。在智能化测评场景中,教育工作者可以将多年的工作经验进行总结,进而构建成知识图谱。知识图谱既可以根据图结构和文本语义直接用于推断决策,也可以将其进行向量表示,进而与具体的深度学习任务进行统一建模,从而形成兼顾准确性和解释性的重要解决方案。最后,针对某些难以获得大规模测试数据的测评任务,研究者需要应用到小样本学习技术(Zang et al.,2020)。机器学习模型普遍依赖于大规模数据训练,而小样本学习技术的本质是迁移学习,依靠既有的知识、模型、学习能力的建模技术,这与人类的智能非常相像。很多小样本学习技术是基于度量特征向量间距离的思想展开的,具有非常好的解释性。

准确性与可解释性是智能化评估中最重要的两个评价指标,然而在实际研究中经常会过多强调准确性,而忽视了可解释性,直接影响了智能化测评在实践中的广泛应用。这具体体现在以下三个方面:

一是缺乏对智能化测评模型的可解释性研究。几乎所有的自动化评分模型在效度验证的过程中都会呈现模型的预测准确率,但很少有研究会对模型的可解释性进行验证。虽然深度模型相较于传统模型具有更高的预测准确率,但直到最近才开始有研究者关注预测方法的可解释性。智能化测评中的可解释性仍然需要科学的评估,并置于与准确性同等重要的位置。二是由于深度模型存在难以解释的问题,因而深度模型在智能化测评中的应用仍然较少。目前人工智能领域的研究者已经开始探索利用多种方法提高模型的解释性问题。但是这些具有良好解释能力的深度模型仍然较少被用于智能化测评研究中,尤其是知识图谱和迁移学习还没有在任何测评任务中加以应用。智能化测评必须要强调准确性和可解释性的平衡问题,不能顾此失彼。构建智能化测评模型,不仅需要依赖人工智能方法,同时也要增加更多的专家先验知识,促进模型的可解释性。在保证可解释的前提下,逐步将深度学习算法应用到智能化测评中,将人工智能领域中的研究成果与测评相结合,助力智能化测评的发展。三是目前缺少对模型可解释性的评估方法,如何对模型的可解释性进行系统的评估同样也是智能化测评需要解决的问题。

3.测评模型的针对性和精细化问题

目前智能化测评的主要研究人群来自人工智能领域,他们一般从海量的文本数据以及智能设备采集的日志文件等大规模数据集中,以数据驱动的方法对心理特质(如学习者的能力、人格特质、心理健康等)进行预测与测评。这些研究往往缺乏对心理特质的准确界定,忽略测评过程中可能产生的误差,忽视从理论上来阐释所测特质和特征抽取之间的关系,虽然构建的预测模型表现出了良好的准确率,但是却较难用于实际的教学实践活动中,并提供有效的教学建议。

为了实现真正高效、精准的智能化测评,促进智能化测评在多个教育场景下的广泛应用,需要提高预测模型的针对性和精细化。在模型构建时应当不过分依赖于数据,适当引入专家知识,更合理地建构测量数据与测量结果之间的关系。同时在数据的收集过程中,也应当摒弃无规则的大范围数据收集,而是依据测量目的,注意与传统测量技术的有机结合,针对性地设计数据收集方法。具体的操作建议如下:

首先,从测量目的出发,基于教育和心理学长期以来的研究经验对所测特质进行构念化与操作性定义,建立精细的测评维度,并明确测评维度与外部行为特征的链接关系。这样有助于搜集和清理与所测特质更相关的有效数据,并建立更全面、更精细、更科学的数据标签。这样构建的预测模型能够对所测特质进行多维度的精准测评,而不是一个简单的分类模型。比如,精细化的测评要求心理健康的智能化测评不再以是否具有某种心理疾病为预测标签,而是以症状作为预测目的,通过对症状表现的自动化评分,更准确地诊断患者是否患有某种心理疾病,帮助治疗师依据患者的症状表现制定针对性的治疗方案。再比如,基于教育和心理专家的经验对知识体系和能力水平进行精细界定,明确知识和能力进阶的途径后再建构认知诊断模型,可以给学生提供更精准的测评结果和学习建议。

其次,将近些年来教育和心理测评专家提出的证据中心设计(Evidence Centered Design,ECD)(Mislevy et al.,2003)应用至智能化测评中,针对性地收集数据并进行模型建构。证据中心设计以“评估是收集能论证被评估者知识或能力的证据”作为评分理念,围绕证据的评估设计和评估实施方法,设计学生模型、证据模型与任务模型。学生模型回答“测什么”的问题,是对所测特质的精细化处理。最简单的学生模型是单维的,较复杂的学生模型往往是多维的,具有层次关系。证据模型回答“如何测”的问题,包括证据规则和测量模型两部分。证据规则确定任务表现中哪些行为将被计分,以及相应的评分规则;测量模型定义了学生模型的能力和证据规则之间的链接关系。任务模型解决“用什么测”的问题,在学生模型与证据模型的基础上设计呈现给被试的测试材料和规定被试如何反应。将证据中心设计思想应用于智能化测评中,将学生模型、证据模型与机器学习中的特征集合与标签相对应,通过系统、科学地设计数据收集方法与收集手段,在提高评分效率的同时增加模型的精细化程度与评分有效性,进而推动智能化测评在教学实践中的应用。

4.智能化测评中的信效度检验问题

教育测量界不断更新的信度与效度概念深深地影响着能力评价工具的开发与应用。随着人工智能技术的快速更新与迭代,各种自动化测评工具的信效度也被赋予了融合时代特色的新涵义。信度与效度论证的本质是对教育和心理测验的稳定性进行评估,并对测评结果的有效性提供证据。目前,对智能化测评工具的信效度检验几乎都集中在机器评分与人工评分或传统测验分数的一致性上,且主要利用交叉验证方法对智能化评分模型的精确度、召回率以及F1值进行验证,而这只能说明智能化测评具有一定的预测效度,但是对区分效度(能把所测特质与其他特质区分开来)、重测信度(随时间的稳定性)、一致性信度(跨样本的评分一致性)以及公平性(对不同的施测群体不存在测量偏差)等方面缺乏检验和评估。虽然智能化测评往往具有较高的准确率,但这并不意味着就满足了测评的要求,需要依据传统测评框架对测评的信效度进行系统评价。

目前,一些教育和心理测量专家在尝试开发智能化测评任务时,有意识地对测评质量进行信效度检验。Scalise等(2018)在多维IRT的模型框架下对虚拟表现测验(Virtual Performance Assessment,VPA)中产生的过程性数据进行建模分析,检验不同的过程性指标在IRT框架下的信度,并证明具有良好的信度指标;Quellmalz 等(2013)采用出声思维法收集学生在交互式测评中的作答过程数据,并将出声思维与学生的实际作答情况进行比对,从过程性数据角度对新型交互式测评的内容效度进行验证。然而,目前还没有对智能化测评在不同群体中应用的等价性、测验结果的稳定性等信度指标进行检验的研究。智能化测评往往是针对一个特定任务构建评分模型,研究者很少去探讨该模型在其他问题情境、不同测试群体、不同时间阶段下的预测准确度。在人工智能领域这个问题已经被提出,被称为“模型的泛化性”检验,虽然没有采用“信度”的概念体系,但是含义是相同的。模型的泛化力不足,则只能在特定的、有限的场景中使用,会阻碍智能化测评的广泛应用。随着人工智能领域的研究范式逐渐成熟,模型的泛化性检验势必会影响智能化测评模型的评估体系。

从另一角度来看,人工智能技术的发展同样为信效度的评价带来了新的思路。教育与心理测量标准制定了效度证据的5个来源,包括测验内容、作答过程、内部结构、与其他变量的关系以及测验的结果,在2014年修订之后的标准中仍然将作答过程作为效度证据的重要依据(AERA et al.,1999)。虽然作答过程是效度证据的重要来源,但在实际的测验分析中,由于无法对过程性数据进行充分的采集和分析,研究者很少会从作答过程的角度对测验的效度进行验证(Hubley et al.,2017)。而智能化测评对过程性指标的收集更加便利,动态化建模也已成为可能,因而从过程性角度对测验进行信效度评价有望成为测评信效度检验的重要组成部分。比如,田伟等(2020)采用口语报告法获取了学生作答测验的思维过程并解析出了不同的思维水平,然后在作答时间轴上标记了各种思维能力与计算机记录的学生作答过程性数据的对应关系,明确了学生的操作与能力测评的关系。

对于一个智能化测评系统,除了要尽可能准确地拟合人工评分,同时也要考察模型是否真正测量了想要测评的特质,是否具有跨群体、跨情景、跨时间的一致性,是否对某些群体存在测评偏差等。智能化测评的信度与效度的论证应该包含一套完整的检验逻辑和范式。然而智能化测评是一个新兴交叉领域,不同学科体系的研究人员遵循的研究范式有较大的差异,短期内很难形成达成共识的研究规范。我们可以通过促进学科间的融合、取长补短,完善和提高智能化测评的信效度检验。具体做法是:(1)采用传统测评框架对智能化测评的信效度检验部分进行系统分析,将经典测量理论、项目反应理论以及认知诊断等经典的心理测量学理论与智能化测评进行深度结合,使智能化测评更准确、更有效;(2)结合过程性数据,从过程性角度出发,设计新的测验效度检验方法,对传统的测量学效度检验方法进行补充。要加强对测验作答过程性数据的研究,提高过程性数据建模的可解释性,有意识地建立特征提取与效标的链接,并找寻量化这种链接紧密性的数据指标作为新的效度指标。(3)关注智能化测评结果在不同群体、不同测验场景、不同时间段的稳定性和适用性,在特征提取阶段加强对相同特征的使用和对比分析。建模阶段也不能一味追求单一任务的准确性,而是要强调多任务、多群体的泛化性以及协同建模的重要性,维护测验的公平性与稳定性。

4总结

教育评价新趋向:智能化测评研究综述

教育评价改革需要新型的测评技术作为支撑,智能化测评通过引入人工智能新技术,以更可靠、更高效、更智能的手段整合多维度、多层次的信息,形成更具准确性和解释性的测评方案。智能化测评技术依托教育场景大数据,应用人工智能技术手段,在多个教育场景中均已产生丰富的研究成果。整体来看,随着教育评价改革任务的推进,各项测评场景趋于联动发展,数据趋于多元化,模型算法趋于复杂化,测评的准确性与实时性有所提高,更多的产品化应用将逐步涌现。随着人工智能和教育心理测量的深度融合,智能化测评要吸取传统测评的优势,努力提升模型的可解释性,将传统测评手段应用在建模过程中来提高评估的精细化和针对性,并加强系统的信效度检验,提高测评的实用性和有效性。



【信息来源:MOOC】