国际教育网

繁体

PTE AI评分机制大揭秘,为什么爱丁堡大学不再认可PTE

2021-01-13

关注

继全球最为权威的两大英语测评考试雅思托福后,近年来,PTE考试悄悄兴起。对于这个“稚嫩”的考试,大家知之甚少。PTE Academic将全机器评分首次引入到高风险标准化英语测试领域,实现了全程机考、自动评分的考试和测评方式。那么PTE考试和托福、雅思的区别在哪里?AI评分真的如PTE官方宣传的那样公平吗?

一、PTE考试是什么

PTE Academic全称为Pearson Test of English Academic,即培生学术英语考试。PTE学术英语考试是一个较为 “稚嫩” 的英语语言能力考试,由英国培生教育集团于2009年10月推出。PTE学术英语考试为全程机考,与托福 (TOEFL iBT) 、雅思 (IELTS) 等全球权威英语测评考试一样,同样考察的是 “听、说、读、写” 四项英语技能。

PTE与托福、雅思考试的两点不同:

(1)PTE Academic为人工智能评分,而托福和雅思考试的口语与写作单项评分中,都有引入人工评分

(2)PTE Academic含有大声朗读文章和重复句子等题型,但托福与雅思并不包含类似题型,而对于该题型的考察并不能有效地反映考生的实际沟通能力(Wang, Choi, Schmidgall, & Bachman, 2012)

二、AI评分有哪些弊端

1. 无法准确评估能力

PTE考试的写作部分使用的是Intelligent Essay Assessor (IEA) 自动评分工具,口语部分是利用培生的Ordinate Technology实现人工智能评分 (Pearson PTE Academic Score Guide, 2012) 。两者的本质都是将段落长度、词汇量、名词动词一致性等 “预测因子” 量化,来模拟人工对考生的口语和写作进行评分。

最新的人工智能技术能够超越简单的关键词匹配,实现对机器训练内容和考生测试内容之间相似性的衡量,但是只要考生给出的回答与机器训练内容有差异,对机器而言,这个回答就“超纲”了,考生也就难以获得满意的分数。

另外人工智能评分仍然受制于机器训练内容,过于依赖有限范围的 “预测因子” ,完全无法理解和评估考生答案所想表达的复杂语义和逻辑,例如对于口语和写作主观题,考生回答的逻辑是否连贯、论证是否充分、内容是否切题的等关键评价指标,机器都无法做出准确的判断。

目前,PTE发表的学术研究文献中,并没有详细地说明系统如何处理具有 “创造性” 答案,何种情况会引入人工评分,以及评分人员培训及监控的标准。

2. 诱导考生错误备考

“备考”是指对考试中所抽样的知识或技能进行审查的各种活动 (Alderson & Hamp-Lyons,1996),包括参加课程、从朋友或家人那里获得帮助、测试练习或其他形式的自学,或是为了提升考试成绩而进行的针对性语言练习。

但是,很多教师和学生没有意识到,应试性的备考可能是一把双刃剑。从“好”的方面来讲,考生可以通过提前熟悉考试形式、工具、流程等,避免因为这些客观因素影响现场发挥;从“不好”的方面来看,错误或者过于狭隘的备考,要么对提升分数毫无帮助,要么虽然会提升分数,但是对提升目标能力无关(如英语沟通能力等)(Ma & Cheng, 2018)。PTE学术英语考试正是如此。

据澳大利亚墨尔本大学博士Ute Knoch今年发表的针对复考者备考策略与其考试分数关系的研究 (Knoch U, 2020) ,PTE学术英语考试采用AI评分,使得考生将大量的时间耗费在 “如何击败机器” ,即增加对机器容易测试的特征的关注(例如词汇多样性、篇幅长度等)来提升考试分数,例如,口语任务中停顿和语气词(比如err um)很容易被机器识别出来,这意味着学生通常会更关注他们的语速和衔接,试图说得更快、更清楚、更大声、避免停顿,而忽略了回答的内容!这对于考生将来出国留学或者移民都是毫无帮助的!而且在真人对话的口语考核中,偶尔的err um等停顿或语气词是不会被扣分的,这是口语表达过程中正常思考的体现。

Dr.Ute Knoch: 澳大利亚墨尔本大学语言测试中心(LTRC)主任,国际语言测试协会(ILTA)执行委员,2014年获美国教育考试中心(ETS)杰出学者奖。

三、AI评分弊端对PTE认可度的影响

依据格林模型(Green, 2007) ,PTE考试的难度和重要性引发了强烈的考试后效,对教、学产生了极强的影响,导致考生只看重考试的成功,而不是提升语言使用能力。考生对于PTE评分机器的迎合可能帮助考生提升分数,这也影响了PTE考试的信度。

因此,对于PTE考试的认可也饱受争议。英国著名大学之一的爱丁堡大学 (The University of Edinburgh) 在年初宣布不再认可PTE考试作为英语能力证明,给出的原因正是 “PTE考试无法真实反应考生的英语水平” 。而英国最顶尖的两所大学牛津大学、剑桥大学在招生官网中明确表示不认可PTE成绩。

参考文献

[1] Knoch U. Drawing on repeat test takers to study test preparation practices and their links to score gains. Language Testing. 2020;37(4):550-572

[2] Wang, H., Choi, I., Schmidgall, J., & Bachman, L. (2012). Review of Pearson Test of English Academic: Building an assessment use argument. Language Testing, 29(4), 603–619.

[3] Pearson. (2019). Score guide Version 12. https://pearsonpte.com/wp-content/uploads/2019/10/Score-Guide-for-test-takers-V12-20191030.pdf

[4] Ma, J., & Cheng, L. (2018). Preparing students to take tests. In J. I. Liontas (Ed.), The TESOL encyclopedia of English language teaching. Wiley-Blackwell

[5] Green, A. (2007a). IELTS washback in context: Preparation for academic writing in higher education. Cambridge University Press.

声明:本文内容为国际教育号作者发布,不代表国际教育网的观点和立场,本平台仅提供信息存储服务。

快速匹配适合您孩子的学校

全国500所国际学校大全 / 3分钟匹配5-8所 / 1年名校升学备考托管服务

立即匹配

家长关注

为你推荐

预约看校

提交