第一范文网 - 专业文章范例文档资料分享平台

基于SpeechRater 

来源:用户分享 时间:2025/6/15 7:26:49 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

Overseas English Testing: Pedagogy and Research 国外英语考试教学与研究, 2020, 2(2), 61-79 Published Online May 2020 in Hans. http://www.hanspub.org/journal/oetpr https://doi.org/10.12677/oetpr.2020.22007

An Analysis of Common Errors on Students’ Speaking Performance in Different Levels Based on SpeechRater? Scoring System

Jing Wang

Overseas Testing Management Center, New Oriental Education & Technology Group, Beijing

ththth

Received: Apr. 8, 2020; accepted: May 12, 2020; published: May 29, 2020

Abstract

As one of the influential achievements in today’s artificial intelligence arena, the automated speech scoring system has been implemented in the official examinations as an innovative approach. Now, ETS, as the developer of SpeechRater?, has devoted years of painstaking research to update the system after its initial use in TPO in 2006 and has decided to make the scoring system more ac-cessible for the public users. The SpeechRater? can provide informative feedback for a given re-sponse, and help its users to have a better understanding of their speaking performances. Due to the increasingly large number of English learners in China, there is a growing demand for better practicing tools of speaking ability. Besides, it is acknowledged that the average TOEFL iBT speaking score of students in mainland China is round 19, which remains unchanged for ten years. Further-more, most middle-level students whose speaking scores are around 24 find it is harder to reach a higher score than they expected. The goal of this study is to find common errors regarding the usage of vocabulary and grammar in speaking responses of students in different levels, and I hope I can provide a new perspective for teachers to get a sense of how to use SpeechRater? as a useful tool in teaching.

Keywords

Automated Speech Scoring System, Students in Different Levels, Vocabulary and Grammar, Common Errors

基于SpeechRater不同分数段学生口语作答 常见问题分析

王 婧

新东方教育科技集团国外考试推广管理中心,北京

文章引用: 王婧. 基于SpeechRater不同分数段学生口语作答常见问题分析[J]. 国外英语考试教学与研究, 2020, 2(2): 61-79. DOI: 10.12677/oetpr.2020.22007

?

?

王婧

收稿日期:2020年4月8日;录用日期:2020年5月12日;发布日期:2020年5月29日

摘 要

随着计算机技术的飞速发展,人工智能技术也在不断突破,计算机的自动评分技术作为一种新的评阅方式逐渐应用于口语考试的评分之中。美国教育考试服务中心ETS自2006年开始将SpeechRater?用于官方在线练习口语的评分中后,经过多年研究不断优化,将其自动评分系统对外开放,从五大方面12个维度给予学生口语表现反馈。中国大陆学生托福口语平均分常年处于19分左右,并且大多数学生口语分数无法突破瓶颈24分,为了帮助学生找到问题所在,本文对SpeechRater?不同分数段学生口语作答中词汇和语法上的常见问题进行了初探,希望能为教师提供一种新的视角去了解在教学中该如何使用好SpeechRater?。

关键词

口语自动评分,不同分数段学生作答,词汇和语法,常见错误

Copyright ? 2020 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). http://creativecommons.org/licenses/by/4.0/

Open Access 1. 引言

在托福考试中,口语一直是中国考生的短板。从ETS提供的数据和教师们多年的教学经验中可以发现,中国考生托福口语平均分常年19分,多数学生向上很难突破24分。这一现象引发我们思考,是什么阻碍了学生口语分数的提高?为什么学生难以突破19分和24分?不同分数段的学生在口语能力上的表现有何差异?学生需要关注自己作答中的哪些方面来提高口语表现?这些问题都值得去探究。

根据托福口语的官方评分标准,考试会从语言表达(Delivery)、语言使用(Language use),话题发展(Topic Development)三个方面进行综合评分,这就意味着影响学生口语分数的因素是综合且复杂的。随着计算机技术、人工智能技术的进步,口语考试也逐渐开始采用计算机自动评分的新阅卷方式。美国教育考试服务中心ETS研发的SpeechRater?口语自动评分系统从五大方面12个维度给学生提供了细致的反馈,除了在作答内容上暂时无法准确评判外,基本上涵盖了托福口语评分标准中表达和语言方面的内容,同时提供了各维度学生表现百分位数作为参考。

经过对SpeechRater?12个评分特征的评估,我们发现流利度和发音方面所涉及的评测维度均较容易理解,如作答长度、语速、停顿频率等,通过SpeechRater?报告反馈可以直观地了解到学生存在的问题,因此在本文中不做过多探究。词汇、语法中学生存在的问题,由于SpeechRater?无法给出详细具体的反馈,其使用的准确性和多样性又需要结合学生具体的作答内容来评判。因此,本文基于SpeechRater?评分、The Compleat Lexical Tutor1所得出的数据信息以及有3年以上教学经验的教师们对学生作答文本内容的分析,去探究基于SpeechRater?不同分数段学生口语作答中词汇和语法上的常见问题,帮助他们找到存在的问题和难以突破瓶颈的原因,并从教学的角度提供一些学习、练习的建议。

1

The Compleat Lexical Tutor,是集多种功能于一体的大型免费语料库,可以对语篇词汇进行描述,如用词量、通用英语词表、学术英语词表中词汇使用占比等,用来评估不同学生用词的差异。

DOI: 10.12677/oetpr.2020.22007

62

国外英语考试教学与研究

王婧

2. 文献概述

2.1. SpeechRater?自动评分系统

SpeechRater?是美国教育考试服务中心(Educational Testing Service, ETS)研发的口语自动评分系统。2006年开始将SpeechRaterSM Version 1.0 (v1.0)版本应用到托福考试(The Test of English as a Foreign Lan-guage, TOEFL)官方TOEFL Practice Online (TPO)在线练习口语的评分中。ETS研究人员通过使用4162份TPO口语作答和3502份TOEFL iBT口语实验数据对SpeechRaterSM 1.0系统进行了基于论据方法的效度验证和分析,详细描述了在低风险练习环境下对不同特征如何进行自动评分,并且研究报告称如果SpeechRaterSM 1.0系统采用正式考试的数据进行评分,可与人工评分达到0.68的相关度[1]。2018年,ETS发表研究报告总结了十多年间在口语系统评分方面取得的重大发展和进步,SpeechRaterSM 1.0系统也升级到了SpeechRaterSM 5.0。报告显示与之前的1.0版本相比,新系统增加了更多的评分特征,如词汇、语法等方面。在语音自动识别上也增强了准确性,单词识别错误率word error rate (WER)控制在了28.5%,同时系统中的过滤模型(Filtering Model)增加了非英语作答和离题作答,以减少学生使用策略迷惑系统以取得口语高分[2]。

SpeechRater?的评分系统主要分为三个部分:自动语音识别程序(The Speech Recognizer)、口语特征提取程序(Features Extraction Programs)及评分程序(Scoring Model) [3] (详见图1),评分流程是语音文件通过语音识别程序进行解码,识别出单词和语音片段;之后,特征提取程序提取出评分的维度特征,输送给评分模型进行评分,最后将分数报告展示在用户界面上。

Figure 1. Architecture of an automated speech scoring system 图1. SpeechRater?的基本评分流程

DOI: 10.12677/oetpr.2020.22007

63

国外英语考试教学与研究

王婧

SpeechRater?的使用,与传统的人工评分模式相比体现出了极大的优势。第一,计算机自动评分高效快捷,减少了人力、物力和财力方面的投入。第二,自动评分具有客观性强、一致性好的特点,在任何情况下都能保证统一的评分标准,从而较好的保证了评分的质量。第三,它可以避免人工评分中的趋中效应,保证考试的安全性。其局限性在于无法对作答的内容和逻辑等方面作出评判,因此需要加入人工评分。但作为低风险的托福口语考试练习评分工具,不仅能减轻教师的批改负担,同时还能给学生提供更多反馈和分数参考。

2.2. SpeechRater?评分特征与托福口语考试评分标准的关系

根据托福口语评分标准[4],其主要从语言表达(Delivery)、语言使用(Language use),话题发展(Topic Development)三个方面进行评分。Delivery又包括流利度、语调、节奏韵律和发音;Language use分为词汇和语法两方面,其中词汇的多样性、复杂性、准确性以及语法的准确性、复杂度和范围都是评判的内容;Topic Development包括连贯度、观点展开和内容相关性(详见图2)。

Figure 2. The construct of speech for the TOEFL Internet-based test represented by the scoring rubric 图2. 托福口语评分标准

ETS研究人员在SpeechRater?报告中提到在选择评分特征和评估其特征表现时会重点关注与口语评分标准之间的相关性[2]。根据SpeechRater?所提供的12个评分特征,分别为:

流利度方面(Fluency)

1) 作答长度:规定作答时间内输出的单词总量。 2) 语速:每分钟所输出的单词量。

3) 表达连贯度:表述时较少出现停顿或者多余填充词,如 um…uh…等。 4) 停顿频率:表述时停顿的频次。

5) 停顿的恰当性:表述时能否在适当的地方停顿。 6) 词语重复率:在一句话中重复一个单词和短语的频次。

DOI: 10.12677/oetpr.2020.22007

64

国外英语考试教学与研究

王婧

发音方面(Pronunciation)

7) 节奏韵律:是否能掌握单词音节的重读。 8) 元音饱满度:发元音时的饱满程度。 词汇方面(Vocabulary)

9) 复杂度和准确性:是否能够使用不常见词汇进行正确表达。 10) 多样性:是否能够积极使用丰富多样的词汇进行表达。 语法方面(Grammar)

11) 准确性:表达在多大程度上能够匹配正确的语法规则。 语句方面(Discourse)

12) 逻辑连贯性:考查表述中句子与句子之间的关联程度。

可见,将其与托福口语考试评分标准相对比,SpeechRater?的流利度和发音方面的各特征,正是语言表达(Delivery)所关注的重点。词汇、语法方面也正是评分标准中语言使用(Language use)所关注的内容。存在的局限性在于话题发展(Topic Development)方面只有逻辑连贯性、作答长度两个特征给予反馈,但无法在观点的展开、阐述、准确性、完整度、相关度上进行评判。但是,从整体来看,几乎覆盖了评分标准的各方面。

3. SpeechRater?实证研究

3.1. 研究背景

新东方教育科技集团于2018年开始与ETS进行合作,国外考试推广管理中心引入了SpeechRater?系统作为学员线上练习托福口语的工具,提供全真模拟练习平台,以及官方反馈报告,留下了大量的学员数据。为了从测试数据中了解不同分数段学生口语作答中存在的问题,找到同一水平学生问题的共性,需要参考一些数据指标,并对学生的口语作答进行文本分析。希望能够通过分析和探索研究反哺教学,找出阻碍学生口语分数提高的因素,并从教学角度给出学习建议。

3.2. 研究材料和数据

托福口语题目分为独立口语和综合口语两种类型。独立口语题目贴近学生生活实际,考查内容和范围涉及学校、家庭、社会、生活、教育等多个方面,需要学生在作答时结合个人经历给出观点并进行阐述,学生的表达会更多展示出自己所积累的英语口语知识和能力。综合口语题目多以学术场景为主,并将听力内容和阅读内容与口语考查相融合,更为综合的考查学生理解、分析及总结等口语能力。由于综合口语题目存在听力或阅读材料,考生在作答内容中需要参考和结合,而非完全自我输出,用该类题目下学生的作答去分析存在局限性,故没有选择Task 4等其他综合口语题目。又因ETS 2019年对托福考试进行了改革,口语删除掉了独立口语题Task 1。因此,本次研究材料选择了托福TPO口语中的独立口语题目Task 2。

独立口语题Task 2需要学生从两个或三个题目所陈述的观点中选择一个自己最倾向或同意的观点,然后给出原因、细节、事例去支撑提到的观点。学生有15秒的准备时间,作答时间为45秒。截止2019年底,后台共收录学生作答数据714,923条,我们对各套TPO口语任务中学生的平均分进行了统计,发现没有显著差异(详见图3),进而选择了在题目内容上较好把握的TPO42 Task 2作为材料进行研究,该套试题的平均分为2.98分。其题目为:

Some people prefer living in a big city. Other people prefer living in the countryside, away from urban areas. Which do you think is better? Explain why, using specific details in your explanation.

需要学生进行二选一,是更倾向于住在大城市还是乡村,选择其中一个观点后并用细节和事例来阐述。

DOI: 10.12677/oetpr.2020.22007

65

国外英语考试教学与研究

搜索更多关于: 基于SpeechRater  的文档
基于SpeechRater .doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c4ts2d6h6bm6ksx797jw59jajr88ky400wx7_1.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top