01现在高利害(中考高考)口语考试打分是怎么做的?

根据各地考试院的招标文件和系统说明,目前口语考试打分包括人工打分和智能打分两部分。

其中对人工打分系统的描述如下:“口语评分要由评卷专家逐个审听考生的过程录音。人工网上评卷由评卷专家组预先定义样卷和评分标准,通过考核的评卷专家再进入正式的评分阶段,评卷专家组对人工评卷过程进行严格质量监控。

02中考高考中的智能评分是怎么做的?

口语考试同时有智能打分。根据考试院文件:“智能评分则是从考生答题结果中按照一定比例抽取样卷,由评卷专家组对样卷进行打分,同时使用服务器进行智能评分,并不断对计算机评分参数进行优化。

这样进行优化后的智能评分,可以很好预测评卷专家的打分后,才可以进行后续打分,并和专家打分进一步进行比较,如果差别大再引入进一步的专家查看。

03中考用了某个系统智能打分,所以这个系统就是考试标准——是这样么?

从上面过程可以看出,这个说法是完全误导的。

智能打分需要学习评委人工打分的标准。打分标准首先是专家组原则确定的,和评卷专家的实际打分结果以案例数据方式确立的。如果没有针对这套题目的专家打分数据作为标准参考给智能系统学习,目前中考打分系统是不能直接评分的。

给出打分标准的是人,而不是机器。机器是否能学会人的标准,是需要专家判断的。目前行业进行这个学习和打分并报告分数,需要几天时间。

04我们用这个系统考,所以平时就要用这个系统练——这个说法对么?

从上面的过程可以看出,高利害考试的口语智能评分系统是专门为这种使用情景而设计的。而在平常的练习中,学生老师面对各种题目题型,平常考试是不可能进行专家组打分和机器学习这个过程。

有些人误以为或误导老师认为两个情况下打分方式原理是一样的。但实际是完全两种方式。平时在学校练习,人工智能系统必须独立进行打分。这样的系统所用的技术,在原理上,都是和考试系统完全不同的。

有些人声称“考试用这个系统打分,平时也用这个练习”——实际上是不可能做到的。有的说法让人感觉到出自同一企业的系统,就是同一类系统,这是个无意或有意的误导。如果老师不理解中高考打分的过程,就会以为自己学生用的系统和打分,就是中高考中的一样的系统和打分——这个误导是需要对老师澄清的。

中国采用考教分离,考试院对考试系统的需求和用法,教学系统不太了解。因此对这种误导或误会提供了可能。需要澄清。

05独立机器打分和学习评委打分,两者有什么区别?

在平时的教学过程和练习中,智能系统应该有能力独立地对学生的练习进行评价打分。这种系统对技术对要求很高。1. 需要有纠正能力——具有教学能力。 2. 还能支持各种教学互动。 在这种情况下,独立打分需要满足一些普适的原则。这些原则也要适合大部分人对于声音评价的习惯。口语100系统是目前能够大规模这样在训练和练习使用中运用的系统。

在口语100的实践中,我们不仅这样独立打分,而且把分数公开。每周我们在学校评比口语之星,同学之间可以互相pk,自动筛选出范文。而且承担了三个省级口语比赛的海选评委。在这些活动中,都不可能先有专家评委对于学生的试卷进行抽样打分,然后再由人工智能技术去学习这些评委的打分。这些教学纠正,评价,互动,晋级都是在独立打分对基础上做到的。目前只有口语100系统经历过这样多种形式的智能打分,并接受师生检验。

高利害考试对评分原则需要针对题目由专家组设定,然后机器去学习。口语100对打分对一般性原则,我们也公开在网站上:http://www.kouyu100.com/zh/speech.html 不针对某套题目,具有普遍性的意义。

06考试标准和教学标准可能不同么?

语言教学中,很多学校会采用外教,因为他们说得更地道。在教学中,也给学生配有教材的磁带,也是让学生通过模仿去学习正确的表达。这些无疑应该是清晰的标准。口语100系统就是以这些为标准进行打分。

在考试打分中,首先是由专家评委依据同样的标准对学生进行打分。他们显然不可能有另外的标准,虽然人会有失误,但也不会把磁带中的朗读或外教朗读给出低分。第二步,人工智能系统通过对专家打分的学习后再打分。可以看出,不能认为某个人工智能系统的打分另确立了一套标准。或者某个评委团又出了一套标准。而磁带或外教反而变得不标准了。这就完全错误理解了口语考试打分的核心原理。

评委团给出了,也只能是侧重和松紧程度上的差异,而不是标准本身。换句话说,考试标准和教学标准不可能不同。

07平时测验和期中期末考试口语测试,如何进行打分?

在平时教学中的考试或测验,不可能先找一些专家评出一批卷子,然后再用人工智能去学习专家的打分。这种方式适合高利害考试的打分。

在教学测试中,应该选择具有准确的独立打分能力,和清晰的普适打分标准的系统。口语100系统就是这样的系统,适合在平时练习,测试,测验中使用。

08什么是教学级和测试级技术的区别?

教需要逐字逐句教和纠正,测可以整段去测多句平均。 教学级技术要求更高,准确度更高。 多句平均的测量,一句判断有误也容易被掩盖。

清睿是教学级技术,当然可以更好用于测评。

09对高利害考试清睿智能给出的方案。

口语100系统也支持对人工评委打分进行学习,然后再打分的方式。这个过程需要的时间比较长,和同行类似,一般需要几天给出成绩。 但口语100系统因为直接打分(Out-of-the-box performance)的打分效果好,学习评委的过程会更容易。

对高利害考试打分,口语100进一步给出的更好解决方案是:智能评委团机制。由多个评委独立学习真人评委团的参考打分,然后团队打分。

人工智能技术在不断的发展,和真人评委相比,它具有稳定客观的特性。但人工智能技术在一些局部,会发生一些很奇特的表现,比如阿尔法狗能够战胜世界围棋冠军,但也会在落后被动的时候走出明显的错招;特斯拉的自动驾驶能够比人更少犯因为疲劳和疏忽而发生的错误,但也会在光天化日之下,对白色的大货车视而不见撞上去。人工智能的优势和问题都是普遍显而易见的。

单独一个智能技术很难保证在所有的情况下都表现良好,但是如果采用三个甚至更多的智能引擎,如果这些引擎本质上不同质,那么它们就很难在同一个问题上犯同样的错误。这种评委团制度在人类哪怕奥运会这样的高利害比赛中,比如花样滑冰和体操都在普遍采用。这可以避免某一个世界级的专家评委,在某一个具体的评分中的依然会出现的失误。

采用这种开放的多个人工智能评委引擎的接口方案,在每一个人工智能引擎评分后,增加一个分数融合对步骤。 这种融合可以是去掉最高分最低分之后的平均,也可以是根据不同引擎的信誉度进行的加权平均。引擎的信誉度可以根据不同的情况进行计算测试,比如不同的引擎更适合不同的题型,或者有些引擎在语速较快或较慢的情况下更准确。这样的多引擎技术对口语考试的最终评分被师生普遍接受会有积极的意义。