期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
大学英语四级口语考试自动评分效度初探 被引量:9
1
作者 金艳 王伟 +1 位作者 张晓艺 赵英华 《中国考试》 CSSCI 2020年第7期25-33,共9页
为验证大学英语四级口语考试自动评分系统的有效性,采用基于论证的评分效度论证框架,聚焦评估、概化和解释3个推论,通过人机评分的对比分析及专家对各等级考生的典型口语特征描述,论证该评分系统的效度。研究表明,人机评分具有较好的相... 为验证大学英语四级口语考试自动评分系统的有效性,采用基于论证的评分效度论证框架,聚焦评估、概化和解释3个推论,通过人机评分的对比分析及专家对各等级考生的典型口语特征描述,论证该评分系统的效度。研究表明,人机评分具有较好的相关性和等级一致性,但机评分数的离散度略低于人工评分;机评对不同的语言特征敏感度不同,对语言准确性以及内容的相关性和丰富度特征比较敏感,对语音、策略等区分能力较差。对自动评分系统的效度论证还需在其他维度持续开展研究。 展开更多
关键词 大学英语四六级考试 口语考试 自动评分 评分效度 论证
下载PDF
PRETCO口试评分效度研究 被引量:1
2
作者 杨志强 许吟雪 全冬 《重庆三峡学院学报》 2018年第2期121-128,共8页
采用多层面Rasch模型,通过分析PRETCO口试的评分结果以探究其评分效度。研究发现PRETCO口试评分效度较高,其评分结果能够有效区分考生的口语水平,评分员评分的自身一致性总体较好。研究同时发现PRETCO口试评分存在以下问题:评分员的宽... 采用多层面Rasch模型,通过分析PRETCO口试的评分结果以探究其评分效度。研究发现PRETCO口试评分效度较高,其评分结果能够有效区分考生的口语水平,评分员评分的自身一致性总体较好。研究同时发现PRETCO口试评分存在以下问题:评分员的宽严度差别显著,个别评分员的内部一致性较差;少数评分员和考生的交互作用存在显著差异;评分员和四项任务之间也出现了不同程度的偏差。 展开更多
关键词 PRETCO 多层面RASCH模型 评分效度
下载PDF
语言运用测试的评分效度——以评分员为中心的研究综述 被引量:1
3
作者 张洁 《外语测试与教学》 2013年第3期25-33,共9页
语言运用测试(language performance assessment)因其对语言综合应用能力较为直接的测量和相对较高的真实性,成为越来越多大型考试中必不可少的组成部分。然而考试过程中所引入的评分员主观判断以及评分标准的建立与使用等因素都会在很... 语言运用测试(language performance assessment)因其对语言综合应用能力较为直接的测量和相对较高的真实性,成为越来越多大型考试中必不可少的组成部分。然而考试过程中所引入的评分员主观判断以及评分标准的建立与使用等因素都会在很大程度上影响考试的信效度和公平性。本文对语言测试研究领域中关于主观评分误差的研究,尤其是从评分员角度进行的研究,做了一次系统的梳理,并分析了不同的研究方法各自的特点和存在的局限,以期为更多从事评分误差控制的研究者和实践者提供丰富的参考依据。 展开更多
关键词 语言运用测试 评分效度 评分 评分误差
下载PDF
英语写作AES系统评分效度的实证研究 被引量:3
4
作者 王海军 《浙江工业大学学报(社会科学版)》 2016年第1期89-93,共5页
英语写作自动评分系统(AES)在国外的英语写作测试和教学领域应用越来越广泛,但国内对其信、效度的实证研究还十分欠缺。以句酷网为例,从人分散度、相关性和等级一致性等方面研究了AES系统的评分效度。结果表明,尽管机器评分区分度不如... 英语写作自动评分系统(AES)在国外的英语写作测试和教学领域应用越来越广泛,但国内对其信、效度的实证研究还十分欠缺。以句酷网为例,从人分散度、相关性和等级一致性等方面研究了AES系统的评分效度。结果表明,尽管机器评分区分度不如人工评分,但其总的评分效度尚可,其结果的稳定性可以满足国内英语写作课堂教学的需要。 展开更多
关键词 英语写作自动评分系统 评分效度 句酷
下载PDF
2005年度上半年PETS三级考试作文评分效度研究
5
作者 赵海永 修旭东 《温州大学学报(自然科学版)》 2007年第3期53-57,共5页
对2005年3月份PETS三级考试的作文语料进行了大规模的抽样调查,运用定性和定量相结合的方法研究了PETS三级考试作文评分效度.结果显示:虽然2005年3月份PETS三级考试的作文原始分与多人再评的参照分数相关,但原始分与多人再评的平均分之... 对2005年3月份PETS三级考试的作文语料进行了大规模的抽样调查,运用定性和定量相结合的方法研究了PETS三级考试作文评分效度.结果显示:虽然2005年3月份PETS三级考试的作文原始分与多人再评的参照分数相关,但原始分与多人再评的平均分之间存在统计上的显著性差异;该作文考试的题目说明没有详细、清晰地说明写作程序及评分方法,导致部分考生不能准确把握写作内容. 展开更多
关键词 作丈 评分效度 PETS三级考试
下载PDF
TEM4评分效度与计算机辅助评卷 被引量:13
6
作者 邹申 陈炜 《外语电化教学》 CSSCI 2010年第1期56-60,72,共6页
考试效度是每个考试的关注焦点。考试效度包括多个维度,评分效度是其中之一。对于需要人工评阅的项目如写作等,评分效度则是考试效度的根本保证。本文首先阐述有关评分效度的理论和观点,然后根据英语专业四级考试(以下简称TEM4考试... 考试效度是每个考试的关注焦点。考试效度包括多个维度,评分效度是其中之一。对于需要人工评阅的项目如写作等,评分效度则是考试效度的根本保证。本文首先阐述有关评分效度的理论和观点,然后根据英语专业四级考试(以下简称TEM4考试)的实际状况,探讨如何通过计算机辅助评阅模式来进一步提高评分效度。 展开更多
关键词 评分效度 计算机辅助评卷 TEM4写作项目
原文传递
基于多层面Rasch模型的多体裁自选任务写作测试评分效度研究 被引量:5
7
作者 邵健 《西安外国语大学学报》 CSSCI 北大核心 2021年第3期72-77,共6页
写作体裁是重要的文本特征之一,但体裁在写作测试中的研究仍显不足。本文基于一项多体裁自选任务写作测试的数据,运用多层面Rasch模型,从考生、评分员、任务和评分量表4个层面分析了该测试的评分效度,结果发现:不同测试任务之间不存在... 写作体裁是重要的文本特征之一,但体裁在写作测试中的研究仍显不足。本文基于一项多体裁自选任务写作测试的数据,运用多层面Rasch模型,从考生、评分员、任务和评分量表4个层面分析了该测试的评分效度,结果发现:不同测试任务之间不存在显著差异,彼此之间具有等效性,能够有效区分不同水平考生;评分员之间一致性较好,内部稳定性理想;评分员能够运用评分量表对不同体裁作文进行有效评价,对学生的能力区分稳定。总体而言,多体裁自选任务写作测试具有较为理想的效度。 展开更多
关键词 体裁 自选任务写作测试 评分效度 多层面RASCH模型
原文传递
大学英语口语测试中评分员效度研究 被引量:1
8
作者 王显涛 《文教资料》 2016年第19期187-189,共3页
在大学英语配对口语测试过程当中,有关评分宽严度与一致性常会受到多面Rasch模型(MFRM)的影响,发挥出一定作用。本次研究通过SPSS与MFRM分析的方法,将10对考生作为研究对象,依靠4名经验评分员对口试加以有效评价。结果显示,具有各异... 在大学英语配对口语测试过程当中,有关评分宽严度与一致性常会受到多面Rasch模型(MFRM)的影响,发挥出一定作用。本次研究通过SPSS与MFRM分析的方法,将10对考生作为研究对象,依靠4名经验评分员对口试加以有效评价。结果显示,具有各异性格特点的评分员对宽严度方面的评价是不同的,相较于外向型评分员,内向型更加严格;表现在一致性方面的差异却微乎其微。 展开更多
关键词 多面RASCH模型 评分 宽严 一致性
下载PDF
传承性与创新性:基于证据的六级、雅思、托福考试效度对比研究
9
作者 辜向东 《外语与翻译》 2020年第4期1-1,共1页
本课题以“基于证据的社会-认知效度验证框架”(Weir 2005)为理论指导,从情景效度、认知效度、评分效度和后果效度四个方面,开展了基于证据的六级、雅思、托福考试效度对比研究。
关键词 验证 雅思 托福 评分效度 对比研究 考试 认知 六级
下载PDF
评价量规设计对慕课同伴互评有效性的影响研究 被引量:25
10
作者 范逸洲 冯菲 +1 位作者 刘玉 汪琼 《电化教育研究》 CSSCI 北大核心 2018年第11期45-51,共7页
同伴互评是MOOC常采用的学员作业评价方法,但是MOOC同伴互评的准确性和可靠性因学员知识水平程度差异过大而被质疑。为了研究如何通过改进评价量规来提高同伴互评的可靠性和准确性,在教师培训类MOOC"翻转课堂教学法"的两期教... 同伴互评是MOOC常采用的学员作业评价方法,但是MOOC同伴互评的准确性和可靠性因学员知识水平程度差异过大而被质疑。为了研究如何通过改进评价量规来提高同伴互评的可靠性和准确性,在教师培训类MOOC"翻转课堂教学法"的两期教学中,我们进行了若干设计研究。研究发现,在教学培训类MOOC的同伴互评活动中,学生评分和教师评分高度相关。细化评分量规的等级描述,以及采用是非选择型的评价量规都能显著提高评分者间信度和评分效度,且评分者间信度与评分效度的差异度与学生所提交作业文档本身的质量也有关系。在研究发现的基础上,文章提出了MOOC同伴互评评价量规的设计原则和使用建议。 展开更多
关键词 同伴互评 评价量规 设计研究 评分者间信 评分效度 量规设计原则
下载PDF
初探TEM8考试人文知识项目的标准参照属性 被引量:20
11
作者 邹申 《外语界》 CSSCI 北大核心 2007年第6期86-94,共9页
从2005年起全国高校英语专业8级考试(TEM8)增加了人文知识项目。该项目旨在考查学生英语专业基本知识的掌握程度。依据标准参照考试效度验证框架,本文检验:1)人文知识项目的内容关联性和内容覆盖面;2)该项目预期目标达到程度;3... 从2005年起全国高校英语专业8级考试(TEM8)增加了人文知识项目。该项目旨在考查学生英语专业基本知识的掌握程度。依据标准参照考试效度验证框架,本文检验:1)人文知识项目的内容关联性和内容覆盖面;2)该项目预期目标达到程度;3)该项目的标准参照统计属性,以及4)该项目对相关教学及课程设置的预期推动作用。本研究结合内容分析和统计手段,分析了人文知识项目的测试范畴、内容、潜在变量等,以论证该项目的标准参照属性。研究结果表明,人文知识项目的测试范畴、内容和题目基本符合英语专业教学大纲要求,初步具备标准参照考试的特征。但是,我们仍需深入研究人文知识项目的效度特征。 展开更多
关键词 标准参照考试 8级考试人文知识项目 内容 评分效度
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部