期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
PETS三级口语考试评分质量控制研究——基于多侧面Rasch模型(MFRM)的方法 被引量:6
1
作者 张洁 《考试研究》 2008年第4期65-78,共14页
口语考试作为一种相对真实(authentic)和直接(direct)的测试手段,已被越来越广泛地应用于语言测试实践中。然而,在测试过程中引入的主观判断、评分标准和量表的设计与使用等因素,使分数受到更多考生能力以外因素的影响。本研究基于2007... 口语考试作为一种相对真实(authentic)和直接(direct)的测试手段,已被越来越广泛地应用于语言测试实践中。然而,在测试过程中引入的主观判断、评分标准和量表的设计与使用等因素,使分数受到更多考生能力以外因素的影响。本研究基于2007年某考点PETS三级口语考试数据,用多侧面Rasch模型(Many-facet Rasch Model,简称MFRM)对这次考试的评分进行了事后质量控制研究。MFRM将语言运用测试多方面因素综合在一个数学模型中,不仅能够把所有侧面在同一标尺下进行衡量,还能对单独侧面,甚至每个个体进行具体分析,有针对性地找到潜在的"问题评分员"和可能被误判的考生,是主观评分环节有效的质量监控手段。 展开更多
关键词 口语考试 PETS 评分 质量控制 多侧面Rasch模型
下载PDF
STUDY OF SOURCES OF SCORE VARIABILITY IN PERFORMANCE ASSESSMENT USING MFRM:A CASE OF SPEAKING TEST IN PETS BAND3 被引量:4
2
作者 张洁 何莲珍 《Chinese Journal of Applied Linguistics》 2008年第4期40-49,128,共11页
As direct measure of learners' communicative language ability, performance assessment (typically writing and speaking assessment) claims construct validity and a strong power for predictive utility of test scores.... As direct measure of learners' communicative language ability, performance assessment (typically writing and speaking assessment) claims construct validity and a strong power for predictive utility of test scores. However, it is also of common concern that the subjectivity of rating process and the potential unfairness for test takers who encounter different writing prompts and speaking tasks would constitute threats to reliability and validity of test scores, especially in those large-scale and high-stakes tests. Therefore, appropriate means for quality control of subjective scoring should be held essential in test administration and validation. Based upon raw scores from one administration of speaking test in PETS Band3 held in Hangzhou, the present study investigates and models possible sources of score variability within the framework of Many-Facet Rasch Model (MFRM). MFRM conceptualizes the possibility of a examinee being awarded a certain score as a function of several facets — examinee ability, rater severity, domain difficulty and step difficulty between the adjacent score categories and provides estimates of the extent to which the examinee's test score is influenced by those facets. Model construction and data analysis was carried out in FACETS Version 3.58, computer program for conducting MFRM analysis. The results demonstrate statistically significant differences within each facet. Despite the generally acceptable rater consistency across examinees and rating domains, fit statistics indicate some unexpected rating patterns in certain raters such as inconsistency and central tendency, to be avoided through future rater training. Fair scores for each examinee are also provided, minimizing the variability due to facets other than examinees' ability. MFRM manifests itself as effective in detecting whether each test method facet functions as intended in performance assessment and providing useful feedback for quality control of subjective scoring. 展开更多
关键词 PETS speaking test quality control many-facet Rasch model(mfrm)
原文传递
基于多层面Rasch模型的英语口试信度分析
3
作者 邵健 《浙江工商职业技术学院学报》 2023年第4期60-67,共8页
英语口语考试涉及面广,难以用单一指标衡量信度,而多层面Rasch模型可以从考生、评分员、评分标准和评分量表等角度探讨影响成绩的测量误差。可以某校中外合作专业大一新生分级考试中的英语口试成绩为研究对象,运用Facets软件进行分析。... 英语口语考试涉及面广,难以用单一指标衡量信度,而多层面Rasch模型可以从考生、评分员、评分标准和评分量表等角度探讨影响成绩的测量误差。可以某校中外合作专业大一新生分级考试中的英语口试成绩为研究对象,运用Facets软件进行分析。研究发现,虽然评分员的主观评分会产生一定的测量误差,使考生实际测量值和预测值存在出入,但这差异并不足以影响考生的最终报道成绩。此外,多层面Rasch模型证明:考生、评分员、评分标准和量表这四个层面具有良好的内部一致性,总体较为理想,因此,可认为该校组织的英语口语考试具有良好的信度。 展开更多
关键词 多层面RASCH模型 偏差分析 信度 口试 国际第二语言水平量表
下载PDF
多面Rasch模型理论及其在结构化面试中的应用 被引量:10
4
作者 孙晓敏 Gang Xue 《心理学探新》 CSSCI 北大核心 2008年第2期75-80,共6页
针对影响面试效度的各种误差来源,该文引入了一种新颖的面试结果处理方法:多面Rasch模型。这一模型在结构化面试中的应用不但有利于有效测量被试的能力水平,而且为识别问题评委、进一步完善评分规则、实现面试等值等问题都提供了全新的... 针对影响面试效度的各种误差来源,该文引入了一种新颖的面试结果处理方法:多面Rasch模型。这一模型在结构化面试中的应用不但有利于有效测量被试的能力水平,而且为识别问题评委、进一步完善评分规则、实现面试等值等问题都提供了全新的解决思路。文章在对结构化面试信、效度研究进展进行综述的基础上,介绍了多面Rasch模型的理论及其在结构化面试中的应用框架。 展开更多
关键词 结构化面试 mfrm 项目反应理论
下载PDF
基于多面Rasch模型的评分质量分析——以一次英演讲比赛决赛为例
5
作者 张冰 《兰州教育学院学报》 2013年第12期137-138,共2页
本文针对来自评委影响演讲比赛打分结果的各种误差,引入多面Rasch模型对评分进行分析。此模型在分析评分结果中的应用可以为识别问题评委、诊断评委自身的一致性及评委之间的一致性和评委培训等问题提供全新的解决思路。
关键词 英语演讲比赛 评委一致性 评分 mfrm
下载PDF
基于多面Rasch模型对两类结构化面试性能的对比 被引量:3
6
作者 郭庆科 周京 王楠 《山东师范大学学报(人文社会科学版)》 北大核心 2010年第1期108-113,共6页
在多面Rasch模型框架下比较了两类结构化面试。结果发现行为性面试中被试能力估计值分布范围略广,且更为均匀,支持了情景性面试中更容易出现社会期望性反应的结论。从评分者偏差上看,行为性面试中发生偏差的次数更多一些,说明行为性问... 在多面Rasch模型框架下比较了两类结构化面试。结果发现行为性面试中被试能力估计值分布范围略广,且更为均匀,支持了情景性面试中更容易出现社会期望性反应的结论。从评分者偏差上看,行为性面试中发生偏差的次数更多一些,说明行为性问题可能更不易评定,导致评分者间分歧较大。但几处较大的偏差却出现在情景性问题的评分中。除此之外两类面试的评分者一致性都很好,评分者宽严度和评分偏差等方面的差异都不是太大,说明两类面试的总体心理测量学性能都很好,都可以在人事测评中应用。总体上看行为性面试较好。 展开更多
关键词 多面RASCH模型 情景性面试 行为性面试 评分者偏差
下载PDF
网络双评过程中作文评分误差以及评分者效应的分析——以大规模英语考试作文评分为例 被引量:3
7
作者 李美娟 刘红云 《中国考试》 2015年第2期39-48,共10页
目前大规模考试作文评分大都采用双评评分模式,本研究采用多侧面Rasch模型(MFRM)分析双评模式下大型英语作文评分中的评分者误差来源及主要影响因素。对57名评分者所评价的2 427篇作文分析发现:1评分者的宽严度存在显著的差异;2在作文... 目前大规模考试作文评分大都采用双评评分模式,本研究采用多侧面Rasch模型(MFRM)分析双评模式下大型英语作文评分中的评分者误差来源及主要影响因素。对57名评分者所评价的2 427篇作文分析发现:1评分者的宽严度存在显著的差异;2在作文评分中,约有22.8%的评分者之间的一致性较差,也存在约3.5%的评分者之间一致性过高;3约90%的评分者自身的一致性都较高,但仍有8.8%的评分者自身一致性很差,约2%的评分者出现评分自身一致性过高的情况;4从整体上讲,评分者在不同的评分标准(或维度)上、不同评分等级宽严程度的把握存在差异;评分者和被试,以及评分者、被试和评分标准三者的交互作用不显著;5评分者对男生和女生具有相同的宽严度。 展开更多
关键词 主观题评分 多侧面Rasch模型 评分者误差分析
下载PDF
基于多层面Rasch模型的评分员效应研究——以某市级青少年外语能力竞赛决赛为例 被引量:2
8
作者 程俊瑜 袁洁 《外语测试与教学》 2016年第1期32-38,共7页
本研究基于多层面Rasch模型,针对某市一次青少年外语能力竞赛决赛中的评分员效应进行研究,使用Facets软件分析了7名评分员对13名选手在外语能力竞赛中的评分。研究结果表明:1)评分员之间的严厉度有较为显著的差异,且有个别评分员自身一... 本研究基于多层面Rasch模型,针对某市一次青少年外语能力竞赛决赛中的评分员效应进行研究,使用Facets软件分析了7名评分员对13名选手在外语能力竞赛中的评分。研究结果表明:1)评分员之间的严厉度有较为显著的差异,且有个别评分员自身一致性较差;2)7位评分员总体并没出现显著的集中趋势和随机性,但是个别评分员在打分时可能出现集中趋势和随机效应;3)7位评分员出现了明显的晕轮效应;4)在区别性严厉度方面,评分员在对个别选手和不同性别的选手评分时出现偏差,在评分项目上不存在评分偏差。本文对产生上述评分偏差的原因进行了初步的探讨,并针对问题提出了相应的建议。 展开更多
关键词 多层面RASCH模型 评分员效应 严厉度 评分员偏差
下载PDF
中外大学英语教师写作评分行为的对比分析 被引量:10
9
作者 黄玮莹 《外语测试与教学》 2011年第4期27-32,55,共7页
通过运用多层面Rasch模型,本研究对中外大学英语教师的写作评分行为进行微观分析,探讨这两组不同语言背景的大学英语教师对同样的写作样本的评分是否有差异。研究结果表明中外教师的写作评分结果并无显著差异,他们的整体性评分都普遍比... 通过运用多层面Rasch模型,本研究对中外大学英语教师的写作评分行为进行微观分析,探讨这两组不同语言背景的大学英语教师对同样的写作样本的评分是否有差异。研究结果表明中外教师的写作评分结果并无显著差异,他们的整体性评分都普遍比分析性评分更宽松,但中国教师的评分较外籍教师的评分略为宽松。微观的评分行为分析揭示出中外教师对组织、语法和写作规范这三个评分项目上产生了偏差。外籍教师在各评分项目上的评分产生的偏差总数比中国教师多;他们对组织和写作规范的评分偏宽松,而对语法的评分则有偏严厉的趋势。对于不同水平的考生,无论是中国教师还是外籍教师偏宽松的偏差较多;对于水平最高的考生的评分,中国老师偏宽松,而外籍教师则偏严厉。 展开更多
关键词 评分行为 评分项目 考生能力 多层面RASCH模型
下载PDF
评分人个性化反馈信息对CET4作文评分人决策的影响研究 被引量:2
10
作者 徐鹰 《外语测试与教学》 2015年第1期1-11,共11页
本文从评分人决策的变化探讨了评分人个性化反馈信息的有效性。研究人员首先邀请了三位不同经验和背景的CET4作文评分人对30篇CET4模拟作文评分并提供三条评分理由,然后对另外10篇作文进行有声思维。评分结束一周后,评分人收到包括多层... 本文从评分人决策的变化探讨了评分人个性化反馈信息的有效性。研究人员首先邀请了三位不同经验和背景的CET4作文评分人对30篇CET4模拟作文评分并提供三条评分理由,然后对另外10篇作文进行有声思维。评分结束一周后,评分人收到包括多层面Rasch模型(MFRM)的分析结果(严厉度、内在一致性和偏差)以及评分理由编码分析结果的个人反馈信息报告。阅读完反馈报告后,评分人接着对新30篇CET4模拟作文评分并对另外10篇作文进行有声思维(其中5篇作文和前测相同)。本研究通过对比分析反馈前、后相同的5篇作文的有声思维数据,结果发现反馈信息能帮助评分人重视评分标准相关特征,并调整自己的决策行为。 展开更多
关键词 个性化反馈 多层面RASCH模型 有声思维
下载PDF
高校青年教师讲课竞赛计分方法的比较研究
11
作者 丁福兴 《河南科技学院学报(社会科学版)》 2010年第4期51-54,共4页
文章以苏州科技学院青年教师讲课竞赛(决赛)的评分数据为实例,通过对缺评数据的插补、原始分与标准分和MFRM计分方法导致的选手排名对比等细节问题的研究,认为标准分计分方法并不适用于这一赛事,而数据插补和MFRM计分方法则较为合理、... 文章以苏州科技学院青年教师讲课竞赛(决赛)的评分数据为实例,通过对缺评数据的插补、原始分与标准分和MFRM计分方法导致的选手排名对比等细节问题的研究,认为标准分计分方法并不适用于这一赛事,而数据插补和MFRM计分方法则较为合理、可靠。 展开更多
关键词 讲课竞赛 计分 数据插补 标准分 多面拉什模型
下载PDF
中学理科实验操作考查的评分者效应和评分者信度——基于多面Rasch模型的分析
12
作者 麦裕华 黎光明 钱扬义 《教育测量与评价》 2020年第11期56-64,共9页
中学理科课程的实验操作考查是典型的表现性评价,主要评估学生完成理科常见实验的基本实验操作能力。为提高评分质量,优化实验操作考查的组织管理,以初三化学实验操作考查常见试题为例,应用多面Rasch模型探讨评分者效应和评分者信度。... 中学理科课程的实验操作考查是典型的表现性评价,主要评估学生完成理科常见实验的基本实验操作能力。为提高评分质量,优化实验操作考查的组织管理,以初三化学实验操作考查常见试题为例,应用多面Rasch模型探讨评分者效应和评分者信度。研究发现:(1)评分者不存在群体上的宽严效应、趋中效应、光环效应及区分性宽严效应,但表现出一定的随机效应,在同时考虑多侧面时有较弱的区分性宽严效应;(2)有可接受的评分者间信度和良好的评分者内信度;(3)与监考4位、6位考生相比,评分者监考2位考生时,较低评分者间信度出现的比例最大。建议在实施实验操作考查时,组织系统的考前评分实践培训,增加评分者对评分内容和过程,尤其是对不同类型评分者效应的一致性理解,提高个人准确评分的能力;可将多面Rasch模型作为评分质量控制的分析方法,用于评分结果的事后检查。 展开更多
关键词 实验操作考查 评分者效应 评分者信度 多面RASCH模型 表现性评价
下载PDF
浅析提高GSM系统寻呼成功率的优化方法
13
作者 李江涛 《中国新通信》 2009年第3期43-47,共5页
本文主要对寻呼流程和影响寻呼成功率的各类参数及参数相互关系进行了分析,阐述了提高寻呼成功率的方法。
关键词 位置更新周期 寻呼次数 RACH最小接入电平 相同寻呼间帧数编码
下载PDF
高级语法课程的预设变量研究 被引量:3
14
作者 陈芳 《外语与外语教学》 CSSCI 北大核心 2017年第4期16-25,66,共11页
高阶语言能力的发展要求学生积极探索有效的个人语法思维和体系。为此目的,教师的课堂角色也要发生转变。本研究基于实证数据检验了某英语专业高级语法课程建设中的多个假设并探索了教师的权威地位等因素对于课堂测评的影响。问卷和课... 高阶语言能力的发展要求学生积极探索有效的个人语法思维和体系。为此目的,教师的课堂角色也要发生转变。本研究基于实证数据检验了某英语专业高级语法课程建设中的多个假设并探索了教师的权威地位等因素对于课堂测评的影响。问卷和课堂观察验证了教材、学习负荷、课堂管理等预设变量的合理性。教师的权威影响则通过一个学生互评和自评项目以及后续问卷,结合多测面Rasch模型和卡方分析等进行了深入探讨。研究清楚显示了教师的权威影响力,但也反映了学生的批判性思考和评估能力。本文展示了一个以学生为主体的课程建设案例,为高校自主学习和课堂教学与测评提供了经验和建议。 展开更多
关键词 以学生为中心的学习 语法教学 学生互评 mfrm模型
原文传递
读写结合写作测试任务效度研究——结合定量统计和定性描述的方法 被引量:7
15
作者 吴越 《外语电化教学》 CSSCI 北大核心 2017年第1期55-61,共7页
文章运用多层面Rasch模型,结合对评分员的回溯性访谈结果,从受试能力、评分员的评分行为、评分标准的合理性、评分子项的难度等维度对一项EFL读写结合写作测试任务进行效度研究。
关键词 读写结合 效度 多层面RASCH模型 定性分析
原文传递
基于多层面Rasch模型的多体裁自选任务写作测试评分效度研究 被引量:5
16
作者 邵健 《西安外国语大学学报》 CSSCI 北大核心 2021年第3期72-77,共6页
写作体裁是重要的文本特征之一,但体裁在写作测试中的研究仍显不足。本文基于一项多体裁自选任务写作测试的数据,运用多层面Rasch模型,从考生、评分员、任务和评分量表4个层面分析了该测试的评分效度,结果发现:不同测试任务之间不存在... 写作体裁是重要的文本特征之一,但体裁在写作测试中的研究仍显不足。本文基于一项多体裁自选任务写作测试的数据,运用多层面Rasch模型,从考生、评分员、任务和评分量表4个层面分析了该测试的评分效度,结果发现:不同测试任务之间不存在显著差异,彼此之间具有等效性,能够有效区分不同水平考生;评分员之间一致性较好,内部稳定性理想;评分员能够运用评分量表对不同体裁作文进行有效评价,对学生的能力区分稳定。总体而言,多体裁自选任务写作测试具有较为理想的效度。 展开更多
关键词 体裁 自选任务写作测试 评分效度 多层面RASCH模型
原文传递
GSM网小区寻呼丢弃优化方法 被引量:1
17
作者 刘明娜 梁俊贤 华力 《通信技术》 2010年第8期225-227,共3页
小区寻呼丢弃数量不仅是衡量网络性能的重要指标之一,同时与用户感受密切相关。GSM网寻呼丢弃量与网络寻呼策略、LA(位置区)寻呼容量、寻呼组设置、业务分担参数设置等因素息息相关。主要针对造成寻呼丢弃的多种原因分析,并结合实际优... 小区寻呼丢弃数量不仅是衡量网络性能的重要指标之一,同时与用户感受密切相关。GSM网寻呼丢弃量与网络寻呼策略、LA(位置区)寻呼容量、寻呼组设置、业务分担参数设置等因素息息相关。主要针对造成寻呼丢弃的多种原因分析,并结合实际优化案例说明通过LA分裂、对MFRMS(寻呼信道复帧数)参数及T3314参数调整均能够有效改善小区寻呼拥塞从而降低寻呼丢弃数量,对全网寻呼成功率的提高也有一定效果。 展开更多
关键词 全球移动通讯网 小区寻呼丢弃 位置区分裂 寻呼信道复帧数 T3314
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部