期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
心理科学领域内的客观测量——Rasch模型之特点及发展趋势 被引量:90
1
作者 晏子 《心理科学进展》 CSSCI CSCD 北大核心 2010年第8期1298-1305,共8页
Rasch模型是在国外学术界受到广泛关注和深入研究的一个潜在特质模型。该模型为解决心理科学领域内测量的客观性问题提供了一个可行性很高的解决方案。而国内关于Rasch模型的理论探讨和应用研究却并不多见。不同于一般项目反应理论,Rasc... Rasch模型是在国外学术界受到广泛关注和深入研究的一个潜在特质模型。该模型为解决心理科学领域内测量的客观性问题提供了一个可行性很高的解决方案。而国内关于Rasch模型的理论探讨和应用研究却并不多见。不同于一般项目反应理论,Rasch模型要求所收集的数据必须符合模型的先验要求,而不是使用不同的参数去适应数据的特点。Rasch模型的主要特点(包括个体与题目共用标尺、线性数据、参数分离)确保了客观测量的实现。未来关于Rasch模型的研究方向包括多维度Rasch模型、测验的等值与链接、计算机自适应性考试,大型应用测量系统(比如Lexile系统)等等。 展开更多
关键词 rasch模型 潜在特质模型 客观测量
下载PDF
托幼机构教育质量评价中评委偏差的多侧面Rasch分析 被引量:4
2
作者 陈德枝 秦金亮 李克建 《心理科学》 CSSCI CSCD 北大核心 2016年第3期628-636,共9页
采用多侧面Rasch模型对28位评委在托幼机构教育质量评价中的评委偏差进行了分析。分析结果显示:28名评委评分宽严度差异显著;3名评委内部一致性较差,其余25名评委内部一致性较稳定;评委与评价班级的交互作用不显著,与评价项目的交互作... 采用多侧面Rasch模型对28位评委在托幼机构教育质量评价中的评委偏差进行了分析。分析结果显示:28名评委评分宽严度差异显著;3名评委内部一致性较差,其余25名评委内部一致性较稳定;评委与评价班级的交互作用不显著,与评价项目的交互作用显著。研究结果表明MFRM可以对托幼机构教育质量评价的评委偏差进行个体层面的具体分析,从项目反应理论的视角为托幼机构教育质量评价的评委针对性培训、评估评委的合格性从而建立合格评委库等提供现代教育、心理测量学依据。 展开更多
关键词 多侧面rasch模型 评委偏差 托幼机构教育质量评价
下载PDF
患者报告结局测量系统:儿童报告版与父母代报告版儿童整体健康量表的汉化及测量学检验
3
作者 赵永信 王颖雯 +1 位作者 袁长蓉 顾莺 《上海护理》 2024年第10期12-18,共7页
目的 汉化儿童报告版与父母代报告版儿童整体健康量表(PGH7+2),并进行测量学检验,旨在丰富患者报告结局测量系统。方法 采用国际标准的慢性病治疗功能评价翻译方法,对原量表进行翻译、回译、文化调适及预调查,选取104名5~7岁的儿童父母... 目的 汉化儿童报告版与父母代报告版儿童整体健康量表(PGH7+2),并进行测量学检验,旨在丰富患者报告结局测量系统。方法 采用国际标准的慢性病治疗功能评价翻译方法,对原量表进行翻译、回译、文化调适及预调查,选取104名5~7岁的儿童父母和123名8岁及以上的儿童,分别检验2个量表的信效度,并对测量数据进行Rasch模型分析。结果 儿童报告版PGH7+2的粗分总分为(35.46±5.00)分,总体Cronbach's α系数为0.863;父母代报告版PGH7+2粗分总分为(36.71±4.44)分;总体Cronbach's α系数为0.843。验证性因子分析结果显示2个量表的模型适配度均良好;标准化残差相关系数均<0.7;项目特征曲线均单调性递增,可行Rasch模型分析。儿童报告版量表的Rasch模型可以解释总变异的81.7%,父母代报告版量表模型可解释总变异的83.9%,但其首成分标准化残差特征根值均为2.7(>2.1),提示量表具有多维性可能。结论 汉化的儿童报告版与父母代报告版PGH7+2整体均具有良好的信度和效度,可用于评价儿童的整体健康状况,但部分条目还有待进一步文化调适。 展开更多
关键词 患者报告结局测量信息系统 整体健康 儿童 父母 量表 信度 效度 rasch模型分析
下载PDF
教育教学能力测试的GT和多面Rasch模型分析 被引量:5
4
作者 陈宛玉 戴海琦 《考试研究》 2013年第3期70-78,共9页
本研究以概化理论和多面Rasch模型为工具,对某市教育教学能力测试的一批实测结果进行了分析,旨在探索影响此类测试评分的因素及其作用机制,为完善测试设计和评分培训提供依据。研究结果表明,影响教育教学能力测试的主要因素是任务难度... 本研究以概化理论和多面Rasch模型为工具,对某市教育教学能力测试的一批实测结果进行了分析,旨在探索影响此类测试评分的因素及其作用机制,为完善测试设计和评分培训提供依据。研究结果表明,影响教育教学能力测试的主要因素是任务难度、评委宽严、评委的跨任务一致性和任务的跨考生难度。当前的教育教学能力测试只适宜做相对决策,不适宜做绝对决策。建议在以后的测试中通过提高测试任务的数量和加强对评分员的针对性培训来提高评分可靠性。 展开更多
关键词 教育教学能力测试 概化理论 多面rasch模型
下载PDF
Rasch模型分析评估住院儿童跌倒风险量表 被引量:2
5
作者 陈朔晖 梁建凤 诸纪华 《护理与康复》 2016年第10期925-928,932,共5页
目的采用Rasch分析法初步评价住院儿童跌倒风险评估量表。方法在结合小儿生理病理和国内外儿童跌倒风险相关量表的基础上编制住院儿童跌倒风险量表(改良HDFS量表),对431例住院患儿进行评估测试后,采用Rasch统计方法评估风险条目。结果... 目的采用Rasch分析法初步评价住院儿童跌倒风险评估量表。方法在结合小儿生理病理和国内外儿童跌倒风险相关量表的基础上编制住院儿童跌倒风险量表(改良HDFS量表),对431例住院患儿进行评估测试后,采用Rasch统计方法评估风险条目。结果确立的7条目具有较高的条目信度,符合住院儿童风险测量的信度、效度和反应度,但儿童之间的信度较低。结论 1岁以上住院儿童跌倒风险量表条目信度较好,但仍需要加强量表应用培训,增加量表的个体信度。 展开更多
关键词 儿童 跌倒风险量表 rasch模型
下载PDF
基于概化理论和多侧面Rasch测量的以SP为基础的OSCE质量控制 被引量:1
6
作者 唐先玲 刘平 孙峻峰 《哈尔滨师范大学自然科学学报》 CAS 2014年第1期76-78,共3页
以标准化病人(standardized patients,SP)为基础的客观结构化临床考试(objective structured clinical examination,OSCE)是评估临床综合能力的一种有效方法.许多潜在的测量误差影响OSCE评估的可靠性.监测这些错误的来源是一个重要的质... 以标准化病人(standardized patients,SP)为基础的客观结构化临床考试(objective structured clinical examination,OSCE)是评估临床综合能力的一种有效方法.许多潜在的测量误差影响OSCE评估的可靠性.监测这些错误的来源是一个重要的质量控制机制,以确保有效分数的解释.综述了概化理论和多面Rasch测量在以SP为基础的OSCE的质量控制方法,提出了两种统计方法联合应用的合理性. 展开更多
关键词 客观结构化临床考试 标准化病人 多侧面rasch测量 概化理论
下载PDF
Item-Level Analysis of the Revised Occupational Therapy Fieldwork Performance Evaluation Applied in Practice
7
作者 Cynthia L. Sears Brad E. Egan +1 位作者 Patricia F. Tomsic Craig A. Velozo 《Open Journal of Therapy and Rehabilitation》 2024年第2期145-159,共15页
Competency-based assessments for healthcare professionals are critical for safe and effective client outcomes. Rehabilitation clinical skill competency assessments must be validated and revised to produce safe and ski... Competency-based assessments for healthcare professionals are critical for safe and effective client outcomes. Rehabilitation clinical skill competency assessments must be validated and revised to produce safe and skilled practitioners. The revised American Occupational Therapy Association (AOTA) Fieldwork Performance Evaluation (FWPE) instrument measures occupational therapy student performance to determine readiness for practice. The assessment includes thirty-seven competencies that address both profession specific clinical skills and general professional behavior skills. The objective of this study was to use Rasch methods to explore the use of the revised FWPE in actual fieldwork practice and to determine the instrument’s psychometric properties when separating the item components into two distinct subdomains: General Health Professions Competences and Occupational Therapy-Specific Competencies. Internal construct validity and test reliability were analyzed using data from 149 occupational therapy students after completing their initial Level II A fieldwork clinical internship. This study examined the item difficulty hierarchy, item fit, person-fit to model, person separation index, person separation reliability coefficient, strata, ceiling and floor effect, and unidimensionality of the FWPE instrument as a whole and as two separate domains. With the exception of not meeting the criteria for unidimensionality, the full FWPE instrument and the Occupational Therapy-Specific Competencies subdomain showed acceptable item-level psychometrics for reliability and precision. While the General Health Professions Competencies subdomain showed good item-level psychometrics, it was below the criterion for reliability and only separated the sample into two strata. Results support the validity, reliability, and clinical use of the revised FWPE full instrument and the Occupational Therapy-Specific Competencies subdomain to measure entry-level clinical skill competencies in practice. 展开更多
关键词 REHABILITATION Competency-Based Assessments Occupational Therapy measurement rasch Analysis
下载PDF
基于GT和多面Rasch模型的结构化面试分析 被引量:6
8
作者 徐思 张敏强 黎光明 《心理学探新》 CSSCI 2009年第5期77-82,共6页
该研究应用GT和多面Rasch模型对结构化面试数据进行分析,并提出一些建议。针对某辅导员招聘面试数据,运用GT从宏观上分析应聘者、考官和项目所带来的总体误差大小。在此基础上,运用多面Rasch模型从微观上进一步探查考官严厉度、应聘者... 该研究应用GT和多面Rasch模型对结构化面试数据进行分析,并提出一些建议。针对某辅导员招聘面试数据,运用GT从宏观上分析应聘者、考官和项目所带来的总体误差大小。在此基础上,运用多面Rasch模型从微观上进一步探查考官严厉度、应聘者能力差异、项目难易度及侧面偏差。结果表明:1)GT分析表明应聘者产生的变异较大(90.65%),说明面试可靠性较高,且当考官数为2时可靠性已较好。2)多面Rasch模型分析出了各侧面效应中的非拟合因素及交互效应中的偏差因素,表明面试误差主要来自考官间严厉度的差异及其自身一致性的不稳定。将GT与多面Rasch模型相结合分析面试数据不仅能测查出评价过程各方面的问题因素,并能更好地作整体把握。 展开更多
关键词 概化理论 多面rasch模型 结构化面试
下载PDF
Rasch模型在初等教育阶段试卷质量分析领域的应用 被引量:2
9
作者 李静璇 王秋红 +1 位作者 何壮 袁淑莉 《贵阳学院学报(社会科学版)》 2022年第3期87-92,共6页
Rasch模型可以将被试能力水平和试题难度转换为相同单位,并放在同一把标尺上进行比较,能够真实客观地测量被试与试题的关系,故使用Rasch模型进行初等教育阶段试卷质量分析。以小学六年级共323名学生作为研究对象,利用Facets软件进行分... Rasch模型可以将被试能力水平和试题难度转换为相同单位,并放在同一把标尺上进行比较,能够真实客观地测量被试与试题的关系,故使用Rasch模型进行初等教育阶段试卷质量分析。以小学六年级共323名学生作为研究对象,利用Facets软件进行分析。研究结果表明:该测验整体难度适中,符合标准参照测验的目的;试题难度集中在中低难度,被试的能力水平整体较高,试题难度未能覆盖到各能力水平的被试,尤其是对能力在中高水平的被试所搜集到的信息较少;部分试题的题总相关系数较小,未能很好地实现试题与测量目标的结合。 展开更多
关键词 教育测量与评价 rasch模型 试卷质量分析
下载PDF
职业英语技能测量的不变性研究
10
作者 杨志强 曾用强 张启然 《外语测试与教学》 2023年第4期11-19,28,共10页
本研究采用MG-CFA和Rasch模型,基于实用英语交际职业技能等级证书(VETS)初级首考数据,从性别、学校类型和专业类型三个维度对VETS的测量不变性进行了检验。MG-CFA用于检验考试整体层面的测量不变性,包括结构不变性、弱不变性、强不变性... 本研究采用MG-CFA和Rasch模型,基于实用英语交际职业技能等级证书(VETS)初级首考数据,从性别、学校类型和专业类型三个维度对VETS的测量不变性进行了检验。MG-CFA用于检验考试整体层面的测量不变性,包括结构不变性、弱不变性、强不变性和严格不变性检验;Rasch用于检验考试题目层面是否存在DIF以及DIF的效应量。MG-CFA分析结果发现VETS对于不同性别和类型的考生均呈现严格不变性,不存在测量偏差;对于财经商贸类和教育与体育类考生的测量呈现弱不变性,这可能和该维度个别任务出现DIF有关。虽然基于Rasch的分析结果显示三个维度的任务呈现显著DIF,但都属于轻度DIF,可以忽略不计。 展开更多
关键词 英语职业技能等级考试 项目功能差异 测量不变性 MG-CFA rasch模型
下载PDF
基于评价推论的大学英语演讲测试评分标准效度验证
11
作者 刘力 《语言测试与评价》 2023年第1期48-60,122,123,共15页
本研究基于效度论证框架中的评价推论,探究一项大学英语公共演讲测试评分标准的效度。研究者以某高校大学英语演讲测试为例,采用多层面Rasch模型对其评分标准进行分析,为其效度验证提供多重实证依据。研究结果表明该演讲评分标准评分维... 本研究基于效度论证框架中的评价推论,探究一项大学英语公共演讲测试评分标准的效度。研究者以某高校大学英语演讲测试为例,采用多层面Rasch模型对其评分标准进行分析,为其效度验证提供多重实证依据。研究结果表明该演讲评分标准评分维度基本设置合理,能够涵盖学生公共演讲能力构念的不同方面,对不同能力的考生区分度良好,并且评分员对于评分标准的使用基本一致。本研究期望能为构建并实施大规模英语公共演讲测试提供一些借鉴。 展开更多
关键词 英语演讲 评分标准 效度验证 评价推论 多层面rasch模型
下载PDF
中文版PROMIS癌症特异性抑郁项目库计算机自适应测试版本的构建及测试 被引量:2
12
作者 朱瑞 杨瑒 +3 位作者 蔡婷婷 吴傅蕾 周婷婷 袁长蓉 《复旦学报(医学版)》 CAS CSCD 北大核心 2023年第4期567-574,共8页
目的评估中文版患者报告结局测量信息系统(Patient Reported Outcome Measurement Information System,PROMIS)癌症特异性抑郁项目库的心理测量学属性,构建计算机自适应测试版本(PROMIS Cancer Depression CAT),并评价其效果。方法采用... 目的评估中文版患者报告结局测量信息系统(Patient Reported Outcome Measurement Information System,PROMIS)癌症特异性抑郁项目库的心理测量学属性,构建计算机自适应测试版本(PROMIS Cancer Depression CAT),并评价其效果。方法采用便利抽样法选取2020年11月—2021年7月在上海2所三级甲等医院的648例癌症患者作为研究对象。在心理测量学评估中,首先基于Rasch模型采用残差的主成分分析、条目残差相关系数、条目特征曲线检验PROMIS癌症特异性抑郁项目库的单维性、局部独立性、单调性假设;其次,通过Rasch模型中的选项特征曲线对选项进行拟合,采用Rasch模型中的Infit MNSQ、Outfit MNSQ、难度参数对每个条目进行拟合;最后,将经过校准后的项目库内容作为PROMIS Cancer Depression CAT的题库,采用Post-hoc模拟方法评价PROMIS Cancer Depression CAT的测量效率和准确性。结果PROMIS癌症特异性抑郁项目库由测试解释的经验方差为68.6%,条目之间的残差相关值都小于0.70,条目特征曲线是单调递增曲线。PROMIS癌症特异性抑郁项目库中的5个选项的峰值均未被相邻选项的特征曲线覆盖,5个选项之间阈值的间隔均大于1且小于5,条目的Infit MNSQ值为[0.54,1.49],Outfit MNSQ值为[0.55,1.49],选项和条目的拟合均在理想范围内,可作为构建PROMIS Cancer Depression CAT的项目库。Post-hoc模拟执行CAT的θ值与整个项目库的θ值相关系数为0.964,选择的平均使用条目数为6.348个。结论中文版PROMIS癌症特异性抑郁项目库满足单维性、局部独立性以及单调性假设,可以用来构建PROMIS Cancer Depression CAT。基于PROMIS癌症特异性抑郁项目库参数构建的计算机自适应测试版本能够高效、准确地测量癌症患者的抑郁水平。 展开更多
关键词 患者报告结局测量信息系统(PROMIS) 癌症 抑郁 计算机自适应测试(CAT) rasch模型
下载PDF
“证据推理”能力测评工具的开发与检验 被引量:2
13
作者 罗玛 《考试研究》 2023年第5期50-60,共11页
“证据推理”能力强调从已有经验、问题情境中识别、转换、形成证据,利用证据进行推理,从而获得结论、解决问题的关键能力。基于测量评价理论的探讨,确立测评工具研制的思路,利用前期研究中确立的“证据推理”能力的内涵结构,参考PISA试... “证据推理”能力强调从已有经验、问题情境中识别、转换、形成证据,利用证据进行推理,从而获得结论、解决问题的关键能力。基于测量评价理论的探讨,确立测评工具研制的思路,利用前期研究中确立的“证据推理”能力的内涵结构,参考PISA试题,研究设计了试测工具。利用效标关联设计和Rasch分析方法检验工具的信效度。根据数据结果对其进行修正,最终形成更为科学、信效度高、实用性好的“证据推理”能力测评工具。研究中测评工具的开发思路和方法,可以为素养、能力测评工作提供一定的借鉴。 展开更多
关键词 “证据推理”能力 测评工具 rasch分析 实证检验
下载PDF
An Application of Classical Test Theory and Manyfacet Rasch Measurement in Analyzing the Reliability of an English Test for Non-English Major Graduates 被引量:1
14
作者 孙海洋 《Chinese Journal of Applied Linguistics》 2010年第2期87-102,126,共17页
本研究以经典测验理论和多侧面Rasch测量模型为基础,运用SPSS和FACETS软件分析了一次"非英语专业研究生英语学位课程考试"的信度。经典测验信度分析结果表明,学生主客观部分的成绩没有显著相关性,三个主观考试题目的内部一致... 本研究以经典测验理论和多侧面Rasch测量模型为基础,运用SPSS和FACETS软件分析了一次"非英语专业研究生英语学位课程考试"的信度。经典测验信度分析结果表明,学生主客观部分的成绩没有显著相关性,三个主观考试题目的内部一致性也不够好,整体内部一致性信度不高。多侧面Rasch测量分析结果显示,两个评分员不同的严厉度、三个主观考试任务各不相同的难度、以及部分学生与某些考试任务的偏差交互作用是导致成绩内部一致性较差的主要因素。这些研究结果对考试设计和评分以及语言教学有如下启示:不仅要训练评分员保持自身一致而且要互相一致;教师应该系统学习和掌握基础的测量理论和考试设计知识,以设计内部一致性信度较高的考试题目或任务;教师在教学中要重视培养和提高学生的综合语言技能。 展开更多
关键词 classical test theory many-facet rasch measurement RELIABILITY bias analysis
原文传递
GT与IRT的比较:北京奥运会男子10米跳台跳水分析 被引量:8
15
作者 俞宗火 唐小娟 王登峰 《心理学报》 CSSCI CSCD 北大核心 2009年第8期773-784,共12页
概化理论(GT)和项目反应理论(IRT)从两个不同的方向发展了经典测量理论,GT和IRT中的多面Rasch测量模型(MFRM)在主观评分中都可以用来估计评分中各变异来源对变异的贡献,对测评的信度进行估计,提出测评改进意见。12名运动员参加了2008北... 概化理论(GT)和项目反应理论(IRT)从两个不同的方向发展了经典测量理论,GT和IRT中的多面Rasch测量模型(MFRM)在主观评分中都可以用来估计评分中各变异来源对变异的贡献,对测评的信度进行估计,提出测评改进意见。12名运动员参加了2008北京奥运会男子10米跳台跳水决赛,比赛共6个回合,7名裁判独立对他们在各个回合的表现进行打分。GT和MFRM比较一致地认为运动员自身、回合、运动员与回合的交互效应是运动员得分的重要变异来源,而裁判员对运动员得分差异的贡献不显著。MFRM同时还估计出难度系数是影响男子跳台跳水成绩的重要变异来源,在评分等级6.5附近存在步校准错乱,得出的运动员成绩排序与2008奥运实际排序有所不同。在GT中难度系数作为隐藏侧面,其效应未能分离出来。GT和MFRM从两个不同的方面给测量提供改进意见:GT发现可以通过增加回合数来提高g系数,而增加裁判数对其影响不大。MFRM给出各侧面的要素(如某裁判、运动员等)的估计值及其标准误,它给出的诊断性拟合统计也有助于甄别异常得分或评分模式。 展开更多
关键词 概化理论 多面rasch测量模型 主观评分
下载PDF
国际教育成效评价协会儿童认知发展状况测验项目功能差异分析 被引量:4
16
作者 王蕾 黄晓婷 《考试研究》 2006年第4期94-107,共14页
本研究旨在从一维和多维的角度检测国际教育成效评价协会(IEA)儿童认知发展状况测验中中译英考题的项目功能差异(DIF)。我们分析的数据由871名中国儿童和557名美国儿童的测试数据组成。结果显示,有一半以上的题目存在实质的DIF,意味着... 本研究旨在从一维和多维的角度检测国际教育成效评价协会(IEA)儿童认知发展状况测验中中译英考题的项目功能差异(DIF)。我们分析的数据由871名中国儿童和557名美国儿童的测试数据组成。结果显示,有一半以上的题目存在实质的DIF,意味着这个测验对于中美儿童而言,并没有功能等值。使用者应谨慎使用该跨语言翻译的比较测试结果来比较中美两国考生的认知能力水平。所幸约有半数的DIF题目偏向中国,半数偏向美国,因此利用测验总分所建立的量尺,应该不至于有太大的偏误。此外,题目拟合度统计量并不能足够地检测到存在DIF的题目,还是应该进行特定的DIF分析。我们探讨了三种可能导致DIF的原因,尚需更多学科专业知识和实验来真正解释DIF的形成。 展开更多
关键词 项目功能差异(DIF) rasch测量模式 考卷翻译 多维rasch测量模式 项目反应理论 认知发展
下载PDF
Rash客观等距测量在PISA中国试测研究中的实践 被引量:11
17
作者 王蕾 《心理学探新》 CSSCI 北大核心 2007年第4期69-73,共5页
Rasch测量是当前心理测量中具有客观等距量尺的测量,克服了传统经典测量的测验依赖和样本依赖的局限。以学生能力国际评价PISA中国试测研究为例,说明PISA如何应用Rasch测量达到跨越国家和地区教育成效比较的测量目的。客观等距量尺研究... Rasch测量是当前心理测量中具有客观等距量尺的测量,克服了传统经典测量的测验依赖和样本依赖的局限。以学生能力国际评价PISA中国试测研究为例,说明PISA如何应用Rasch测量达到跨越国家和地区教育成效比较的测量目的。客观等距量尺研究对改进和完善我国心理测量与教育评价具有重要参考价值。 展开更多
关键词 PISA 教育评价 rasch模型 客观测量 等距量尺
下载PDF
构建我国少儿英语远程计算机自适应测验题库的设想 被引量:3
18
作者 王蕾 黄晓婷 《考试研究》 2006年第3期72-86,共15页
本研究利用建构图设计一套含有六大部分的30道试题。题型包括拼写题、选择题和简答题。共有175名6到14岁儿童参加了此项考试。Rasch分析结果发现题组内局部题目依赖并不严重。信度为0.85。考题的难度和考生能力的配合度相当良好。我们... 本研究利用建构图设计一套含有六大部分的30道试题。题型包括拼写题、选择题和简答题。共有175名6到14岁儿童参加了此项考试。Rasch分析结果发现题组内局部题目依赖并不严重。信度为0.85。考题的难度和考生能力的配合度相当良好。我们根据建构图来编写考题,因此有一定程度的内容效度。但有9道题的难度稍微与原先预期略有出入。有5道题不大吻合Rasch模式的预期,没有发现在性别上有明显的项目功能差异。考生能力与学习英语的时间有正相关。最后探讨了基于信息通讯技术的远程计算机自适应测验的技术问题。 展开更多
关键词 计算机自适应测试 建构图 rasch测量模式 项目反应理论 项目功能差异
下载PDF
中外大学英语教师写作评分行为的对比分析 被引量:10
19
作者 黄玮莹 《外语测试与教学》 2011年第4期27-32,55,共7页
通过运用多层面Rasch模型,本研究对中外大学英语教师的写作评分行为进行微观分析,探讨这两组不同语言背景的大学英语教师对同样的写作样本的评分是否有差异。研究结果表明中外教师的写作评分结果并无显著差异,他们的整体性评分都普遍比... 通过运用多层面Rasch模型,本研究对中外大学英语教师的写作评分行为进行微观分析,探讨这两组不同语言背景的大学英语教师对同样的写作样本的评分是否有差异。研究结果表明中外教师的写作评分结果并无显著差异,他们的整体性评分都普遍比分析性评分更宽松,但中国教师的评分较外籍教师的评分略为宽松。微观的评分行为分析揭示出中外教师对组织、语法和写作规范这三个评分项目上产生了偏差。外籍教师在各评分项目上的评分产生的偏差总数比中国教师多;他们对组织和写作规范的评分偏宽松,而对语法的评分则有偏严厉的趋势。对于不同水平的考生,无论是中国教师还是外籍教师偏宽松的偏差较多;对于水平最高的考生的评分,中国老师偏宽松,而外籍教师则偏严厉。 展开更多
关键词 评分行为 评分项目 考生能力 多层面rasch模型
下载PDF
不同性别评分人差异的实证研究 被引量:1
20
作者 徐鹰 《外语测试与教学》 2013年第3期16-24,共9页
评分人效应是导致评分人差异的主要原因,而已有文献对写作评估中因评分人性别产生的评分人效应的差异研究不多。因此,本研究通过多层面Rasch模型,对9位男评分人和18位女评分人对30份CET4模拟作文的评分结果进行分析,旨在探究不同性别CET... 评分人效应是导致评分人差异的主要原因,而已有文献对写作评估中因评分人性别产生的评分人效应的差异研究不多。因此,本研究通过多层面Rasch模型,对9位男评分人和18位女评分人对30份CET4模拟作文的评分结果进行分析,旨在探究不同性别CET4评分人在评分严厉度、集中趋势和评分人和考生的偏差等三方面的差异。结果表明:(1)尽管评分人个体之间存在严厉度的显著区别,但是男、女评分人在评分严厉度上没有出现明显的组间差异。此外,男评分人容易出现评分不拟合,女评分人容易出现过度拟合。(2)男、女评分人都没有明显的集中趋势,但相对而言男评分人给分出现集中趋势的可能性更大。(3)男评分人的给分更容易出现随机现象,评分一致性较女评分人差,且男、女评分人对不同能力考生产生的偏差具有不同的模式。本研究成果对于大规模二语写作测试的评分人培训和监控有一定参考价值。 展开更多
关键词 二语写作测试 评分人效应 性别差异 多层面rasch模型
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部