基于IRT的决策一致性系数在大规模教育测量中的应用被引量：4

Analyzing classification consistency indices in large-scale assessment based on item response theory

下载PDF

导出

摘要在一个大规模教育测量中,以小学四年级和初中二年级的数学测验为例,使用基于项目反应理论(item response theory,IRT)的测验决策一致性系数作为评价测验信度的标准之一,并比较在测验中选取不同分界分数、分数量尺时决策一致性系数的差异.结果发现:相比经典测验理论(classical test theory,CTT)下的信度系数,基于IRT下的测验整体信度要高于CTT下的信度;划定的分界分数(cut score)个数越少,决策一致性系数越大;分界分数位置会影响决策一致性系数,能力水平在分界分数附近的考生更容易被划分到不同类别中;将测验原始分数转换成量表分数后,多个原始分数对应一个转换分数的规则会增大决策一致性系数. Two real data sets of a large-scale educational assessment program were used to investigate classification consistency indices and to explore pivotal index-influencing factors.It was found that the overall reliability based on IRT was higher than when based on CTT.With decreasing number of cut score and manyto-one transformation rule,classification consistency indices were higher than under other conditions.In the future,it will be useful to apply IRT method and classification consistency indices to the actual educational measurement.

作者杜佳萱陈平辛涛

机构地区北京师范大学心理学院国家基础教育质量监测协同创新中心

出处《北京师范大学学报（自然科学版）》 CAS CSCD 北大核心 2015年第6期643-648,共6页 Journal of Beijing Normal University(Natural Science)

基金国家自然科学基金资助项目(31371047) 教育部哲学社会科学研究重大课题攻关基金资助项目(12JZD040)

关键词决策一致性系数项目反应理论分界分数分数量尺 classification consistency indices item response theory cut score score scale

分类号 B849 [哲学宗教—应用心理学]

引文网络
相关文献

参考文献6

1李峰,朱彬钰,辛涛.十五年来心理测量学研究领域可视化研究——基于CITESPACE的分析[J].心理科学进展,2012,20(7):1128-1138. 被引量：39
2韩宁.评价考试质量的新指标：决策一致性和决策准确性[J].中国考试,2008(6):3-6. 被引量：9
3赵世明.资格认证测验的分类一致性信度估计[J].中国考试,2006(10):30-34. 被引量：4
4黄慧静,辛涛,李珍.矩阵取样设计中的似真值能力估计方法[J].心理科学,2012,35(5):1233-1239. 被引量：2
5陈平,辛涛.Bookmark标准设定中的分界分数估计方法比较[J].北京师范大学学报（自然科学版）,2013,49(1):105-110. 被引量：5
6陈平,李珍,辛涛,高慧健.标准参照测验决策一致性指标研究的总结与展望[J].心理发展与教育,2011,27(2):210-215. 被引量：10

二级参考文献111

1梁永霞,杨中楷,刘则渊.基于CiteSpaceⅡ的航空航天工程前沿研究[J].科学学研究,2008,26(S2):303-312. 被引量：21
2赵世明.资格认证测验的分类一致性信度估计[J].中国考试,2006(10):30-34. 被引量：4
3AERA, APA, & NCME ( 1999 ). Standards for educational and psycho- logical testing. Washington, DC : Author. 35 - 36.
4Brennan, R.L. (2003). Coefficients and indices in generalizability theo- ry(CASMA Research Report No. 1). Iowa City, IA: Center for Ad- vanced Studies in Measurement and Assessment, The University of lo4 wa. (Available on http://www, education, uiowa, edu/easma).
5Brennan, R. L. , & Wan, L. ( 2004 ). A bootstrap procedure for estima- ting decision consistency for single-administration complex assessments (CASMA Research Report No. 17). Iowa City, IA: Center for Ad- vanced Studies in Measurement and Assessment, The University of Io- wa. (Available on http://www, education, uiowa, edn/casma).
6Crocker, L. M., & Algina, J. (1986). Introduction to classical and modern test theory. Belmont in USA : Thomson Learning Academic Re- source Center, 192 - 211.
7Hanson, B. A. ,& Brennan, R. L. (1990). An investigation of classifi- cation consistency indexes estimated under alternative strong true score models. Journal of Educational Measurement, 27 (4) ,345 - 359.
8Lee, W. C. , et al. (2002). Estimating consistency and accuracy indi- ces for multiple classifications. Applied Psychological Measurement, 26 (4),412-432.
9Lee, W. C. ( 2005 ). Classification consistency under the compound multt] nomial model( CASMA Research Report No, 13). Iowa City, IA: Ce~ ter for Advanced Studies in Measurement and Assessment, The Unive1 sity of Iowa. (Available on http://www, education, uiowa, edu/casI ma). /.
10Lee, W. C. (2005a). Classification consistency and accuracy for com- plex assessments using item response theory ( CASMA Research Report No. 27). Iowa City, IA : Center for Advanced Studies in Measurement and Assessment, The University of Iowa. (Available on http://www. education, uiowa, edu/casma).

共引文献55

1刘丽惠,梁发超.国内农村宅基地退出研究的知识图谱分析[J].资源开发与市场,2020,0(4):383-388. 被引量：3
2王智聪,赵念实.国际人格研究领域的代表人物与学术团体——基于五种人格研究期刊的可视化分析[J].心理月刊,2024(11):1-7.
3唐杨洋,张得保,陶涛.基于Cite Space的冰雪体育文化研究可视化图谱分析[J].冰雪运动,2019,41(4):74-78. 被引量：6
4关丹丹,孙晓敏.考试抄袭识别的统计学方法——Kappa统计量[J].中国考试,2009(11):8-13. 被引量：1
5陈平,李珍,辛涛,高慧健.标准参照测验决策一致性指标研究的总结与展望[J].心理发展与教育,2011,27(2):210-215. 被引量：10
6黄锐.概化理论下的标准参照语言测试可靠性论证[J].西南农业大学学报（社会科学版）,2013,11(2):65-70. 被引量：1
7辛伟,雷二庆,常晓,宋芸芸,苗丹民.知识图谱在军事心理学研究中的应用——基于ISI Web of Science数据库的Citespace分析[J].心理科学进展,2014,22(2):334-347. 被引量：76
8李峰,罗良清,潘露露.对多维贫困指标和权重的探索--基于CFPS数据的分析[J].江西财经大学学报,2018(6):82-93. 被引量：14
9吴磊.基于知识图谱的PBL教学方法文献可视化研究[J].艺术教育,2019,0(1):180-182. 被引量：1
10黄武,胡新文,毛帅,闵义.基于文献计量:木薯近年研究热点和趋势分析[J].热带作物学报,2018,39(12):2521-2531. 被引量：5

同被引文献23

1教育部关于基础教育课程改革实验区初中毕业考试与普通高中招生制度改革的指导意见[J].基础教育外语教学研究,2005(3). 被引量：2
2江西师大"现代教育和心理测量通用分析系统"研制组,漆书青,周骏,张青华.用信息函数法对标准参照测验作质量分析[J].心理与行为研究,2003,1(1):34-39. 被引量：20
3教育部“初中毕业和高中招生考试制度改革”项目组.解析初中毕业生学业考试改革[J].中小学管理,2004(6):5-7. 被引量：3
4涂冬波,蔡艳.信息函数在标准参照测验中的应用研究[J].江西师范大学学报（自然科学版）,2005,29(2):167-172. 被引量：19
5徐敏,黄光扬.从考试信度角度解析中考等级制[J].中小学管理,2006(6):25-27. 被引量：3
6赵世明.资格认证测验的分类一致性信度估计[J].中国考试,2006(10):30-34. 被引量：4
7韩宁.评价考试质量的新指标：决策一致性和决策准确性[J].中国考试,2008(6):3-6. 被引量：9
8李珍,辛涛,陈平.标准设定:步骤、方法与评价指标[J].考试研究,2010,6(2):83-95. 被引量：16
9王晓华,文剑冰.多元概化理论在高等教育达标性考试中的应用[J].心理科学,2010,33(5):1223-1226. 被引量：4
10陈平,李珍,辛涛,高慧健.标准参照测验决策一致性指标研究的总结与展望[J].心理发展与教育,2011,27(2):210-215. 被引量：10

引证文献4

1温红博,卜文娟,刘先伟.初中学业水平考试中固定比例法标准设定的信度分析[J].考试研究,2017,13(5):55-63. 被引量：3
2卜文娟,温红博,刘先伟.初中学业水平考试中固定分数法标准设定的信度分析——以中考数学为例[J].数学教育学报,2018,27(3):39-44. 被引量：8
3宋吉祥,李付鹏.高中学业水平考试等级赋分的分类一致性和准确性研究[J].教学与管理,2022(24):37-41. 被引量：1
4冯攀,张泉慧,罗慧琴.2016至2020年医师资格考试医学综合考试决策一致性分析[J].中华医学教育杂志,2022,42(8):753-756.

二级引证文献11

1严卿,黄友初,罗玉华,陈昊,喻平.初中生逻辑推理的测验研究[J].数学教育学报,2018,27(5):25-32. 被引量：13
2马文杰,徐莉芳.“数学解题反思”研究的元研究[J].数学教育学报,2018,27(5):93-98. 被引量：15
3揭薇.英语口语考试与中国英语能力等级量表对接研究——以CET-SET 4为例[J].外语界,2019(1):71-80. 被引量：34
4张春青.取消考试大纲后中考英语命题的测试学考量[J].基础外语教育,2020,22(3):92-100. 被引量：2
5郑珊.运用“导学案”培养数学学困生自主学习的措施分析[J].读好书,2022(3):257-259.
6沈金强,童晓星.K-均值聚类算法在考试评价中的应用研究[J].学园,2021,14(26):48-50.
7杨观惠,王晓慧.基于IRT框架采用Angoff法进行合格标准设置的探索[J].考试研究,2023,19(4):59-66.
8仝虎,刘明岩.江苏新高考再选科目赋分方案评析与仿真研究[J].教育与考试,2023(6):5-15.
9盛昊灿,张景斌,陈文俊.“图形与几何”内容领域解答题特征分析及启示——以2023年9省市中考数学试卷为例[J].中学数学月刊,2024(4):22-26.
10温红博,刘先伟,姜有祥.K-means聚类方法在中考标准设定中的信度分析[J].中国考试,2024(8):69-78.

1一帆.经典测验理论[J].教育测量与评价（理论版）,2009(7):26-26. 被引量：3
2汪存友,余嘉元.CTT与IRT参数不变性比较的实证研究综述[J].南京师大学报（社会科学版）,2008(2):93-98. 被引量：1
3一帆.项目反应理论[J].教育测量与评价（理论版）,2009(8):46-46. 被引量：1
4吴静.CTT、IRT和GT三种测验理论之比较[J].黑龙江教育学院学报,2008,27(12):77-78. 被引量：13
5刘之昊.触觉影响决策[J].科学画报,2010,0(8):62-63.
6唐宁玉,戴志恒.项目反应理论在编制现代性量表中的应用[J].心理科学,1995,18(3):144-148. 被引量：2
7何宁,苗丹民,霍涌泉.透析GT信度观及其存在的问题[J].应用心理学,2007,13(1):87-90.
8罗鸿.我国经典测量理论研究现状述评[J].安阳师范学院学报,2007(5):134-137. 被引量：2
9鲁直,苏永华.我国心理测量学二十年发展的文献计量分析研究[J].心理科学,1999,22(5):469-470.
10漆书青.一种与经典测验理论有别的方法——项目反应理论评介[J].江西师范大学学报（哲学社会科学版）,1986,19(4):31-37.

北京师范大学学报（自然科学版）

2015年第6期

浏览历史

内容加载中请稍等...

基于IRT的决策一致性系数在大规模教育测量中的应用被引量：4

参考文献6

二级参考文献111

共引文献55

同被引文献23

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于IRT的决策一致性系数在大规模教育测量中的应用 被引量：4

参考文献6

二级参考文献111

共引文献55

同被引文献23

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于IRT的决策一致性系数在大规模教育测量中的应用被引量：4