标准参照测验及其等级线信度的概化理论分析被引量：11

Total Score and Cut-score Dependability of Criterion-referenced Testing:A Generalizability Study

下载PDF

导出

摘要在测量工作中,误用经典测验理论方法估计标准参照性测验的整体信度和等级线决策信度的情况非常突出。如,无论测量设计是交叉的还是嵌套的,也无论测验结果是做常模参照性解释,还是做标准参照性解释,测验工作者往往只报告克龙巴赫α系数或经典测验理论中的其它少数几个信度指标,而误把整体信度作为等级线信度的现象则更加普遍,这是十分不妥的。本文借用概化理论中的可靠性指数Ф和Ф(λ)公式,分别针对交叉设计和嵌套设计,就标准参照性测验的整体信度和等级分数线决策信度的估计问题进行了探讨。用数据演示的方法比较了交叉设计与嵌套设计在估计标准参照性测验整体信度方面的差异,展示了等级决策分数线决策信度的估计方法。 In criterion-referenced testing, dependability index based on generalizability theory is the correct indicator of measurement reliability. The present study presents the rationales and procedures for estimating dependability when the purpose of the test is to determine domain status of the individuals. Another important issue in criterion-referenced testing is how to determine reliability of different cut-scores. It is shown in this study that, reliability varies depending on the distance between a particular cut-score and the overall mean of the test. Cut-scores closer to the mean were found to have lower dependability than those farther away from the mean. It is also shown that the commonly used Cronbach ? is not an adequate index of reliability for criterion-referenced use of a test. 

作者杨志明

机构地区香港中文大学教育心理学系

出处《心理学探新》 CSSCI 2003年第3期52-56,共5页 Psychological Exploration

关键词标准参照性测试经典测验理论等级线决策信度概化理论整体信度数据结构心理测验 generalizability theory criterion-referenced testing cut-score dependability

分类号 G449.1 [哲学宗教—发展与教育心理学]

引文网络
相关文献

参考文献12

1刘远我,张厚粲.概化理论在作文评分中的应用研究[J].心理学报,1998,30(2):211-218. 被引量：54
2杨志明张厚粲.用概化理论研究测量误差初探[J].北京师范大学学报：自然科学版,1992,28(2):62-68.
3杨志明,张雷.用多元概化理论对普通话的测试[J].心理学报,2002,34(1):50-55. 被引量：21
4国家语言文字委员会普通话培训测试中JD 《语言文字应用》编辑部合编.普通话水平测试的理论与实践[E].北京:商务印书馆,1998.200-204.
5Brennan R L. Generalizability Theory[ M], New York:Springer- Verlag, 2001.
6Brennan R L. MGENOVA[A]. Iowa Testing Programs[C], University of Iowa, 1999.
7Brennan R L. g]ements of generalizability theory[ M].Iowa City, IA: American College Testing, 1983.
8Brennan R L. Elements of generalizability theory [ M ](rev ed). Iowa City, IA: American College Testing,1992.
9Chang L, Hoceva D. Models of generalizability theory in analyzing existing faculty evaluation data [ J ]. Applied Measurement in Education, 2000, 13:2.55 - 275.
10Chang L. Dependability of anchoring labels of Likerttype scales[J]. Educational and Psychological Measurement, 1997, 57: 808-815.

二级参考文献3

1郑日昌，教育研究，1985年，2期，26页
2章志光（译），课堂教育心理学，1983年，462页
3刘远我,张厚粲.概化理论在作文评分中的应用研究[J].心理学报,1998,30(2):211-218. 被引量：54

共引文献67

1席仲恩,汪顺玉.英语作文整体评分与分项评分的计量学考量[J].英语研究,2010,8(3):65-70. 被引量：1
2彭平根,艾平.评价中心测评的评分误差分析研究[J].心理科学,2004,27(4):955-957. 被引量：7
3杨志明,张雷.韦氏儿童智力量表能否测量第3因子——WISC-CR的多元概化理论研究[J].心理科学,2003,26(2):305-307. 被引量：15
4杨万兵.普通话水平测试性质浅论[J].学术论坛,2004,27(5):137-140. 被引量：1
5杨志明,张雷.用多元概化理论对普通话的测试[J].心理学报,2002,34(1):50-55. 被引量：21
6任春艳.HSK作文评分客观化探讨[J].汉语学习,2004(6):58-67. 被引量：17
7王占礼.试卷样本同质性对概化理论测评精度的影响[J].青岛远洋船员学院学报,2004,25(4):54-57.
8李伟明,严芳.概化理论中的模型选择、数据解释和指标比较——评刘远我等的两篇论文[J].心理学报,2001,33(5):467-470. 被引量：3
9王占礼 ,张红梅 .SEPT口试方案设计[J].外语电化教学,2005(2):72-76. 被引量：4
10李树梅,孙庆祝.对主观性体育测试评价中非主体性因素的研究[J].体育科学,2005,25(5):23-25. 被引量：2

同被引文献131

1教育部关于基础教育课程改革实验区初中毕业考试与普通高中招生制度改革的指导意见[J].基础教育外语教学研究,2005(3). 被引量：2
2罗发友,王记志,刘友金.概化理论在教学水平测评中的应用[J].理工高教研究,2002,21(5):98-100. 被引量：5
3罗发友,刘伶俐,刘友金.概化理论在高校教师教学水平测评中的应用研究[J].内蒙古农业大学学报（社会科学版）,2002(4):61-63. 被引量：3
4梁永霞,杨中楷,刘则渊.基于CiteSpaceⅡ的航空航天工程前沿研究[J].科学学研究,2008,26(S2):303-312. 被引量：21
5江西师大"现代教育和心理测量通用分析系统"研制组,漆书青,周骏,张青华.用信息函数法对标准参照测验作质量分析[J].心理与行为研究,2003,1(1):34-39. 被引量：19
6教育部“初中毕业和高中招生考试制度改革”项目组.解析初中毕业生学业考试改革[J].中小学管理,2004(6):5-7. 被引量：3
7彭平根,艾平.评价中心测评的评分误差分析研究[J].心理科学,2004,27(4):955-957. 被引量：7
8杨志明,张雷.韦氏儿童智力量表能否测量第3因子——WISC-CR的多元概化理论研究[J].心理科学,2003,26(2):305-307. 被引量：15
9张雷,侯杰泰,何伟杰,文剑冰,王渝光.普通话测试的录音评分可行性、信度及经济效率[J].心理学报,2001,33(2):97-103. 被引量：13
10杨志明,张雷.用多元概化理论对普通话的测试[J].心理学报,2002,34(1):50-55. 被引量：21

引证文献11

1甘良梅,余嘉元.标准参照测验分数体系的探讨研究[J].心理学探新,2006,26(3):79-83. 被引量：7
2敖勇前.概化理论研究综述[J].皖西学院学报,2008,24(2):49-52. 被引量：5
3李峰,朱彬钰,辛涛.十五年来心理测量学研究领域可视化研究——基于CITESPACE的分析[J].心理科学进展,2012,20(7):1128-1138. 被引量：39
4潘海燕,丁元林,杨铮,万崇华.现代测量理论及其在生存质量研究中的应用[J].预防医学论坛,2012,18(8):636-638. 被引量：3
5柴省三.二项式模型在标准参照性语言测验长度研究中的应用[J].考试研究,2013,9(4):51-59.
6高淑印,郑刚.天津市初等信息技术考试标准设定方法的研究与实践[J].考试研究,2013,9(4):76-83.
7温红博,刘先伟,唐文君.基于概化理论的识字量测验测试用字数研究[J].语言文字应用,2016(1):74-84. 被引量：3
8温红博,卜文娟,刘先伟.初中学业水平考试中固定比例法标准设定的信度分析[J].考试研究,2017,13(5):55-63. 被引量：2
9卜文娟,温红博,刘先伟.初中学业水平考试中固定分数法标准设定的信度分析——以中考数学为例[J].数学教育学报,2018,27(3):39-44. 被引量：7
10刘潇.标准参照测验相关理论和评价指标的综述[J].科教导刊（电子版）,2017,0(6):132-132.

二级引证文献70

1刘丽惠,梁发超.国内农村宅基地退出研究的知识图谱分析[J].资源开发与市场,2020,0(4):383-388. 被引量：3
2李莉文,徐建.大学英语口语考试评分信度研究——以北外保送生口语考试为例[J].中国ESP研究,2020(2):71-79.
3王智聪,赵念实.国际人格研究领域的代表人物与学术团体——基于五种人格研究期刊的可视化分析[J].心理月刊,2024(11):1-7.
4张海威,张雪妍,张铁军,王睿昕.留学生识字量表编制研究[J].世界汉语教学,2021(1):126-142. 被引量：2
5唐杨洋,张得保,陶涛.基于Cite Space的冰雪体育文化研究可视化图谱分析[J].冰雪运动,2019,41(4):74-78. 被引量：6
6陈韵,周正履.评价语言测试质量的三种理论模型对比研究[J].西安文理学院学报（社会科学版）,2011,14(6):101-104.
7徐岩,丁朝蓬,王利.新课程实施以来学生评价改革的回顾与思考[J].课程．教材．教法,2012,32(3):12-21. 被引量：31
8李微,罗家洪,万崇华,李高峰,卢玉波,杨宏英,孟琼.经典测量理论与概化理论结合评价卵巢癌患者生命质量测定量表中文版的信度研究[J].中国全科医学,2013,16(7):749-751. 被引量：15
9辛伟,雷二庆,常晓,宋芸芸,苗丹民.知识图谱在军事心理学研究中的应用——基于ISI Web of Science数据库的Citespace分析[J].心理科学进展,2014,22(2):334-347. 被引量：76
10杜婧,高燕琳,韦再华,苏建婷.基于概化理论的北京市居民自报健康调查问卷信度分析[J].现代预防医学,2014,41(13):2407-2409. 被引量：3

1胡维芳.论项目反应理论[J].高等理科教育,2005(3):64-66. 被引量：10
2田霖,韦小满,王桥影,赵晓茫.基于概化理论构建自学考试信度分析框架[J].考试研究,2013,9(5):27-33. 被引量：2
3孟琼,陈平,王萍,陈莹,何利平,喻箴.基于概化理论的医科院校教师教学水平学生评价量表信度分析[J].中国高等医学教育,2016(8):17-18. 被引量：2
4俞晓琳.项目反应理论与经典测验理论之比较[J].南京师大学报（社会科学版）,1998(4):79-82. 被引量：27
5隋毅,伍畅,隋欣.经典测验理论在移动教育系统中的应用[J].中国电子商务,2013(7):156-156.
6周振江.高中信息技术嵌套教学尝试[J].试题与研究（教学论坛）,2012(6):15-15. 被引量：2
7卢燕,张颖,王钢,张泉慧.心血管内科专科医师考试面试评分者信度的概化理论研究[J].中国高等医学教育,2013(12):19-19. 被引量：1
8罗莲.告别“标准参照测验”和“常模参照测验”的二元划分[J].中国考试,2007(6):18-22. 被引量：12
9何立国,周爱保.“青少年学生生活满意度量表”的概化理论研究[J].心理科学,2006,29(5):1199-1202. 被引量：20
10范晓玲,龚耀先.4-6年级多重成就测验的编制II:信度考验[J].中国临床心理学杂志,2006,14(6):553-555. 被引量：3

心理学探新

2003年第3期

浏览历史

内容加载中请稍等...

标准参照测验及其等级线信度的概化理论分析被引量：11

参考文献12

二级参考文献3

共引文献67

同被引文献131

引证文献11

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

标准参照测验及其等级线信度的概化理论分析 被引量：11

参考文献12

二级参考文献3

共引文献67

同被引文献131

引证文献11

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

标准参照测验及其等级线信度的概化理论分析被引量：11