摘要
本研究以经典测验理论和多侧面Rasch测量模型为基础,运用SPSS和FACETS软件分析了一次"非英语专业研究生英语学位课程考试"的信度。经典测验信度分析结果表明,学生主客观部分的成绩没有显著相关性,三个主观考试题目的内部一致性也不够好,整体内部一致性信度不高。多侧面Rasch测量分析结果显示,两个评分员不同的严厉度、三个主观考试任务各不相同的难度、以及部分学生与某些考试任务的偏差交互作用是导致成绩内部一致性较差的主要因素。这些研究结果对考试设计和评分以及语言教学有如下启示:不仅要训练评分员保持自身一致而且要互相一致;教师应该系统学习和掌握基础的测量理论和考试设计知识,以设计内部一致性信度较高的考试题目或任务;教师在教学中要重视培养和提高学生的综合语言技能。
本研究以经典测验理论和多侧面Rasch测量模型为基础,运用SPSS和FACETS软件分析了一次"非英语专业研究生英语学位课程考试"的信度。经典测验信度分析结果表明,学生主客观部分的成绩没有显著相关性,三个主观考试题目的内部一致性也不够好,整体内部一致性信度不高。多侧面Rasch测量分析结果显示,两个评分员不同的严厉度、三个主观考试任务各不相同的难度、以及部分学生与某些考试任务的偏差交互作用是导致成绩内部一致性较差的主要因素。这些研究结果对考试设计和评分以及语言教学有如下启示:不仅要训练评分员保持自身一致而且要互相一致;教师应该系统学习和掌握基础的测量理论和考试设计知识,以设计内部一致性信度较高的考试题目或任务;教师在教学中要重视培养和提高学生的综合语言技能。