基于大型语言模型的药理学考试主观题智能评分研究

Research on intelligent scoring of subjective questions in Pharmacology exams based on Large Language Models

下载PDF

导出

摘要文章探讨大型语言模型(large language model,LLM)在药理学主观题智能评分中的应用效果。选取ChatGPT 4.0、Claude 2、讯飞星火认知大模型3.0、智谱清言3.0和文心一言3.5五种LLM,通过多种评分标准和提示工程技术,对药理学短文本类主观题进行评分。结果显示,ChatGPT 4.0评分上表现最为出色,平均绝对误差率(mean absolute error rate,MAER)和均方根误差(root mean square error,RMSE)分别为0.0517和1.0339,且组内相关系数(ICC)高达0.936,表明其评分具有较高的一致性和准确性。Claude 2紧随其后,MAER和RMSE分别为0.0724和1.2999,ICC为0.893,同样显示出良好的评分性能。其他模型在评分一致性和偏差方面表现较差,尤其是讯飞星火认知大模型3.0,MAER和RMSE分别为0.2828和3.0286,ICC仅为0.217。总体来看,LLM能有效利用其语言理解和逻辑推理能力,实现主观题的智能评分,并提供详尽的评分解析,这有助于提升学生的学习效率和自我评估能力。相比传统人工评分,LLM在主观题智能评分方面具有更高的效率和成本效益。该研究为ChatGPT等先进模型在教育领域的应用提供了新的视角和方法,也为未来教育结合人工智能的发展与应用提供借鉴。 This article explores the application effect of Large Language Model(LLM)in in⁃telligent scoring of subjective questions in Pharmacology.Five LLMs,namely ChatGPT 4.0,Claude 2,iFLYTEK Spark Large Cognitive Model 3.0,ChatGLM 3.0,and ERNIE Bot 3.5,were selected to score the subjective questions of short text of Pharmacology through a variety of scoring standards and prompt engineering techniques.The results showed that in terms of scoring,ChatGPT 4.0 performed the best,with mean absolute error rate(MAER)and root mean square error(RMSE)of 0.0517 and 1.0339,respectively,and intraclass correlation coefficient(ICC)of 0.936,indicating a high level of consistency and accuracy in its scoring.Claude 2 followed closely,with MAER and RMSE of 0.0724 and 1.2999,respectively,and ICC of 0.893,demonstrating good scoring performance.Other models perform poorly in terms of score consistency and bias, especially iFLYTEK Spark Large Cognitive Model 3.0, with MAER and RMSE of 0.282 8 and 3.028 6, respectively, and ICC of only 0.217. Overall, LLM can effectively utilize its language comprehension and logical reasoning abilities, achieve intelligent scoring of subjective questions, and provide detailed scoring analysis, which helps to improve student’s learning efficiency and self-evaluation ability. Compared with traditional manual scoring, LLM has higher efficiency and cost-effectiveness in intelligent scoring of subjective ques⁃ tions. This study provides a new perspective and method for the application of advanced models such as ChatGPT in the field of education, and also provides reference for the development and application of artificial intelligence in future education.

作者向巴卓玛王珍珍畅洪昇赵岩松廖国龙马星光 XIANGBA Zhuoma;WANG Zhenzhen;CHANG Hongsheng;ZHAO Yansong;LIAO Guolong;MA Xingguang(Beijing University of Chinese Medicine,School of Management,Beijing 102488,China;Beijing University of Chinese Medicine,School of Chinese Materia Medica,Beijing 102488,China;Beijing University of Chinese Medicine,School of Traditional Chinese Medicine,Beijing 102488,China)

机构地区北京中医药大学管理学院北京中医药大学中药学院北京中医药大学中医学院

出处《中国医学教育技术》 2024年第5期572-579,共8页 China Medical Education Technology

基金北京中医药大学哲学社会科学培育基金项目“基于敏捷数据管理方法论和大语言模型的医学主观题智能阅卷研究”(2024-JYB-PY-006) 北京中医药大学教育科学研究课题“基于低代码的在线考试系统及可视化分析”(XJY22048)。

关键词人工智能大型语言模型主观题智能评分药理学提示工程 artificial intelligence Large Language Models intelligent scoring of subjective questions Pharmacology prompt engineering

分类号 G434 [文化科学—教育技术学] G642.0 [文化科学—高等教育学]

引文网络
相关文献

参考文献10

1王士进,巩捷甫,汪意发,宋巍,陈志刚,魏思.基于要点匹配的文科主观题通用评分[J].中文信息学报,2023,37(6):165-178. 被引量：1
2王静仪.大型语言模型技术的影响、挑战与应对策略[J].华东科技,2023(6):96-98. 被引量：3
3张峰,陈玮.ChatGPT与高等教育:人工智能如何驱动学习变革[J].重庆理工大学学报（社会科学）,2023,37(5):26-33. 被引量：20
4张大为,王琦菲.基于文本挖掘的主观类型电子作业智能辅助评分方法研究[J].微型电脑应用,2023,39(10):5-9. 被引量：1
5肖国亮,马磊,袁峰,郭成锋,邢金宝.智能评分技术应用效果的评价研究[J].中国考试,2023(10):17-27. 被引量：1
6刘明,吴忠明,廖剑,任伊灵,苏逸飞.大语言模型的教育应用:原理、现状与挑战——从轻量级BERT到对话式ChatGPT[J].现代教育技术,2023,33(8):19-28. 被引量：33
7谭红叶,午泽鹏,卢宇,段庆龙,李茹,张虎.基于代表性答案选择与注意力机制的短答案自动评分[J].中文信息学报,2019,33(11):134-142. 被引量：7
8戴岭,赵晓伟,祝智庭.智慧问学:基于ChatGPT的对话式学习新模式[J].开放教育研究,2023,29(6):42-51. 被引量：28
9吴兰岸,闫寒冰,黄发良,闭应洲.大型语言模型在高等教育中的应用分析与现实挑战[J].现代教育技术,2023,33(8):29-37. 被引量：9
10柯沛,雷文强,黄民烈.以ChatGPT为代表的大型语言模型研究进展[J].中国科学基金,2023,37(5):714-723. 被引量：9

二级参考文献59

1张光陆.探究式交谈对学生深度学习的影响:基于课堂话语分析[J].全球教育展望,2021,50(5):3-14. 被引量：8
2张传燧.孔子与苏格拉底对话教学法:比较文化视角[J].教师教育研究,2006,18(6):62-66. 被引量：33
3张传燧,周卓莹.学生“问学”意识和能力培养[J].中国教育学刊,2007(6):53-55. 被引量：22
4张华.对话教学：涵义与价值[J].全球教育展望,2008,37(6):7-16. 被引量：154
5李萌涛,杨晓果,冯国栋,吴敏,陈纪梁,胡国平.大规模大学英语口语测试朗读题型机器阅卷可行性研究与实践[J].外语界,2008(4):88-95. 被引量：35
6黎琼锋,何洪.对话,不仅仅是对话——教学中的对话及其价值意蕴[J].全球教育展望,2009,38(10):21-25. 被引量：16
7武永江.论导师与研究生探究型对话的构建[J].中国高教研究,2011(6):56-58. 被引量：4
8陆道坤.否定之否定:中国近现代教师教育思想的演进逻辑[J].江苏高教,2013(5):149-152. 被引量：2
9吕鸣.智能测评技术在大规模英语口语考试评卷中的探索与实践[J].中国考试,2015(10):51-57. 被引量：7
10张雪莉,张会会,马蓉,赵静华.运用基于SCIT的形成性评价改进劣构型作业批改绩效的个案研究[J].电化教育研究,2016,37(4):49-54. 被引量：2

共引文献98

1王明皓,殷涛,杨洪杰,胡杰鑫,陈家宾.知识图谱和大模型技术发展与应用[J].网络安全与数据治理,2023,42(S01):126-131.
2王金水,郭伟文,陈俊岩,唐郑熠.多特征融合的电气领域主观题自动评分方法[J].贵州大学学报（自然科学版）,2022,39(2):77-82. 被引量：3
3肖国亮,马磊,袁峰,郭成锋.基于领域预训练的孪生网络智能评分方法[J].中国考试,2023(4):78-85. 被引量：2
4罗志佳,陈韦宏.ChatGPT介入教育领域的技术运用、风险洞悉与发展路径[J].重庆理工大学学报（社会科学）,2023,37(6):119-128. 被引量：7
5卢宇,骈扬,陈鹏鹤.新型智能导学系统构建及其关键技术[J].中国远程教育,2023(7):30-38. 被引量：4
6汪为.ChatGPT应用于高校思想政治教育的潜在风险及应对策略[J].湖北第二师范学院学报,2023,40(7):20-24. 被引量：4
7翟雪松,楚肖燕,焦丽珍,童兆平,李艳.基于“生成式人工智能+元宇宙”的人机协同学习模式研究[J].开放教育研究,2023,29(5):26-36. 被引量：19
8卢宇,章志,马安瑶,陈鹏鹤.可解释自动批阅模型构建与应用[J].开放教育研究,2023,29(5):98-105.
9肖国亮,马磊,袁峰,郭成锋,邢金宝.智能评分技术应用效果的评价研究[J].中国考试,2023(10):17-27. 被引量：1
10王士进,巩捷甫,汪意发,宋巍,陈志刚,魏思.基于要点匹配的文科主观题通用评分[J].中文信息学报,2023,37(6):165-178. 被引量：1

1喻录容,何先元,张义兵,程鹏,李昕燃.互联网途径下“中药药理学”考试与质量评价[J].教育教学论坛,2021(45):13-16. 被引量：1
2韩伟鹏,尹小梅,王健,李学军,杨吉江.应用大语言模型解答儿童哮喘问题的效果研究[J].实用临床医药杂志,2024,28(11):6-11.
3生成式AI“独角兽”图鉴[J].中国中小企业,2024(7):27-29.
4郭旦怀,吴若玲,卢罡,韩永明.AIGC在大学计算机教育教学中的有效利用[J].计算机教育,2024(7):35-40.
5LU JIAJUN.Finding the Magic Key[J].China Today,2024,73(9):67-69.
6皮如意.智慧农业让新一代农人更“耳聪目明”[J].村委主任,2024(13):79-81.
7成蒙蒙.高校大学生职业生涯规划能力现实困境和实施路径——以电子商务专业学生为例[J].教育教学论坛,2024(29):185-188.
8徐美爱,张玉,李美川,董伶俐,吴敏,廖良凯,朱杭溢,孔祥勇.mCTA联合FastStroke快速卒中软件技术在急性缺血性脑卒中的侧支循环评估中的应用价值[J].影像研究与医学应用,2024,8(15):74-76.
9王洪伟,赵家玲,黄宇欣,冯素玲.在线评论一致性对消费者决策的影响[J].工业技术经济,2024,43(8):139-149.
10钟明霞,王鹏飞.标准化肾肿瘤影像解剖特征与术式选择的相关性分析[J].中国标准化,2024(14):276-279.

中国医学教育技术

2024年第5期

浏览历史

内容加载中请稍等...

基于大型语言模型的药理学考试主观题智能评分研究

参考文献10

二级参考文献59

共引文献98

相关作者

相关机构

相关主题

浏览历史