期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
不同大型语言模型与不同水平医学专业人士回答眼科问题的对比研究
1
作者 黄慧 胡瑾瑜 +7 位作者 王晓宇 叶书苑 吴世楠 陈程 何良琪 曾艳梅 魏红 邵毅 《国际眼科杂志》 CAS 2024年第3期458-462,共5页
目的:评估3种不同的大型语言模型(LLM,包括GPT-3.5、GPT-4和PaLM2)在回答眼科专业问题中的表现并与3种不同水平的专业人群(医学本科生、医学硕士、主治医师)进行比较。方法:分别对三种不同的LLM和3种不同水平的专业人群(包括了本科生9名... 目的:评估3种不同的大型语言模型(LLM,包括GPT-3.5、GPT-4和PaLM2)在回答眼科专业问题中的表现并与3种不同水平的专业人群(医学本科生、医学硕士、主治医师)进行比较。方法:分别对三种不同的LLM和3种不同水平的专业人群(包括了本科生9名,专业型研究生6名,主治医师3名)进行一项由100道眼科单项选择题组成的测试,问题涵盖了眼科基础知识、临床知识、眼科检查诊断方法以及眼病相关治疗手段。从平均得分、答题稳定性和答题自信心等方面综合评估LLM的性能并与人类组进行比较。结果:在平均测试得分中,每个LLM都在总体上优于本科生(GPT-4:56分,GPT-3.5:42分,PaLM2:47分,本科生:40分),其中GPT-3.5、PaLM2略低于硕士水平(硕士:51分),而GPT-4则表现出与主治医师相当的水平(主治医师:62分)。另外,GPT-4表现出明显高于GPT-3.5和PaLM2的答题稳定性和答题自信心。结论:以GPT-4为代表的LLM在眼科领域表现的较为出色,LLM模型可为临床医生和医学教育进行临床决策及教学辅助。 展开更多
关键词 大型语言模型(LLM) 自然语言处理 眼科问题
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部