面向古文自然语言处理生成任务的大语言模型评测研究

Research on Large Language Model Evaluation for the Generation Task of NaturalLanguage Processing in Classical Chinese

下载PDF

导出

摘要大语言模型的频繁发布为大语言模型的评测研究带来了机遇与挑战,针对通用领域大语言模型的评测体系日趋成熟,而面向垂直领域的大语言模型评测仍在起步阶段,本文以古文领域评测为切入点,从语言和知识两个维度构建了一批古籍领域评测任务,并选取当前各大榜单中性能较为优越的13个通用领域大语言模型进行评测。评测结果显示,ERNIE-Bot在古籍领域知识方面遥遥领先于其他模型,而GPT-4模型在语言能力方面表现出最佳性能,在开源模型中,ChatGLM系列模型表现最为出色。通过构建评测任务和数据集,制定了一套适用于古籍领域的大语言模型评测标准,为古籍领域大语言模型性能评测提供了参考,也为后续古籍大语言模型训练过程中的基座模型选取提供了依据。 The rapid development of large language models(LLMs)presents both opportunities and challenges for their evaluation.While evaluation systems for general-domain LLMs are becoming more refined,assessments in specialized fields remain in the early stages.This study evaluates LLMs in the domain of classical Chinese,designing a series of tasks based on two key dimensions:language and knowledge.Thirteen leading general-domain LLMs were selected for evaluation using major benchmarks.The results show that ERNIE-Bot excels in domain-specific knowledge,while GPT-4 demonstrates the strongest language capabilities.Among open-source models,the ChatGLM series exhibits the best overall performance.By developing tailored evaluation tasks and datasets,this study provides a set of standards for evaluating LLMs in the classical Chinese domain,offering valuable reference points for future assessments.The findings also provide a foundation for selecting base models in future domain-specific LLM training.

作者朱丹浩赵志枭张一平孙光耀刘畅胡蝶王东波 Zhu Danhao;Zhao Zhixiao;Zhang Yiping;Sun GuangYao;Liu Chang;Hu Die;Wang Dongbo(Department of Criminal Science and Technology,Jiangsu Police Institute,Nanjing,210031;School of Information Management,Nanjing Agricultural University,Nanjing,210095)

机构地区江苏警官学院刑事科学技术系南京农业大学信息管理学院

出处《信息资源管理学报》 CSSCI 2024年第5期45-58,共14页 Journal of Information Resources Management

基金国家社科重大基金项目“中国古代典籍跨语言知识库构建与应用研究”(21&ZD331) 江苏省高等学校大学生实践创新创业训练计划项目“面向公安内网文献资源的垂直搜索引擎研究”(202210329046Y)的研究成果之一。

关键词大语言模型生成式任务大模型评测古籍领域知识 Large language model Generative tasks Large model evaluation Ancient books Domain knowledge

分类号 G206 [文化科学—传播学]

引文网络
相关文献

参考文献5

1黄水清,王晓光,夏翠娟,欧阳剑.推进新时代古籍工作,加快创新智能化发展[J].农业图书情报学报,2022,34(5):4-20. 被引量：24
2杨锋昌.ChatGPT对译员的思考与启示——以越南语法律翻译为例[J].中国科技翻译,2023,36(3):27-30. 被引量：4
3张华平,李林翰,李春锦.ChatGPT中文性能测评与风险应对[J].数据分析与知识发现,2023,7(3):16-25. 被引量：91
4朱丹浩,赵志枭,吴娜,王希羽,孙光耀,王东波.基于领域大语言模型的古籍分词研究[J].科技情报研究,2024,6(2):11-20. 被引量：3
5朱丹浩,赵志枭,胡蝶,赵文华,孙光耀,王东波.领域大语言模型下的古籍词性标注应用研究[J].科技情报研究,2024,6(2):21-29. 被引量：2

二级参考文献67

1刘月蕊,贾诗敏.“互联网+”背景下博物馆数字文创多元创新研究[J].中国文艺家,2019,0(11):269-270. 被引量：2
2刘石,李飞跃.大数据技术与传统文献学的现代转型[J].中国社会科学,2021(2):63-81. 被引量：35
3赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：32
4程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：21
5苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
6俞理明.从早期佛经材料看古代汉语中的两种疑问词“为”[J].四川大学学报（哲学社会科学版）,1991(4):75-81. 被引量：4
7刘巧芝.从副词谓语句看古汉语“必”字的词性[J].和田师范高等专科学校学报（汉文版）,2004,24(4):111-112. 被引量：1
8于智荣.上古典籍中表“率领”诸义的“以”字不是介词[J].语文研究,2002(2):33-37. 被引量：4
9黄祥喜.“语境相关”自动分词方法[J].情报学报,1989,8(4):266-273. 被引量：3
10曾艳,侯汉清.古籍文本抽词研究[J].图书情报工作,2008,52(1):132-135. 被引量：10

共引文献117

1支振锋.生成式人工智能大模型的信息内容治理[J].政法论坛,2023,41(4):34-48. 被引量：88
2周立炜,饶高琦.大语言模型中文语体能力评测研究[J].语言文字应用,2024(1):69-82. 被引量：1
3安子栋,敬卿,郝志超,余奕.基于生成式AI技术的图书馆文献资源管理创新策略[J].图书馆工作与研究,2023(S01):9-16. 被引量：13
4雷珏莹,侯西龙,王晓光.数智时代古籍数字化再造的逻辑与进路[J].数字人文研究,2022,2(2):46-56. 被引量：22
5兰立山.处理好生成式人工智能的意识形态风险[J].科学．经济．社会,2024,42(2):47-53.
6王禄生.从进化到革命:ChatGPT类技术影响下的法律行业[J].东方法学,2023(4):56-67. 被引量：18
7冉华,张楠.文化传承视域下图书馆古籍开发利用探析——以河北省图书馆为例[J].河北科技图苑,2022,35(4):24-28. 被引量：5
8王丽丽,张宁.数字人文视角下的古籍知识关联探析[J].农业图书情报学报,2022,34(9):51-59. 被引量：11
9谢万幸.论新时代图书馆古籍宣传推广强化“大众传播”理念策略[J].文化产业,2023(1):118-120. 被引量：2
10李莎莎.古籍活化的现状、问题与对策初探[J].出版发行研究,2022(12):35-40. 被引量：9

1杨品,任振华,袁增强.多模态组学数据整合方法的性能评测[J].基因组学与应用生物学,2024,43(7):1196-1213.
2张灵芝.产教融合共同体背景下的高职专业核心课程内容重构与教学改革——以《接触网设备检修与维护》课程为例[J].武汉冶金管理干部学院学报,2024,34(3):38-42.
3王福奇,王志峰,金建成,井庆贺,王耀辉,王大龙,汪义龙.基于GSL-YOLO模型的综放工作面混矸率检测方法[J].工矿自动化,2024,50(9):59-65.
4涂文奇,李柏岩,刘晓强,郑佳明.NL2SQL融合知识图谱在设备运维数据检索中的应用[J].智能计算机与应用,2024,14(9):118-124.
5李大一,王友国,翟其清.基于深度学习的网络评论文本情感分析方法[J].建模与仿真,2024,13(5):5372-5381.
6左亮,赵志枭,王东波.基于大语言模型的《四库全书》自动分类研究[J].信息资源管理学报,2024,14(5):23-35.
7吴晓亮,黄大勇.航空人员跨文化交际能力培育与评测途径探索[J].民航学报,2024,8(5):167-172.
8李格格,冶忠林,曹淑娟,周琳,王雪力.一种近似图神经网络框架的无监督链路预测算法[J].郑州大学学报（工学版）,2024,45(6):75-82.

信息资源管理学报

2024年第5期

浏览历史

内容加载中请稍等...

面向古文自然语言处理生成任务的大语言模型评测研究

参考文献5

二级参考文献67

共引文献117

相关作者

相关机构

相关主题

浏览历史