基于大语言模型的命名实体识别

Named Entity Recognition Based on Large Language Model

下载PDF

导出

摘要虽然以ChatGPT为代表的自然语言生成(NLG)大语言模型在自然语言处理中的大多数任务中取得了良好的表现,但其在序列识别任务,如命名实体识别任务中的表现暂且不如基于BERT的深度学习模型.针对这一点,本文探究性的通过将现有的中文命名实体识别问题改造成机器阅读理解问题,提出并设计了基于情境学习和模型微调的新方法,使NLG语言模型在识别命名实体达到了更好的效果,并且该方法不同于其他方法需要改变基层模型的预训练参数.同时,由于命名实体是模型生成的结果而不是对原始数据的分类,不存在边界问题.为了验证新框架在命名实体识别任务上的有效性,本文在多个中文命名实体识别数据集上进行了实验.其中,在Resume和Weibo数据集上的F1分数分别达到了96.04%和67.87%,相较于SOTA模型分别提高了0.4和2.7个百分点,从而验证了新框架能有效利用NLG语言模型在文本生成上的优势完成命名实体识别任务. While natural language generation(NLG)-based large language models,represented by ChatGPT,perform well in various natural language processing tasks,their performance in sequence recognition tasks,such as named entity recognition,is somewhat inferior to that of bidirectional encoder representations from Transformer(BERT)-based deep learning models.To address this issue,this study first transforms the existing Chinese named entity recognition problem into a machine reading comprehension problem.A new name entity recognition method based on in-context learning and fine tuning is proposed,thereby enabling NLG-based language models to achieve good results in named entity recognition without changing base model pre-training parameters.Additionally,since named entities are generated by the model rather than classified from original data,there are no boundary issues.To verify the effectiveness of the new framework on named entity recognition tasks,experiments are conducted on some Chinese named entity recognition datasets.On the Resume and Weibo datasets,the F1 scores reach 96.04%and 67.87%respectively,a gain of 0.4 and 2.7 percentage points over the state-of-the-art models,confirming that the new framework can effectively utilize the text generation advantages of NLG-based language models to complete named entity recognition tasks.

作者叶名玮汤嘉郭燕吴桂兴 YE Ming-Wei;TANG Jia;GUO Yan;WU Gui-Xing(School of Software Engineering,University of Science and Technology of China,Hefei 230026,China;Suzhou Institute for Advanced Research,University of Science and Technology of China,Suzhou 215123,China)

机构地区中国科学技术大学软件学院中国科学技术大学苏州高等研究院

出处《计算机系统应用》 2024年第8期257-263,共7页 Computer Systems & Applications

基金江苏省自然科学基金面上项目(BK20161209)。

关键词命名实体识别模型微调机器阅读理解情境学习大语言模型 named entity recognition(NER) fine tuning of model machine reading comprehension in-context learning large language model(LLM)

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1赵朝阳,朱贵波,王金桥.ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路[J].数据分析与知识发现,2023,7(3):26-35. 被引量：61
2丁美荣,刘鸿业,徐马一,龚思雨,陈晓敏,曾碧卿.面向机器阅读理解的多任务层次微调模型[J].计算机系统应用,2022,31(3):212-219. 被引量：2
3张汝佳,代璐,王邦,郭鹏.基于深度学习的中文命名实体识别最新研究进展综述[J].中文信息学报,2022,36(6):20-35. 被引量：25
4关景文,宋晓,李晓庆,杨彤,周军华.导弹领域文本嵌套命名实体识别方法研究[J].系统仿真学报,2023,35(8):1757-1767. 被引量：2

二级参考文献15

1谭红叶,屈保兴.面向多类型问题的阅读理解方法研究[J].中文信息学报,2020(6):81-88. 被引量：5
2刘非凡,赵军,徐波.实体提及的多层嵌套识别方法研究[J].中文信息学报,2007,21(2):14-21. 被引量：3
3郭剑毅,薛征山,余正涛,张志坤,张宜浩,姚贤明.基于层叠条件随机场的旅游领域命名实体识别[J].中文信息学报,2009,23(5):47-52. 被引量：36
4张朝胜,郭剑毅,线岩团,余正涛,雷春雅,王海雄.基于条件随机场的英文产品命名实体识别[J].计算机工程与科学,2010,32(6):115-117. 被引量：13
5黄鑫,朱巧明,钱龙华,刘梅梅.基于特征组合的中文实体关系抽取[J].微电子学与计算机,2010,27(4):198-200. 被引量：19
6刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：141
7李雁群,何云琪,钱龙华,周国栋.中文嵌套命名实体识别语料库的构建[J].中文信息学报,2018,32(8):19-26. 被引量：14
8李雁群,何云琪,钱龙华,周国栋.基于维基百科的中文嵌套命名实体识别语料库自动构建[J].计算机工程,2018,44(11):76-82. 被引量：7
9许浩亮,李雁群,何云琪,钱龙华.中文嵌套命名实体关系抽取研究[J].北京大学学报（自然科学版）,2019,55(1):8-14. 被引量：6
10李舟军,王昌宝.基于深度学习的机器阅读理解综述[J].计算机科学,2019,46(7):7-12. 被引量：17

共引文献86

1张跃胜,金文俊.ChatGPT的关键技术、应用场景及未来展望[J].信息技术与管理应用,2023(5):64-74.
2李海原.人工智能大语言模型对高校会计专业人才培养的冲击与启示[J].科教导刊,2023(15):51-53. 被引量：2
3张龙豪,邬雯,朱宵月.面向心血管疾病的实体识别算法研究[J].福建电脑,2022,38(12):1-7.
4郭小磊,张吴波.基于ERNIE-BiGRU-CRF-FL的中文命名实体识别方法[J].山西大同大学学报（自然科学版）,2022,38(6):23-28. 被引量：2
5李楠,张慧,赵阳,汪波.知识产权公共服务数据语义组织模式研究[J].现代情报,2023,43(2):20-29. 被引量：5
6李东升,鲍玉来,刘建华,陈德旺.基于BERT的高校图书馆微信信息服务的命名实体识别方法[J].现代情报,2023,43(4):64-76. 被引量：2
7贺桂娇,陈庆盛.基于深度学习的中文实体类型边界识别模型研究[J].信息系统工程,2023(4):146-148.
8孙晨瑜,王振琦,张宝宇,张卫山,侯召祥,陈涛.基于RoBERTa-ND的中文实词辨析[J].计算机系统应用,2023,32(5):157-163.
9李颖婷.生成式人工智能给图书馆带来的机遇、挑战及应对策略[J].图书与情报,2023(2):42-48. 被引量：21
10郭云乔,唐庭龙,李小龙.基于深度学习的嵌套命名实体识别研究综述[J].长江信息通信,2023,36(4):213-217.

1约瑟夫·S.克拉切克,申南秀.基于项目学习的六大关键特征[J].新课程教学（电子版）,2024(9):194-196.
2邹静.基于情境学习理论的职业技术审美素养培育模式研究[J].教育教学论坛,2024(25):185-188.
3孙铭会,薛浩,金玉波,曲卫东,秦贵和.联合时空注意力的视频显著性预测[J].吉林大学学报（工学版）,2024,54(6):1767-1776.
4《Engineering》发布2023全球十大工程成就[J].中学生阅读（高考版）,2024(7):67-68.
5《Engineering》发布2023全球十大工程成就[J].中学生阅读（中考版）,2024(7):66-67.
6王锦.基于STATA模型分析青海省旅游总收入影响因素[J].江苏商论,2024(8):48-51.
7金赛芬,贺丽萍.虚拟现实技术在小儿手术护理操作培训中的应用[J].继续医学教育,2024,38(7):134-137.
8柳小梅,管小冬.立足学生创造力发展的数学情境活动实践策略——以“‘公顷与平方千米’综合实践活动”为例[J].小学教学设计,2024(23):32-35.
9孙承杰,李宗蔚,单丽莉,林磊.一种基于核心论元的篇章级事件抽取方法[J].山东大学学报（理学版）,2024,59(7):53-63.
10黄梅,黄希庭.深度学习的知识加工机制与教学条件[J].中小学教材教学,2024(7):29-33.

计算机系统应用

2024年第8期

浏览历史

内容加载中请稍等...

基于大语言模型的命名实体识别

参考文献4

二级参考文献15

共引文献86

相关作者

相关机构

相关主题

浏览历史