基于词汇增强和表格填充的中文命名实体识别

Chinese named entity recognition based on lexicon enhancement and table filling

下载PDF

导出

摘要中文命名实体识别主要包括中文平面命名实体识别和中文嵌套命名实体识别两个任务,其中中文嵌套命名实体识别任务难度更大。提出了一个基于词汇增强和表格填充的统一模型TLEXNER,该模型能够同时处理上述任务。该模型首先针对中文语料分词困难的问题,使用词典适配器将词汇信息融合到BERT预训练模型,并且将字符与词汇组的相对位置信息集成到BERT的嵌入层中;然后通过条件层归一化和双仿射模型构造并预测字符对表格,使用表格建模字符与字符之间的关系,得到平面实体与嵌套实体的统一表示;最后根据字符对表格上三角区域的数值判断实体类别。提出的模型在平面实体的公开数据集Resume和自行标注的军事领域嵌套实体数据集上F1分别是97.35%和91.96%,证明了TLEXNER模型的有效性。 Chinese named entity recognition has been involved with two tasks,including Chinese flat named entity recognition and Chinese nested named entity recognition.Chinese nested named entity recognition is more difficult.Therefore,this paper proposes a unified model,namely TLEXNER,based on lexicon enhancement and table filling,which can tackle the above two tasks concurrently.Aiming at the difficulty of Chinese word segmentation,the lexicon adapter is used to integrate the lexicon information into the BERT pre-training model,and integrates the relative position information of characters and lexical groups into the BERT embedding layer.Then conditional layer normalization and biaffine model is used to build and predict the representation of the character-pair table,and the relationship between character pairs is modeled by table structure to obtain the unified representation of flat entities and nested entities.Finally,the entity category is determined according to the value in the upper triangle area of the character-pair table.This paper proposes that the model F1 is 97.35%and 91.96%on the flat entity dataset Resume and the self-labeled nested entity dataset in the military field,respectively,which proves the validity of TLEXNER model.

作者褚天舒唐球梁军学徐睿王明阳刘涛 Chu Tianshu;Tang Qiu;Liang Junxue;Xu Rui;Wang Mingyang;Liu Tao(National Computer System Engineering Research Institute of China,Beijing 100083,China;People′s Liberation Army 93216,Beijing 100085,China)

机构地区华北计算机系统工程研究所中国人民解放军

出处《电子技术应用》 2024年第2期23-29,共7页 Application of Electronic Technique

关键词词汇增强中文命名实体识别表格填充 lexicon enhancement Chinese named entity recognition table filling

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1金彦亮,谢晋飞,吴迪嘉.基于分层标注的中文嵌套命名实体识别[J].上海大学学报（自然科学版）,2022,28(2):270-280. 被引量：9

二级参考文献4

1周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
2ZHOU Junsheng,QU Weiguang,ZHANG Fen.Chinese Named Entity Recognition_via Joint Identification and Categorization[J].Chinese Journal of Electronics,2013,22(2):225-230. 被引量：21
3尹迪,周俊生,曲维光.基于联合模型的中文嵌套命名实体识别[J].南京师大学报（自然科学版）,2014,37(3):29-35. 被引量：8
4李雁群,何云琪,钱龙华,周国栋.中文嵌套命名实体识别语料库的构建[J].中文信息学报,2018,32(8):19-26. 被引量：14

共引文献8

1李思洁,王亚慧,张子豪.燃气输配突发事件应急处置的知识图谱构建[J].消防科学与技术,2022,41(6):812-817. 被引量：3
2李冬梅,罗斯斯,张小平,许福.命名实体识别方法研究综述[J].计算机科学与探索,2022,16(9):1954-1968. 被引量：16
3方美丽,郑莹莹,陶坤旺,赵习枝,仇阿根,陆文.基于MacBERT和对抗训练的城市内涝信息识别方法[J].集成技术,2023,12(1):56-67. 被引量：2
4陈淑振,窦全胜,唐焕玲,姜平.基于词融合与跨度检测的中文嵌套命名实体识别[J].计算机应用研究,2023,40(8):2382-2386. 被引量：1
5白旭,周琳娜,杨忠良,杨震,雷敏.金融嵌套命名实体识别系统的实现与应用[J].网络安全技术与应用,2023(10):52-56.
6周戈,王艳娜,周子力,董兆安.基于词汇增强与跨度编码的中文命名实体识别[J].曲阜师范大学学报（自然科学版）,2023,49(4):58-66.
7李莉,奚雪峰,盛胜利,崔志明,徐家保.深度学习中文命名实体识别研究进展[J].计算机工程与应用,2023,59(24):46-69. 被引量：3
8王彤,王春山,李久熙,朱华吉,缪祎晟,吴华瑞.基于RoFormer预训练模型的指针网络农业病害命名实体识别[J].智慧农业（中英文）,2024,6(2):85-94.

1文吉槐.表格模型在惰性电极电解规律总结中的应用[J].中学化学教学参考,2021(16):81-82. 被引量：1
2花豹,周彬,顾星海,鲍劲松.基于图神经网络的工艺表格语义相似性度量[J].计算机集成制造系统,2022,28(12):3805-3821. 被引量：5
3徐维东,刘波,黄文萱.绿色信贷指引对重污染企业环境信息披露的影响[J].华南理工大学学报（社会科学版）,2024,26(1):42-62.
4黄蕾.高中生在英语学习中使用词典的习惯培养策略[J].电脑迷,2023(21):136-138.
5曹京.浅谈化工机械制造中机械自动化的有效应用[J].中国设备工程,2024(5):206-208. 被引量：2
6蔡旻涛,郝芳.提升农村中职学生英语阅读水平的探索——以农村中职一年级的导读活动为例[J].广东农工商职业技术学院学报,2023,39(4):69-72.
7崔馨月.基于Python Scrapy爬取技术、朴素贝叶斯算法的网页链接及文本抓取研究[J].长江信息通信,2023,36(12):77-79.
8杨晓庆.关于博物馆云展览的思考[J].文物天地,2024(3):51-56.
9肖立轩,封筠,高宇豪,贺晶晶.基于空洞单流ViT网络的灵活模态人脸呈现攻击检测方法[J].计算机应用研究,2024,41(3):916-922.
10张二维.基于BIM的高速公路桥梁施工管理与优化研究[J].汽车周刊,2024(3):164-166.

电子技术应用

2024年第2期

浏览历史

内容加载中请稍等...

基于词汇增强和表格填充的中文命名实体识别

参考文献1

二级参考文献4

共引文献8

相关作者

相关机构

相关主题

浏览历史