基于多颗粒度文本表征的中文命名实体识别方法被引量：4

Chinese Named Entity Recognition Based on Text Representation Multi-granularty

下载PDF

导出

摘要中文命名实体识别常使用字符嵌入作为神经网络模型的输入,但是中文没有明确的词语边界,字符嵌入的方法会导致部分语义信息的丢失。针对此问题,该文提出了一种基于多颗粒度文本表征的中文命名实体识别模型。首先,在模型输入端结合了字词表征,然后借助N-gram编码器挖掘N-gram中潜在的成词信息,有效地联合了三种不同颗粒度的文本表征,丰富了序列的上下文表示。该文在Weibo、Resume和OntoNotes4数据集上进行了实验,实验结果的F_(1)值分别达到了72.41%、96.52%、82.83%。与基准模型相比,该文提出的模型具有更好的性能。 Chinese named entity recognition utilizes character embedding as the input of neural network models,which may give rise to the loss of certain semantic information since there is no clear word boundary in Chinese.To figure out the aforementioned issue,this paper proposes an entity recognition method based on multi-granular text representations.Firstly,the char and word representation are combined as the model input.Then the N-gram encoder is exploited to explore the potential word information in the N-gram which enriches the contextual representation of the sequence.The experimental results on the Weibo,Resume and OntoNotes4 dataset outperform the baseline and reach 72.41%,96.52%and 82.83%respectively.

作者田雨张桂平蔡东风陈华威宋彦 TIAN Yu;ZHANG Guiping;CAI Dongfeng;CHEN Huawei;SONG Yan(Human-Computer Intelligence Research Center,Shenyang Aerospace University,Shenyang,Liaoning 110136,China;School of Data Science,The Chinese University of HongKong(Shenzhen),Shenzhen,Guangdong 518172,China)

机构地区沈阳航空航天大学人机智能研究中心香港中文大学(深圳)数据科学学院

出处《中文信息学报》 CSCD 北大核心 2022年第4期90-99,共10页 Journal of Chinese Information Processing

基金国家自然科学基金(U1908216) 辽宁省重点研发计划(2019JH2/10100020)。

关键词中文命名实体识别多颗粒度文本表征 N-GRAM Chinese named entity recognition multi-granular text representation N-gram

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：150

二级参考文献22

1张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
4刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
5俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：159
6周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
7张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139. 被引量：20
8冯元勇,孙乐,李文波,张大鲲.基于单字提示特征的中文命名实体识别快速算法[J].中文信息学报,2008,22(1):104-110. 被引量：24
9张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：83
10张玥杰,徐智婷,薛向阳.融合多特征的最大熵汉语命名实体识别模型[J].计算机研究与发展,2008,45(6):1004-1010. 被引量：33

共引文献149

1陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别[J].计算机系统应用,2022,31(12):211-219. 被引量：3
2刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
3张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英.面向医疗文本的实体及关系标注平台的构建及应用[J].中文信息学报,2020,34(6):36-44. 被引量：13
4熊奥,高畅,赵明辉,张玲玲.基于知识图谱的核电设备健康管理知识建模与分析[J].科技促进发展,2021,17(4):640-649. 被引量：10
5顾佼佼,翟一琛,姬嗣愚,宗富强.基于BERT和知识蒸馏的航空维修领域命名实体识别[J].电子测量技术,2023,46(3):19-24. 被引量：3
6李娜.基于条件随机场的方志古籍别名自动抽取模型构建[J].中文信息学报,2018,32(11):41-48. 被引量：29
7高源.自然语言处理发展与应用概述[J].中国新通信,2019,21(2):117-118. 被引量：8
8马孟铖,艾斯卡尔.艾木都拉,吐尔地.托合提.基于条件随机场多特征融合的中文地名、机构名实体识别[J].现代计算机,2019,25(12):13-17. 被引量：5
9侯丽仙,李艳玲,李成城.面向任务口语理解研究现状综述[J].计算机工程与应用,2019,55(11):7-15. 被引量：9
10朱淑媛,罗军.基于本体的领域自动问答系统研究[J].计算机应用与软件,2019,36(8):98-105. 被引量：7

同被引文献38

1马建红,张明月,赵亚男.面向创新设计的专利知识抽取方法[J].计算机应用,2016,36(2):465-471. 被引量：8
2刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：150
3尹陈,吴敏.N-gram模型综述[J].计算机系统应用,2018,27(10):33-38. 被引量：21
4王佳敏,李信,刘齐进.全文本文献计量分析学术沙龙综述[J].信息资源管理学报,2018,8(4):119-125. 被引量：16
5严红,陈兴蜀,王文贤,王海舟,殷明勇.基于深度神经网络的法语命名实体识别模型[J].计算机应用,2019,39(5):1288-1292. 被引量：6
6操玉杰,梁镇涛,毛进.知识模因视角下跨学科研究领域的学科结构分析[J].图书馆论坛,2019,39(7):84-90. 被引量：10
7Jinzhong Guo,Xiaoling Liu,Liying Yang,Jinshan Wu.Are Contributions from Chinese Physicists Undercited?[J].Journal of Data and Information Science,2019,4(4):84-95. 被引量：4
8章成志(报告),胡志刚(报告),徐硕(报告),汪雪锋(报告),师庆辉(报告),王巍(报告),钱佳佳(综述整理),罗卓然(综述整理).全文本计量分析理论与技术的新进展与新探索——2019全文本文献计量分析学术沙龙综述[J].信息资源管理学报,2020,10(1):111-117. 被引量：12
9刘宇鹏,栗冬冬.基于BLSTM-CNN-CRF的中文命名实体识别方法[J].哈尔滨理工大学学报,2020,25(1):115-120. 被引量：21
10范维克,张绍阳,陈博远,王珂.交通信息标准条款BLSTM和CNN链式模型分类方法[J].江苏大学学报（自然科学版）,2020,41(2):143-148. 被引量：1

引证文献4

1郭雅鑫,张春燕.基于N-Gram的改进预训练文本编码器[J].中国汽车,2023(4):30-34.
2马月坤,郝益锋.考虑特征稀疏特性的短文本命名实体快速识别方法[J].吉林大学学报（工学版）,2023,53(12):3529-3535.
3周海晨,章成志,胡志刚,徐硕,毛进,陈亮.大模型时代下全文计量分析的应用与思考——2023全文本文献计量分析学术沙龙综述[J].信息资源管理学报,2024,14(2):162-168.
4肖蕾,陈镇家.数据驱动的中文实体抽取方法综述[J].计算机工程与应用,2024,60(16):34-48.

1钟诗胜,陈曦,赵明航,张永健.引入词集级注意力机制的中文命名实体识别方法[J].吉林大学学报（工学版）,2022,52(5):1098-1105. 被引量：9
2李军怀,陈苗苗,王怀军,崔颖安,张爱华.基于ALBERT-BGRU-CRF的中文命名实体识别方法[J].计算机工程,2022,48(6):89-94. 被引量：12
3李彪.中文命名实体识别的傅立叶卷积网络[J].现代信息科技,2022,6(2):104-106.
4李云龙,余正涛,高盛祥,郭军军,彭仁杰.基于案件要素指导及深度聚类的新闻与案件相关性分析[J].中文信息学报,2021,35(11):60-69. 被引量：1
5张军,邱龙龙.一种基于BERT和池化操作的文本分类模型[J].计算机与现代化,2022(6):1-7. 被引量：2
6刘建华,吴超.结合实体关联标注器的中文命名实体识别模型[J].西安邮电大学学报,2021,26(6):104-110.
7李良毅.融入事件依存路径的事件时序关系识别[J].通信技术,2022,55(5):581-587.
8Guo Xixian.Vietnam's Robust Economic Recovery[J].China Report ASEAN,2022,7(6):46-49.
9肖丹.跨文化学习视域下英语专业课程思政教学路向探析[J].外国语文,2022,38(3):153-160. 被引量：10
10Hyacinthe Konan,Bi Tra Gooré,Raymond Gbégbé,Olivier Asseu.Morpho-Syntactic Tagging of Text in “Baoule” Language Based on Hidden Markov Models (HMM)[J].Journal of Software Engineering and Applications,2016,9(10):516-523.

中文信息学报

2022年第4期

浏览历史

内容加载中请稍等...

基于多颗粒度文本表征的中文命名实体识别方法被引量：4

参考文献1

二级参考文献22

共引文献149

同被引文献38

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于多颗粒度文本表征的中文命名实体识别方法 被引量：4

参考文献1

二级参考文献22

共引文献149

同被引文献38

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于多颗粒度文本表征的中文命名实体识别方法被引量：4