中文分词与命名实体识别的联合学习被引量：9

Joint learning of Chinese word segmentation and named entity recognition

下载PDF

导出

摘要将卷积结构引入循环神经网络,从而构建卷积循环神经网络。以此为基础,研究构建了面向中文分词与实体识别联合学习的序列标注模型。该模型依托卷积循环神经网络构建特征编码层,实现中文字序列局部空间特征和长距离时序依赖特征的联合提取;依托改进的循环神经网络构建标签解码层,实现标签序列长距离时序依赖的有效建模;依托统一的分词与实体识别序列标注模式实现分词信息与实体信息的联合学习,避免传统流水线法的误差传播问题。在人民日报语料和微软标注语料上的实验结果显示,该框架较传统统计模型和神经网络模型有显著的性能提升,尤其是在识别字数较多的命名实体时,其效果明显优于其他方法。 The convolutional structure was introduced into the recurrent neural network to construct a convolutional recurrent neural network.Based on this network,a sequence annotation model for joint learning of Chinese word segmentation and entity recognition was constructed.The model relies on the convolutional recurrent neural network to construct feature-encoding layer,which realizes the joint extraction of local spatial features and long-distance time-dependent features of Chinese character sequences;the improved recurrent neural network was relies on the constructing of tag-decoding layer,which realizes the effective modeling of timing-dependent features in the tag sequences;the unified word segmentation and entity recognition annotation mode relies on the achieving of joint learning of word segmentation information and entity information,which avoids the error propagation problem of traditional pipeline methods.Experimental results on the People′s Daily corpus and Microsoft′s annotated corpus show that the framework has significant performance improvement over traditional statistical models and neural network models,especially when identifying entities with multiple characters,and its effect is significantly better than other methods.

作者黄晓辉乔立升余文涛李京薛寒 HUANG Xiaohui;QIAO Lisheng;YU Wentao;LI Jing;XUE Han(College of Computer Science and Technology, University of Science and Technology of China, Hefei 230026, China;Luoyang Campus of the Information Engineering University of the Strategic Support Force, Luoyang 471003, China)

机构地区中国科学技术大学计算机科学与技术学院战略支援部队信息工程大学洛阳校区

出处《国防科技大学学报》 EI CAS CSCD 北大核心 2021年第1期86-94,共9页 Journal of National University of Defense Technology

基金国家重点研发计划资助项目(2016YFB0201402)。

关键词卷积循环神经网络局部空间特征时序依赖特征分词与实体识别 convolutional recurrent neural network local spatial features time-dependent features word segmentation and entity recognition

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：149
2俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
3孙晓,孙重远,任福继.基于深层条件随机场的生物医学命名实体识别[J].模式识别与人工智能,2016,29(11):997-1008. 被引量：18
4张海楠,伍大勇,刘悦,程学旗.基于深度神经网络的中文命名实体识别[J].中文信息学报,2017,31(4):28-35. 被引量：76
5冯艳红,于红,孙庚,孙娟娟.基于BLSTM的命名实体识别方法[J].计算机科学,2018,45(2):261-268. 被引量：51
6李丽双,郭元凯.基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J].中文信息学报,2018,32(1):116-122. 被引量：123

二级参考文献45

1张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
4孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
5向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
6刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
7俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
8周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
9张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139. 被引量：20
10罗智勇宋柔.现代汉语自动分词中专名的一体化、快速识别方法[A]..ICCC,Singapore[C].,2001．11..

共引文献488

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别[J].计算机系统应用,2022,31(12):211-219. 被引量：3
3步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
4刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
5李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：19
6张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英.面向医疗文本的实体及关系标注平台的构建及应用[J].中文信息学报,2020,34(6):36-44. 被引量：12
7成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
8熊奥,高畅,赵明辉,张玲玲.基于知识图谱的核电设备健康管理知识建模与分析[J].科技促进发展,2021,17(4):640-649. 被引量：10
9顾佼佼,翟一琛,姬嗣愚,宗富强.基于BERT和知识蒸馏的航空维修领域命名实体识别[J].电子测量技术,2023,46(3):19-24. 被引量：3
10王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.

同被引文献107

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2陈世明.试论维吾尔语部分词尾的演变[J].西北民族研究,1989(1):234-240. 被引量：1
3霍盛.试论维吾尔语形态变化的功能及其特点[J].新疆大学学报（哲学社会科学版）,1991,23(3):104-111. 被引量：3
4古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
5力提甫.托乎提.电脑处理维吾尔语语音和谐律的可能性[J].中央民族大学学报（哲学社会科学版）,2004,31(5):108-113. 被引量：14
6阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：23
7黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
8玉素甫.艾白都拉,吾守尔.斯拉木,赛依提.阿不都拉.维语词法分析器研究成功[J].中文信息,1997,14(4):31-35. 被引量：5
9玛依热.依布拉音,米吉提.阿不里米提,艾斯卡尔.艾木都拉.基于最小编辑距离的维语词语检错与纠错研究[J].中文信息学报,2008,22(3):110-114. 被引量：11
10米热古丽.艾力,米吉提.阿不力米提,艾斯卡尔.艾木都拉.基于词法分析的维吾尔语元音弱化算法研究[J].中文信息学报,2008,22(4):43-47. 被引量：17

引证文献9

1刘畅,阿布都克力木·阿布力孜,姚登峰,哈里旦木·阿布都克里木.维吾尔语形态分析研究综述[J].计算机工程与应用,2021,57(15):42-61. 被引量：3
2林振,秦宇辰,秦婴逸,李冬冬,吴骋,贺佳.基于缺血性脑卒中患者出院小结的协变量提取方法[J].第二军医大学学报,2021,42(11):1273-1278.
3沈同平,俞磊.融合医学词典的条件随机场模型多文本实体识别研究[J].长春大学学报,2021,31(12):1-5.
4钟爱,梁小青,肖梅,向黎藜,段凯,李竹.基于正则算法和命名实体识别模型的95598工单结构化信息自动提取[J].电力大数据,2021,24(12):38-45. 被引量：2
5沈同平,金力,黄方亮,许欢庆.隐马尔可夫模型的优化及其用于多文本实体识别[J].安庆师范大学学报（自然科学版）,2022,28(2):31-35. 被引量：1
6李连兄,张云天.基于条件随机场的中文分词技术研究[J].信息技术与信息化,2022(8):116-118. 被引量：1
7陈翯,常霞,赵东宸.电子病历的命名实体识别方法综述[J].科技创新导报,2022,19(20):109-114.
8潘俊,李萌配,王贤明.应用深度学习的中文命名实体识别研究综述[J].数字图书馆论坛,2023,19(5):1-9. 被引量：2
9周戈,王艳娜,周子力,董兆安.基于词汇增强与跨度编码的中文命名实体识别[J].曲阜师范大学学报（自然科学版）,2023,49(4):58-66.

二级引证文献9

1阿布都克力木·阿布力孜,刘畅,哈里旦木·阿布都克里木,郭文强.融合字符串特征的维吾尔语形态切分[J].计算机仿真,2022,39(7):257-262. 被引量：1
2黄源航,强梦烨,李涛,晏明昊,张涵艺,贾大昌.基于RoBERTa的电力领域词汇挖掘模型[J].电力大数据,2022,25(6):1-8. 被引量：1
3阿孜古丽·夏力甫,王紫悦.基于句法语义的维吾尔语捆绑类手部动词词网建设[J].喀什大学学报,2023,44(2):55-63.
4张雨宁,李文卓,哈里旦木·阿布都克里木,阿布都克力木·阿布力孜.维吾尔语形态切分的元学习方法[J].计算机工程与应用,2023,59(11):98-104.
5曹灿,吕宜光.基于Java Web的科研院所人事管理系统的设计与实现[J].自动化技术与应用,2023,42(6):131-133. 被引量：3
6曾旻冬,李宁,李红仁,张仰超,呼树尧,张坤,马吉伟.基于知识图谱的燃气轮机故障诊断知识库构建方法及维护[J].电力大数据,2023,26(4):44-55. 被引量：3
7凯比努尔·赛地艾合买提.基于预训练模型的医疗命名实体识别[J].移动信息,2024,46(3):209-212.
8蒲治宇.基于隐马尔可夫模型的半结构化文本信息抽取研究[J].数字通信世界,2024(6):84-85.
9胡德洲,李贯峰.命名实体识别研究综述[J].软件导刊,2024,23(9):1-9.

1王健伟.智慧照明在地铁车站的应用[J].交通科技与管理,2020(14):129-129.
2龙润田.采用声调基频特征的民族语声调识别[J].贵州民族研究,2020,41(11):123-127.
3蒋婷.学术文献术语抽取方案比较研究[J].信息资源管理学报,2021,11(1):112-122. 被引量：5
4吴兴杰,董磊,王森,陶九超,黄东平.基于模型的研制模式下知识化工艺设计技术研究[J].制造业自动化,2021,43(1):96-103. 被引量：3
5徐闯.CRTSⅢ型先张轨道板机组流水线法张拉装备研究[J].高速铁路技术,2018(S01):90-94.
6姜同强,王岚熙.基于双向编码器表示模型和注意力机制的食品安全命名实体识别[J].科学技术与工程,2021,21(3):1103-1108. 被引量：12
7朱燕华,王钟凰,李昱宗,EI-NEZAMI Hani,NORINDER Ulf,COTGREAVE Ian A,DE VITTE Peter,陈雪平.基于斑马鱼胚胎急性毒性测试预测食用油毒性可行性研究[J].中国油脂,2020,45(12):71-75. 被引量：2
8毛彦辉,于晓军,王海鹏,徐广涛,赖小平,吕俊耀.脑-颈髓轴索损伤的解剖和取材新方法及其应用[J].中国法医学杂志,2020,35(6):642-646.
9丁亚龙,谌云莉.基于记忆增强和知识迁移的方面级用户评论情感分析[J].计算机应用研究,2020,37(S02):31-33. 被引量：1
10胡潇涛,吴浩,杨亮,顾小平,宋弘.基于伪标注样本融合的领域分词方法[J].四川轻化工大学学报（自然科学版）,2021,34(1):48-55. 被引量：1

国防科技大学学报

2021年第1期

浏览历史

内容加载中请稍等...

中文分词与命名实体识别的联合学习被引量：9

参考文献6

二级参考文献45

共引文献488

同被引文献107

引证文献9

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

中文分词与命名实体识别的联合学习 被引量：9

参考文献6

二级参考文献45

共引文献488

同被引文献107

引证文献9

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

中文分词与命名实体识别的联合学习被引量：9