基于词典和字形特征的中文命名实体识别被引量：1

Chinese Named Entity Recognition Based on Lexicon and Glyph Features

下载PDF

导出

摘要命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了一个基于词典和字形特征的中文命名实体识别模型,将词信息和结构信息统一地结合起来,提高了实体匹配的准确性。该文首先通过SoftLexicon方法丰富语义信息,并使用改进的部首级嵌入优化字符表示;然后通过门卷积网络加强了对潜在词和上下文信息的提取;最后在四个基准数据集上实验,结果表明与传统模型和最新模型相比,基于词典和字形特征的模型取得了显著的性能提升。 Named entity recognition is a fundamental task of natural language processing.Lexicon-based method is the popular approach to enhance the representation of semantic and boundary information for Chinese named entity recognition.To utilize the glyphs containing rich entity information,we propose a novel Chinese named entity recognition model based on lexicon and glyph features.Specifically,the model enriches the semantic information through SoftLexicon and optimizes character representation through the improved radical-level embedding,which is fed into gated convolutional network.The experiments on four benchmark datasets show that the proposed model achieves significant improvements compared to both the existing models.

作者于舒娟毛新涛张昀黄丽亚 YU Shujuan;MAO Xintao;ZHANG Yun;HUANG Liya(College of Electronic and Optical Engineering&College of Flexible Electronics(Future Technology),Nanjing University of Posts and Telecommunications,Nanjing,Jiangsu 210023,China)

机构地区南京邮电大学电子与光学工程学院&柔性电子(未来技术)学院

出处《中文信息学报》 CSCD 北大核心 2023年第3期112-122,共11页 Journal of Chinese Information Processing

基金国家自然科学基金(61977039)

关键词中文命名实体识别词典字形特征 Chinese named entity recognition lexicon glyph features

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1ZHOU Junsheng,QU Weiguang,ZHANG Fen.Chinese Named Entity Recognition_via Joint Identification and Categorization[J].Chinese Journal of Electronics,2013,22(2):225-230. 被引量：20

二级参考文献18

1Gina-Anne Levow, “The third international Chinese languageprocessing bakeoff: Word segmentation and named entity recog-nition”,Proc. of the Fifth SIGHAN Workshop on Chinese Lan-guage Processing, Sydney, Australia, pp.108-117, 2006.
2H. Zhang, Q. Liu, H.K. Yu, Y.Q. Cheng and S. Bai, “Chi-nese named entity recognition using role model,,, Computa-tional Linguistics and Chinese Language Processing, Vol.8,No.2, pp.29-60,2003.
3H. Zhang, Q. Liu, H.K. Yu, Y.Q. Cheng and S. Bai, “Chi-nese named entity recognition using role model,,, Computa-tional Linguistics and Chinese Language Processing, Vol.8,No.2, pp.29-60,2003.
4W. Chen, Yujie Zhang and Hitoshi Isahara, “Chinese namedentity recognition with conditional random fields”,Proc. of 5thSIGHAN Workshop on Chinese Language Processing, Sydney,Australia, pp.118-121, 2006.
5J. Zhou, L. He, X. Dai and J. Chen, “Chinese named entityrecognition with a multiphase model”,Proc. of 5th SIGHANWorkshop on Chinese Language Processing, Sydney, Australia,pp.213-216, 2006.
6A. Chen, F. Peng, R. Shan and G. Sun, “Chinese named entityrecognition with conditional probabilistic models", Proc. of 5thSIGHAN Workshop on Chinese Language Processing, Sydney,Australia, pp.173-176, 2006.
7J. Lafferty, A. McCallum and F. Pereira, “Conditional ran-dom fields: Probabilistic models for segmenting and labelingsequence data”, Proc. of ICML, San Francisco, USA, pp.282-289, 2001.
8Yue Zhang and Stephen Clark, “Joint word segmentation andPOS tagging using a single perceptron”,Proc. of ACL/HLT,Columbus, OH, pp.888-896, 2008.
9Yue Zhang and Stephen Clark, “A fast decoder for joint wordsegmentation and POS-tagging using a single discriminativemodel”,Proc. of EM NLP, Cambridge, MA, pp.843-852, 2010.
10W. Jiang, Haitao Mi and Qun Liu, “Word lattice reranking forChinese word segmentation and part-of-speech tagging,,,Proc.of COLING, Manchester, UK, pp.385-392, 2008.

共引文献19

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：49
2WANG Jing,LIU Zhijing,ZHAO Hui.Micro-blogs Entity Recognition Based on DSTCRF[J].Chinese Journal of Electronics,2014,23(1):147-150. 被引量：3
3尹存燕,黄书剑,戴新宇,陈家骏.中英命名实体识别及对齐中的中文分词优化[J].电子学报,2015,43(8):1481-1487. 被引量：6
4王蕾,谢云,周俊生,顾彦慧,曲维光.基于神经网络的片段级中文命名实体识别[J].中文信息学报,2018,32(3):84-90. 被引量：20
5石春丹,秦岭.基于BGRU-CRF的中文命名实体识别方法[J].计算机科学,2019,46(9):237-242. 被引量：26
6殷章志,李欣子,黄德根,李玖一.融合字词模型的中文命名实体识别研究[J].中文信息学报,2019,33(11):95-100. 被引量：39
7Jize Yin,Senlin Luo,Zhouting Wu,Limin Pan.Chinese Named Entity Recognition with Character-Level BLSTM and Soft Attention Model[J].Journal of Beijing Institute of Technology,2020,29(1):60-71.
8Chen GONG,Zhenghua LI,Qingrong XIA,Wenliang CHEN,Min ZHANG.Hierarchical LSTM with char-subword-word tree-structure representation for Chinese named entity recognition[J].Science China(Information Sciences),2020,63(10):70-84. 被引量：3
9陈茹,卢先领.融合空洞卷积神经网络与层次注意力机制的中文命名实体识别[J].中文信息学报,2020,34(8):70-77. 被引量：12
10张欣欣,刘小明,刘研.基于语言模型的中文命名实体识别研究[J].中原工学院学报,2020,31(5):66-71.

同被引文献20

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
2程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：16
3武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6):61-68. 被引量：25
4年洪东,陈小荷,王东波.现当代文学作品的作者身份识别研究[J].计算机工程与应用,2010,46(4):226-229. 被引量：21
5吴景平.蒋介石与抗战初期国民党的对日和战态度--以名人日记为中心的比较研究[J].抗日战争研究,2010(2):131-144. 被引量：16
6闻黎明.关于西南联合大学战时从军运动的考察[J].抗日战争研究,2010(3):5-18. 被引量：19
7杨绍军.魏建功先生在西南联大[J].学术探索,2011(1). 被引量：1
8齐世荣.谈日记的史料价值[J].首都师范大学学报（社会科学版）,2011(6):1-15. 被引量：19
9汤亚芬.先秦古汉语典籍中的人名自动识别研究[J].现代图书情报技术,2013(7):63-68. 被引量：15
10张友仁.赵迺抟教授的生平和学术(下)[J].西安财经学院学报,2015,28(2):121-128. 被引量：1

引证文献1

1张锦胜,林泽斐.数字人文视角下多日记人物关系联合挖掘及可视化研究——以西南联大相关日记为例[J].知识管理论坛,2023(3):171-182.

1孙红,王哲.多粒度融合的命名实体识别[J].中文信息学报,2023,37(3):123-134.
2本红.树枝顶端的果实[J].学生天地（小学低年级）,2023(6):42-45.
3于溟慧.“字”即是文[J].新作文（小学中高年级版）,2023(6):45-47.
4张燕娃.以单元统整促低年段识字教学[J].江苏教育,2023(22):81-82.
5申佳丽.汉字“火”“示”的形体来源与传播[J].中国故事,2023(4):0026-0030.
6骆冬青.图象与形态:论狂草的汉字图象基因及抽象形体艺术[J].江苏社会科学,2023(4):197-203.

中文信息学报

2023年第3期

浏览历史

内容加载中请稍等...

基于词典和字形特征的中文命名实体识别被引量：1

参考文献1

二级参考文献18

共引文献19

同被引文献20

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于词典和字形特征的中文命名实体识别 被引量：1

参考文献1

二级参考文献18

共引文献19

同被引文献20

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于词典和字形特征的中文命名实体识别被引量：1