基于Lattice LSTM的古汉语命名实体识别被引量：15

Named Entity Recognition in Field of Ancient Chinese Based on Lattice LSTM

下载PDF

导出

摘要基于《四库全书》数据集,研究古汉语的命名实体识别技术。提出了基于Lattice LSTM模型的古汉语命名实体识别算法,该方法将字符序列信息和词序列信息共同作为模型的输入。采用甲言(jiayan)分词工具,利用word2vec训练古文字、词向量并作为Lattice LSTM模型的输入,提升了古汉语命名实体识别的效果。基于Lattice LSTM模型和预训练的古文字、词向量,提高了古汉语的实体识别效果,相比传统的BiLSTM-CRF模型,其F1分数提升3.95%左右。 Investigated the named entity recognition problem of ancient Chinese literature based on the Complete Collection of Four Treasuries dataset.Proposed an algorithm for named entity recognition of ancient Chinese literature based on the Lattice LSTM model.This method combines both character sequence information and word sequence information as input to the model.Using jiayan word segmentation tool,word2vec is used to train character and word level embedding of ancient Chinese as input to the Lattice LSTM model,which improves the performance of named entity recognition based on ancient Chineseliterature.Based on the Lattice LSTM model and pre-trained character and word level embedding of ancient Chinese,the performance of named entity recognition based on ancient Chinese literature is improved.Compared with the traditional Bi-LSTM-CRF model,its F1 score is improved by about 3.95%.

作者崔丹丹刘秀磊陈若愚刘旭红李臻齐林 CUI Dan-dan;LIU Xiu-lei;CHEN Ruo-yu;LIU Xu-hong;LI Zhen;QI Lin(Computer School,Beijing Information Science and Technology University,Beijing 100192,China)

机构地区北京信息科技大学计算机学院

出处《计算机科学》 CSCD 北大核心 2020年第S02期18-22,共5页 Computer Science

基金国家重点研发计划课题(2017YFB1400402)。

关键词古汉语命名实体识别 BiLSTM-CRF Lattice LSTM 深度学习 Ancient Chinese literature Named entity recognition BiLSTM-CRF Lattice LSTM Deep learning

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1张聪品,方滔,刘昱良.基于LSTM-CRF命名实体识别技术的研究与应用[J].计算机技术与发展,2019,29(2):106-108. 被引量：29
2陈曙东,欧阳小叶.命名实体识别技术综述[J].无线电通信技术,2020,46(3):251-260. 被引量：60
3王博冉,林夏,朱晓东,朱万琳,马学华.Lattice LSTM神经网络法中文医学文本命名实体识别模型研究[J].中国卫生信息管理杂志,2019,16(1):84-88. 被引量：12
4张文静,张惠蒙,杨麟儿,荀恩东.基于Lattice-LSTM的多粒度中文分词[J].中文信息学报,2019,33(1):18-24. 被引量：17
5王浩畅,赵铁军.基于SVM的生物医学命名实体的识别[J].哈尔滨工程大学学报,2006,27(B07):570-574. 被引量：18
6买买提阿依甫,吾守尔.斯拉木,帕丽旦.木合塔尔,杨文忠.基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别[J].计算机工程,2018,44(8):230-236. 被引量：23

二级参考文献21

1FRANZEN K,ERIKSSON G,OLSSON F,et al.Protein names and how to find them[J].Int J Med Inf,2002,67:49-61
2FUKUDA K,TAMURA A,TSUNODA T,et al.Toward information extraction:identifying protein names from biological papers[A].In Proceedings of Pacific Symposium on Biocomputing'98[C].Maui,Hawaii,1998.
3ZHOU G,ZHANG J,SU J,et al.Recognizing names in biomedical texts:a machine learning approach[J].Bioinformatics,2004,20(7):1178-1190.
4KAZUHIRO Seki,JAVED Mostafa.A Probabilistic Model for Identifying Protein Names and their Name Boundaries[A].Proceedings of the Computational Systems Bioinformatics[C],Stanford,CA,2003.
5YOSHIMASA Tsuruoka,YUKA Tateishi,KIM Jin-Dong,et al.Developing a robust part-of-speech tagger for biomedical text[A].Advances in Informatics -10th Panhellenic Conference on Informatics[C].[s.l.]2005
6KULICK S,BIES A,LIBERMAN M,et al.Integrated annotation for biomedical information extraction[A].HLT/NAACL 2004 Workshop:BioLink[C].Boston,Massachusetts,2004.
7MIKA S R.Protein names peeled precisely off free text[J].Bioinformatics,2004,20:241-247.
8SCHWARTZ AS,HEARST MA.A simple algorithm for identifying abbreviation definitions in biomedical text[J].Pac Symp Biocomput,2003,8:451-462.
9KIM Jin-Dong,OHTA Tomoko,TSURUOKA Yoshimasa,et al.Introduction to the bio-entity recognition task at JNLPBA[A].Proceedings of the Joint Workshop on Natural Language Processing in Biomedicine and its Applications(JNLPBA-2004)[C].Geneva,Switzerland,2004.
10ZHOU Guodong,SU Jian.Exploring deep knowledge resources in biomedical name recognition[A].Proceedings of the Joint Workshop on Natural Language Processing in Biomedicine and its Applications(JNLPBA-2004)[C].Geneva,Switzerland,2004.

共引文献147

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：44
3李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622. 被引量：1
4杨涛,王迪,冯梦晗,黄宗海,段茹茜,卜鹏志,郭富强,温川飙.基于中医四诊、西医检验和生物信息的多类型传感器数据归一化分层处理架构的研究[J].世界科学技术-中医药现代化,2023,25(2):798-805. 被引量：3
5肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：32
6刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
7杨雷,韦韩,龚尚文,赵莺菲.基于LSTM的桥梁养护文本数据的命名实体识别方法[J].公路交通科技,2023,40(S02):187-192.
8Zhixiang Ji,Xiaohui Wang,Changyu Cai,Hongjian Sun.Power entity recognition based on bidirectional long short-term memory and conditional random fields[J].Global Energy Interconnection,2020,3(2):186-192. 被引量：8
9王浩畅,赵铁军.生物医学文本挖掘技术的研究与进展[J].中文信息学报,2008,22(3):89-98. 被引量：23
10郭剑毅,薛征山,余正涛,张志坤,张宜浩,姚贤明.基于层叠条件随机场的旅游领域命名实体识别[J].中文信息学报,2009,23(5):47-52. 被引量：37

同被引文献135

1刘清堂,杨炜钦,吴林静,贺黎鸣,李晶,马晶晶.初等数学应用题题意理解中的常识库系统构建[J].计算机系统应用,2020,29(12):72-79. 被引量：1
2陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
3李芊芊,付兴,杨凤,侯鉴宸,陶晓华,韩帅,贾昌民.基于“病脉证并治”诊疗思维的《伤寒论》知识图谱构建与应用[J].世界科学技术-中医药现代化,2022,24(9):3613-3621. 被引量：10
4肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：32
5任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
6张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英.面向医疗文本的实体及关系标注平台的构建及应用[J].中文信息学报,2020,34(6):36-44. 被引量：13
7俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
8程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：22
9苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
10周国光.汉语配价语法论略[J].南京师大学报（社会科学版）,1994(4):103-106. 被引量：30

引证文献15

1王一钒,李博,史话,苗威,姜斌.古汉语实体关系联合抽取的标注方法[J].数据分析与知识发现,2021,5(9):63-74. 被引量：8
2沈同平,俞磊,金力,黄方亮,许欢庆.基于BERT-BiLSTM-CRF模型的中文实体识别研究[J].齐齐哈尔大学学报（自然科学版）,2022,38(1):26-32. 被引量：10
3王东波,刘畅,朱子赫,刘江峰,胡昊天,沈思,李斌.SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究[J].图书馆论坛,2022,42(6):30-43. 被引量：51
4刘畅,王东波,胡昊天,张逸勤,李斌.面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(6):44-54. 被引量：25
5巩一璞,王小伟,王济民,王顺仁.命名实体识别技术在“数字敦煌”中的应用研究[J].敦煌研究,2022(2):149-158. 被引量：4
6梁登玉,刘大明.融合多粒度信息与外部知识的短文本匹配模型[J].计算机工程,2022,48(8):129-135. 被引量：4
7潘胜星,唐雅娟.基于FCN-CRF的医疗命名实体识别[J].电子设计工程,2022,30(17):60-63. 被引量：1
8潘威,岳佳雲.关于数字人文进入清代河流研究的若干想法[J].史学月刊,2023(1):116-121. 被引量：4
9刘清堂,马鑫倩,周洁,吴林静,周鹏霄.融合常识库和语法特征的数学应用题题意理解[J].计算机应用,2023,43(2):356-364. 被引量：1
10张朦,刘忠宝.数字人文环境下融入多特征的词命名实体识别[J].计算机系统应用,2023,32(3):300-308.

二级引证文献91

1黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
2张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
3李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
4文辉,徐永林,于敬.基于主动学习的领域知识多模式抽取框架[J].新一代信息技术,2022,5(6):137-143.
5刘欢,刘浏,王东波.数字人文视角下的领域知识图谱自动问答研究[J].科技情报研究,2022,4(1):46-59. 被引量：4
6王永生,王昊,虞为,周泽聿.融合结构和内容的方志文本人物关系抽取方法[J].数据分析与知识发现,2022,6(2):318-328. 被引量：1
7唐晓波,彭映寒.科技论文引用对象和引文功能的联合自动识别方法研究[J].现代情报,2022,42(6):38-48. 被引量：2
8Xing Liu,Huiqin Chen,Wangui Xia.Overview of Named Entity Recognition[J].Journal of Contemporary Educational Research,2022,6(5):65-68. 被引量：3
9耿云冬,张逸勤,刘欢,王东波.面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(6):55-63. 被引量：12
10范明炜,张云华.基于改进BERT和多阶段TCN的短文本分类[J].智能计算机与应用,2022,12(7):156-159.

1刘婧茹,宋阳,贾睿,张翼鹏,罗勇,马敬东.基于BiLSTM-CRF中文临床文本中受保护的健康信息识别[J].数据分析与知识发现,2020,4(10):124-133. 被引量：11
2张亚飞,于琦,王于心,王嫄,贾晨晨,卫慧蓉,贺培凤.基于药物论坛中潜在不良反应与适应症的知识发现体系构建[J].中华医学图书情报杂志,2020,29(7):38-43. 被引量：5
3吴娟娟,李先信,苑平,孔佑涵.柑橘紫色酸性磷酸酶PAP基因的低磷胁迫表达特征[J].分子植物育种,2020,18(21):6975-6980. 被引量：2
4王思丽,祝忠明,杨恒,刘巍.基于模式和投影学习的领域概念上下位关系自动识别研究[J].数据分析与知识发现,2020,4(11):15-25. 被引量：2
5朱江,陈涛,李鹤喜,何振威,曾昭德,浦汉军.基于自然语言处理的压缩机故障自动识别方法[J].五邑大学学报（自然科学版）,2020,34(4):42-46.
6高学攀,杜楚,吴金亮.基于BiLSTM-CRF的军事命名实体识别方法[J].无线电工程,2020,50(12):1050-1054. 被引量：6
7张菊,杜思瑶,方琳琳,胡荣,廖焰焰,王筱兰,杨慧林.一株从豆豉中分离的乙醇生产菌株Jxnu-18的全基因组分析[J].基因组学与应用生物学,2020,39(8):3490-3495.
8王辉,潘俊辉,王浩畅,张强,张岩,Marius.Petrescu.基于深度学习的中文语法错误诊断方法研究[J].计算机技术与发展,2020,30(11):69-73. 被引量：4

计算机科学

2020年第S02期

浏览历史

内容加载中请稍等...

基于Lattice LSTM的古汉语命名实体识别被引量：15

参考文献6

二级参考文献21

共引文献147

同被引文献135

引证文献15

二级引证文献91

相关作者

相关机构

相关主题

浏览历史

基于Lattice LSTM的古汉语命名实体识别 被引量：15

参考文献6

二级参考文献21

共引文献147

同被引文献135

引证文献15

二级引证文献91

相关作者

相关机构

相关主题

浏览历史

基于Lattice LSTM的古汉语命名实体识别被引量：15