融入篇章信息的文学作品命名实体识别

Document-level Named Entity Recognition for Literary Texts

下载PDF

导出

摘要命名实体识别是文学作品智能分析的基础性工作,当前文学领域命名实体识别的研究还较薄弱,一个主要原因是缺乏标注语料。该文从金庸小说入手,对两部小说180余万字进行了命名实体的标注,共标注4类实体,共计5万多个。针对小说文本的特点,该文提出融入篇章信息的命名实体识别模型,引入篇章字典保存汉字的历史状态,利用可信度计算融合BiGRU-CRF与Transformer模型。实验结果表明,利用篇章信息有效提升了命名实体识别的效果。最后,该文还探讨了命名实体识别在小说社会网络构建中的应用。 Named entity recognition is essential to the intelligent analysis of literary works.We annotate over 50 thousands named entities of four types from about 1.8 million words of two Jin Yong’s novels.According to the characteristics of novel text,this paper proposes a document-level named entity recognition model with a dictionary to record the historical state of Chinese characters.We use confidence estimation to fuse BiGRU-CRF and Transformer model.The experimental results show that the proposed method can effectively improve the performance of named entity recognition.

作者贾玉祥晁睿昝红英窦华溢曹帅徐硕 JIA Yuxiang;CHAO Rui;ZAN Hongying;DOU Huayi;CAO Shuai;XU Shuo(School of Computing and Artificial Intelligence,Zhengzhou University,Zhengzhou,Henan 450000,China;Zhengzhou Zoneyet Technology Co.,Ltd.,Zhengzhou,Henan 450000,China)

机构地区郑州大学计算机与人工智能学院郑州中业科技股份有限公司

出处《中文信息学报》 CSCD 北大核心 2023年第11期100-109,共10页 Journal of Chinese Information Processing

基金国家重点研究发展计划(2017YFB1002101) 国家社会科学基金(18ZDA295,17ZDA318) 国家自然科学基金(62006211) 中国博士后科学基金(2019TQ0286,2020M682349)。

关键词文学作品命名实体识别篇章信息 literary text named entity recognition document level information

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：178
2林峰,赵广平,林娜,吴亚楠.《红楼梦》文本的社会网络结构分析[J].石家庄铁道大学学报（社会科学版）,2018,12(1):58-63. 被引量：6
3柏兵,侯霞,石松.基于CRF和BI-LSTM的命名实体识别方法[J].北京信息科技大学学报（自然科学版）,2018,33(6):27-33. 被引量：16
4王月,王孟轩,张胜,杜渂.基于BERT的警情文本命名实体识别[J].计算机应用,2020,40(2):535-540. 被引量：43
5陈茹,卢先领.融合空洞卷积神经网络与层次注意力机制的中文命名实体识别[J].中文信息学报,2020,34(8):70-77. 被引量：12

二级参考文献42

1曹清富.《红楼梦》后四十回决非曹雪芹所作——前八十回与后四十回虚词、词组及回目之比较[J].红楼梦学刊,1985(1):281-312. 被引量：7
2陈大康.从数理语言学看后四十回的作者——与陈炳藻先生商榷[J].红楼梦学刊,1987(1):293-318. 被引量：54
3李贤平.《红楼梦》成书新说[J].复旦学报（社会科学版）,1987,29(5):3-16. 被引量：66
4薛瑞生.机关算尽太聪明——王熙凤论[J].红楼梦学刊,1995(2):35-67. 被引量：9
5宋谋玚.关于《红楼梦》作者及其他[J].红楼梦学刊,1995(1):99-109. 被引量：1
6刘宏彬.金陵十二钗中六对人物形象的矛盾组合[J].红楼梦学刊,1990(4):55-69. 被引量：13
7赵国栋.《红楼梦》作者新考[J].河南大学学报（社会科学版）,1990,30(2):34-43. 被引量：10
8张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
9[16]Hobbs J,Appelt D,Bear J et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Roche,Schabes eds. Finite State Devices for Natural Language Processing, MIT Press,Cambridge MA, 1996
10[17]Appelt D E.Introduction to Information Extraction[J].AI COMMUNICATIONS, 1999; 12(3)

共引文献249

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：19
3王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.
4沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
5王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
6叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
7岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
8张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
9李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
10宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1

1武家瑞.“撞脸”的好兄弟“大”和“太”[J].书法教育,2023(6):52-53.
2刘国强.“洞穴”“复归”“隐遁”——金庸小说的基本叙事语法分析[J].苏州教育学院学报,2023,40(6):39-46.
3钟星远.双龙取水化佳作,阴阳共济成名篇[J].黄金时代（下半月）,2024(1):61-63.
4张燕,黄山桃.印度奇幻片:天马行空的集体幻想与超现实表达[J].电影评介,2023(23):5-11.
5孙旭.基于“教-学-评一致性”的叙述视角教学——以《百合花》《哦,香雪》为例[J].中学语文教学参考,2023(45):23-26.
6司聃.佛教文学研究的经典范式——以陈允吉《佛教中国文学溯论稿》为中心[J].中国佛学,2022(1):185-192.
7王雨婷.权力与凝视:在《上帝的玩笑》中探索性别动力[J].莲池周刊,2023(43):40-42.
8王婷,王娜,崔运鹏,刘娟.基于人工智能大模型技术的果蔬农技知识智能问答系统[J].智慧农业（中英文）,2023,5(4):105-116. 被引量：5
9吴晗.论冯梦龙小说中的女性形象——以《情史》和“三言”为中心[J].山东女子学院学报,2024(1):101-110.
10傅守祥,谢苗苗.作者电影的许氏风格与《第一炉香》的形象偏离[J].城市学刊,2023,44(6):67-72.

中文信息学报

2023年第11期

浏览历史

内容加载中请稍等...

融入篇章信息的文学作品命名实体识别

参考文献5

二级参考文献42

共引文献249

相关作者

相关机构

相关主题

浏览历史