摘要
命名实体识别是文学作品智能分析的基础性工作,当前文学领域命名实体识别的研究还较薄弱,一个主要原因是缺乏标注语料。该文从金庸小说入手,对两部小说180余万字进行了命名实体的标注,共标注4类实体,共计5万多个。针对小说文本的特点,该文提出融入篇章信息的命名实体识别模型,引入篇章字典保存汉字的历史状态,利用可信度计算融合BiGRU-CRF与Transformer模型。实验结果表明,利用篇章信息有效提升了命名实体识别的效果。最后,该文还探讨了命名实体识别在小说社会网络构建中的应用。
Named entity recognition is essential to the intelligent analysis of literary works.We annotate over 50 thousands named entities of four types from about 1.8 million words of two Jin Yong’s novels.According to the characteristics of novel text,this paper proposes a document-level named entity recognition model with a dictionary to record the historical state of Chinese characters.We use confidence estimation to fuse BiGRU-CRF and Transformer model.The experimental results show that the proposed method can effectively improve the performance of named entity recognition.
作者
贾玉祥
晁睿
昝红英
窦华溢
曹帅
徐硕
JIA Yuxiang;CHAO Rui;ZAN Hongying;DOU Huayi;CAO Shuai;XU Shuo(School of Computing and Artificial Intelligence,Zhengzhou University,Zhengzhou,Henan 450000,China;Zhengzhou Zoneyet Technology Co.,Ltd.,Zhengzhou,Henan 450000,China)
出处
《中文信息学报》
CSCD
北大核心
2023年第11期100-109,共10页
Journal of Chinese Information Processing
基金
国家重点研究发展计划(2017YFB1002101)
国家社会科学基金(18ZDA295,17ZDA318)
国家自然科学基金(62006211)
中国博士后科学基金(2019TQ0286,2020M682349)。
关键词
文学作品
命名实体识别
篇章信息
literary text
named entity recognition
document level information