期刊文献+

融合结构和内容的方志文本人物关系抽取方法

Extracting Relationship Among Characters from Local Chronicles with Text Structures and Contents
原文传递
导出
摘要 【目的】在方志信息资源领域内开展关系抽取研究,探究方志文本中蕴含的地域文化传统。【方法】从文本结构和文本内容两个角度探讨关系抽取方法。文本结构上使用规则模板和词句特征的方法从原始文本中提取人物关系记录,并构建不同粒度的人物关系类别;文本内容上引入远程监督的方法进一步提取人物关系记录;最后引入BERT+Bi-GRU+ATT和BERT+FC深度学习模型将人物关系抽取任务转化为人物关系的多标签分类任务,并通过对关系标签修正的方式弱化远程监督引入的噪声对模型精度所产生的影响。【结果】基于多角度融合提出的关系抽取方法具有自动化程度高、关系记录提取率高的特征。深度学习BERT+FC模型在不同类别上F1值的提升幅度可达1%~27%;不同关系类别间表现出一定的亲和性,但类别本质不同;标签修正后的“强共现关系”F1值提高3%。【局限】仅探究了地方志中人物实体间关系,未拓展研究方志文本中其他实体间关系。【结论】基于多角度融合的方法提供了一套方志文本同类型实体关系抽取研究流程,引入深度学习模型增强了关系抽取方法的可移植性。 [Objective]This study proposes a new method to extract relationship among characters from local chronicles,aiming to explore the culture and history information embedded in Yiwu Local Chronicles—Chapter of Persons.[Methods]We constructed the relationship extraction model based on text structures and contents.For text structures,we used the rule templates and word features to extract relationship from the original texts,which was also categorized with different granularity.For the text contents,we introduced a remotely supervised approach to extract relationship.Then,we combined the BERT+Bi-GRU+ATT and BERT+FC deep learning models to transform the relationship extraction to a multi-label classification task.Finally,we reduced the impacts of the noise from remote supervision on the model’s accuracy by correcting relationship labels.[Results]The proposed method realized high automation and yielded better extracted information.The BERT+FC models improved the F1 values by up-to 27%,while different relationship categories showed some affinity.The F1 value of the“strong co-occurrence relationship”was increased by 3%after label correction.[Limitations]We only investigated the relationships among characters in local chronicles.[Conclusions]The new method could effectively extract relationship among the same type of entities in historical Chinese documents.
作者 王永生 王昊 虞为 周泽聿 Wang Yongsheng;Wang Hao;Yu Wei;Zhou Zeyu(School of Information Management,Nanjing University,Nanjing 210023,China;Jiangsu Key Laboratory of Data Engineering and Knowledge Service,Nanjing 210023,China)
出处 《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第2期318-328,共11页 Data Analysis and Knowledge Discovery
基金 国家自然科学基金项目(项目编号:72074108) 中央高校基本科研业务费项目(项目编号:010814370113)的研究成果之一。
关键词 地方志 关系抽取 远程监督 BERT Bi-GRU Local Chronicles Relationship Extraction Remote Supervision BERT Bi-GRU
  • 相关文献

参考文献17

二级参考文献157

共引文献269

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部