一种基于深度学习的实体消歧技术被引量：2

An Entity Disambiguation Method Based on Deep Learning

下载PDF

导出

摘要传统的命名实体消歧技术通常依靠丰富的上下文语境和外部实体知识库,而很多新兴实体缺乏知识库且包含实体的文本长度较短,这些局限性使得传统算法不能够充分利用上下文的语义信息。另外,由于受有效样本数量的限制,算法最终应用的场景十分有限。基于上述问题,提出一种基于深度学习的结合BERT(bidirectional encoder representation from transformers)模型和长短期记忆神经网络的实体消歧方法。该方法主要包含以下几个部分:1)设计了一种基于BERT模型的词向量,通过较少的数据样本仍然可以获取较多的信息;2)为了让长短期记忆神经网络保留较多的有用信息和验证短文本以适用该方法,对句子样本进行切分;3)结合微软公司提出的NNI(neural network intelligence)技术,高效地获取较优的神经网络超参数。通过与其他不同类型的词向量和神经网络技术进行比较,验证了使用文中基于深度学习的实体消歧技术在F-Measure值评测指标上效果更好。 The traditional named entity disambiguation technology usually relies on rich context and knowledge of external entities.However,many emerging entities lack knowledge bases and the text containing entities is short.These limitations make traditional algorithms unable to make full use of contextual semantic information.At the same time,due to the limitation of the number of effective samples,the final application scenarios of the algorithm are very limited.Based on the above defects,this paper proposes a deep learning-based entity disambiguation method combining bidirectional encoder representation from transformers(BERT)model and long short-term memory neural network.The main work are the following parts:1)A word vector based on the BERT model is designed to obtain more information through fewer data samples.2)In order to allow the long short-term memory neural networks to retain useful information and verify that the short text applies to the method of this article,this method segments the sentence samples.3)This article uses the neural network intelligence(NNI)technology proposed by Microsoft,which makes it possible to quickly and efficiently obtain the optimal neural network hyperparameter.This study compares other different types of word vectors and neural network technology,confirming that the F-Measure value of the entity disambiguation technology based on deep learning used in this paper is higher.

作者文万志姜文轩葛威朱恺李喜凯吴雪斐 WEN Wanzhi;JIANG Wenxuan;GE Wei;ZHU Kai;LI Xikai;WU Xuefei(School of Information Science and Technology,Nantong University,Nantong 226019,China)

机构地区南通大学信息科学技术学院

出处《南通大学学报（自然科学版）》 CAS 2021年第4期23-30,共8页 Journal of Nantong University(Natural Science Edition)　

基金国家自然科学基金项目(61602267) 工业信息化部重点实验室开放基金项目(NJ2018014)。

关键词深度学习自然语言处理实体消歧长短期记忆神经网络 deep learning natural language processing entity disambiguation long short-term memory neural network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1王博,杨沐昀,李生,赵铁军.中文全词消歧在机器翻译系统中的性能评测[J].自动化学报,2008,34(5):535-541. 被引量：6
2邵发,黄银阁,周兰江,郭剑毅,余正涛,张金鹏.基于实体消歧的中文实体关系抽取[J].山东大学学报（工学版）,2014,44(6):32-37. 被引量：6
3宁博,张菲菲.基于异构知识库的命名实体消歧[J].西安邮电大学学报,2014,19(4):70-76. 被引量：9
4高艳红,李爱萍,段利国.面向实体链接的多特征图模型实体消歧方法[J].计算机应用研究,2017,34(10):2909-2914. 被引量：12
5马晓军,郭剑毅,王红斌,张志坤,线岩团,余正涛.融合词向量和主题模型的领域实体消歧[J].模式识别与人工智能,2017,30(12):1130-1137. 被引量：8
6吴炎,王儒敬.基于BERT的语义匹配算法在问答系统中的应用[J].仪表技术,2020(6):19-22. 被引量：7
7赵军.命名实体识别、排歧和跨语言关联[J].中文信息学报,2009,23(2):3-17. 被引量：50
8温萍梅,叶志炜,丁文健,刘颖,徐健.命名实体消歧研究进展综述[J].数据分析与知识发现,2020,4(9):15-25. 被引量：14
9怀宝兴,宝腾飞,祝恒书,刘淇.一种基于概率主题模型的命名实体链接方法[J].软件学报,2014,25(9):2076-2087. 被引量：31
10李广一,王厚峰.基于多步聚类的汉语命名实体识别和歧义消解[J].中文信息学报,2013,27(5):29-34. 被引量：17

二级参考文献186

1董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：56
2黄昌宁,李涓子.词义排歧的一种语言模型[J].语言文字应用,2000(3):85-90. 被引量：16
3程妮,崔建海,王军.国外信息过滤系统的研究综述[J].现代图书情报技术,2005(6):30-38. 被引量：11
4孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
5卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27
6蒋宏飞,杨沐昀,赵铁军.面向奥运的汉英RBMT与EBMT研究[J].中文信息学报,2006,20(B03):71-74. 被引量：1
7蒋龙,周明,简立峰.利用音译和网络挖掘翻译命名实体[J].中文信息学报,2007,21(1):23-29. 被引量：11
8王宏鼎,谭少华,唐世渭,杨冬青,童云海.基于模式元素语义关系的模式合并方法研究[J].北京大学学报（自然科学版）,2007,43(3):405-411. 被引量：3
9吕雅娟赵铁军李生杨沐昀.统计和词典方法相结合的双语语料库词对齐[A]..第六届计算语言学联合学术会议[C].太原,2001..
10NIST. The ACE 2007 (ACE07) Evaluation Plan: Evaluation of the Detection and Recognition of ACE Entities, Values, Temporal Expressions, Relations, and Events [EB/OL]. [-2007]. http://www, hist. gov/ speech/tests/ace/2OOT/doc/aceOT-evalplan, vl. 3a. pdf.

共引文献140

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
2姜丽婷,古丽拉·阿东别克,马雅静.基于混合卷积网络的短文本实体消歧[J].中文信息学报,2021,35(11):101-108. 被引量：2
3范鹏程,沈英汉,许洪波,程学旗,廖华明.融合实体知识描述的实体联合消歧方法[J].中文信息学报,2020(7):42-49. 被引量：5
4罗文华.非结构化数据处理分析在电子数据取证中的应用[J].警察技术,2010(3):42-45.
5蒋宏飞,李生,张民,赵铁军,杨沐昀.基于同步树序列替换文法的统计机器翻译模型[J].自动化学报,2009,35(10):1317-1326. 被引量：2
6李楠,郑荣廷,吉久明,滕青青.基于启发式规则的中文化学物质命名识别研究[J].现代图书情报技术,2010(5):13-17. 被引量：12
7赵军,刘康,周光有,蔡黎.开放式文本信息抽取[J].中文信息学报,2011,25(6):98-110. 被引量：61
8张俊三,瞿有利.信息检索中相关实体发现综述[J].计算机工程与设计,2011,32(12):4035-4038. 被引量：2
9李静,罗文华,林鸿飞.自然语言处理技术在网络案情分析系统中的应用[J].计算机工程与应用,2012,48(3):216-220. 被引量：5
10胡伟,柏文阳,瞿裕忠.语义Web中对象共指的消解研究[J].软件学报,2012,23(7):1729-1744. 被引量：7

同被引文献27

1范鹏程,沈英汉,许洪波,程学旗,廖华明.融合实体知识描述的实体联合消歧方法[J].中文信息学报,2020(7):42-49. 被引量：5
2怀宝兴,宝腾飞,祝恒书,刘淇.一种基于概率主题模型的命名实体链接方法[J].软件学报,2014,25(9):2076-2087. 被引量：31
3谭咏梅,杨雪.结合实体链接与实体聚类的命名实体消歧[J].北京邮电大学学报,2014,37(5):36-40. 被引量：12
4刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：897
5冯冲,石戈,郭宇航,龚静,黄河燕.基于词向量语义分类的微博实体链接方法[J].自动化学报,2016,42(6):915-922. 被引量：12
6毛二松,王波,唐永旺,梁丹.基于词向量的中文微博实体链接方法[J].计算机应用与软件,2017,34(4):11-15. 被引量：5
7线岩团,余正涛,洪旭东,张磊,郭剑毅.基于特征加权重叠度的中文实体协同消歧方法[J].中文信息学报,2017,31(2):36-41. 被引量：6
8王静,谭绍峰,贺东东,陈建辉,闫健卓.基于上下文特征的领域文献实体消歧算法[J].北京生物医学工程,2018,37(4):398-402. 被引量：3
9项炜,金澎.大规模语料库上的Stanford和Berkeley句法分析器性能对比分析[J].电脑知识与技术（过刊）,2013,19(3X):1984-1986. 被引量：3
10王旭阳,姜喜秋.基于上下文信息的中文命名实体消歧方法研究[J].计算机应用研究,2018,35(4):1072-1075. 被引量：7

引证文献2

1范明炜,张云华.结合显式句法依赖与分层注意力进行方面级情感分析[J].软件工程,2022,25(9):1-4.
2石水倩,金晶,沈耕宇,王宝佳,任妮.基于多元相似度融合的中文命名实体消歧方法[J].数据分析与知识发现,2024,8(2):56-64.

1施浓,聂铁铮,申德荣,寇月,于戈.结合图卷积神经网络的文献作者姓名消歧[J].小型微型计算机系统,2021,42(10):2217-2222. 被引量：1
2胡元江,陈洁雯.新闻语篇的趋近化共识建构--以《华尔街日报》中美贸易摩擦话语为例[J].外语研究,2021,38(5):12-17. 被引量：1
3Dina Bass,Jason Schreier,孟洁冰(译).《光环》王牌编剧回归成功拯救微软新游戏[J].商业周刊（中文版）,2021(24):16-18.
4王章辉,吕亚茹,张涵婷.基于关联图和文本相似度的实体消歧技术研究[J].计算机与数字工程,2021,49(12):2469-2475. 被引量：1
5项奇军,蒋世玉.《面向自然语言处理的100个语言学要点Ⅱ:语义、语用篇》评介[J].外文研究,2021,9(4):90-93.
6黄伟玲.拜登“百日”演讲的趋近化分析[J].现代语言学,2021,9(5):1153-1156.
7黄山成,韩东红,乔百友,吴刚,王国仁.基于ERNIE2.0-BiLSTM-Attention的隐式情感分析方法[J].小型微型计算机系统,2021,42(12):2485-2489. 被引量：10
8陈立群.浅析初中英语阅读中的信息缺省现象[J].英语画刊（高级）,2021(17):46-47.
9侯旭姣.清代上海房地契疑难词语释义[J].安庆师范大学学报（社会科学版）,2021,40(6):61-66.
10钱峥远,王顺,曾国荪.云计算中基于数据流图的微服务划分方法[J].计算机科学与应用,2021,11(12):3060-3069.

南通大学学报（自然科学版）

2021年第4期

浏览历史

内容加载中请稍等...

一种基于深度学习的实体消歧技术被引量：2

参考文献11

二级参考文献186

共引文献140

同被引文献27

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于深度学习的实体消歧技术 被引量：2

参考文献11

二级参考文献186

共引文献140

同被引文献27

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于深度学习的实体消歧技术被引量：2