基于多源信息融合的分布式词表示学习被引量：4

Distributed Word Embedding via Multi-Source Information Fusion

下载PDF

导出

摘要分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足:(1)罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息;(2)中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示;(3)互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远。基于以上三点,该文提出了一种基于多源信息融合的分布式词表示学习算法(MSWE),主要做了4个方面的改进:(1)通过显式地构建词语的上下文特征矩阵,保留了罕见词及其上下文词语在语言训练模型中的共现信息可以较准确地反映出词语结构所投影出的结构语义关联;(2)通过词语的描述或解释文本,构建词语的属性语义特征矩阵,可有效地弥补因为上下文结构特征稀疏而导致的训练不充分;(3)通过使用同义词与反义词信息,构建了词语的同义词与反义词特征矩阵,使得同义词在词向量空间中具有较近的空间距离,而反义词则在词向量空间中具有较远的空间距离;(4)通过诱导矩阵补全算法融合多源特征矩阵,训练得到词语低维度的表示向量。实验结果表明,该文提出的MSWE算法能够有效地从多源词语特征矩阵中学习到有效的特征因子,在6个词语相似度评测数据集上表现出了优异的性能。 Distributed word embedding aims at using neural network framework to learn the low-dimension,compressed and dense representation vectors for words in corpus.This paper proposes a distributed word embedding based on multi-source information fusion(MSWE).In the MSWE algorithm,the main improvements are focused on the following four aspects:(1)Through the explicit construction of context feature matrix,the co-occurrence of rare words and their context words can be retained in the language model,therefore,the structural semantic associations between words can be accurately reflected.(2)Through the descriptions and explanation texts of the words,the property semantic feature matrix of the words is constructed,which can effectively compensate the problem of the insufficient training due to the sparsity of the context.(3)The synonym and antonym matrix of the words are constructed,which makes the synonyms have a closer distance,and the antonyms have a farther distance in the word embedding space.(4)The multi-source feature matrices are integrated by the inductive matrix complement algorithm,and the various relationships of words are trained to get the low-dimensional embeddings.The experimental results show that the proposed MSWE algorithm shows an excellent performance on the six similarity evaluation datasets.

作者冶忠林赵海兴张科朱宇 YE Zhonglin;ZHAO Hairing;ZHANG Ke;ZHU Yu(College of Computer,Qinghai Normal University,Xining,Qinghai 810008,China;College of Computer Science,Shaanxi Normal University,Xi’an,Shaanxi 710062,China;Provincial Key Laboratory of Tibetan Information Processing and Machine Translation,Xining,Qinghai 810008,China;Key Laboratory of Tibetan Information Processing,Ministry of Education,Xining,Qinghai 810008,China)

机构地区青海师范大学计算机学院陕西师范大学计算机科学学院青海省藏文信息处理与机器翻译重点实验室藏文信息处理教育部重点实验室

出处《中文信息学报》 CSCD 北大核心 2019年第10期18-30,共13页 Journal of Chinese Information Processing

基金国家自然科学基金(11661069,61763041,61663041) 长江学者和创新研究团队项目(IRT_15R40) 中央高校基本科研业务费专项资金(2017TS045) 青海省藏文信息处理与机器翻译重点实验室项目(2013-Z-Y17)

关键词词表示学习词表示词嵌入词向量词特征学习 word representation learning word representation word embedding word vector word feature learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：260
2陈维政,张岩,李晓明.网络表示学习[J].大数据,2015,1(3):8-22. 被引量：16

二级参考文献125

1Independent component analysis: algorithms and applications[J]. Neural Networks . 2000 (4)
2Miller G A. WordNet: A lexical database for English [J]. Communications of the ACM, 1995, 38(11): 39-41.
3Bollacker K, Evans C, Paritosh P, et al. Freebase: A collaboratively created graph database for structuring human knowledge [C] //Proe of KDD. New York: ACM, 2008: 1247-1250.
4Miller E. An introduction to the resource description framework [J]. Bulletin of the American Society for Information Science and Technology, 1998, 25(1): 15-19.
5Bengio Y. Learning deep architectures for AI [J]. Foundations and Trends in Machine Learning, 2099, 2 (1) 1-127.
6Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828.
7Turian J, Ratinov L, Bengio Y. Word representations: A simple and general method for semi-supervised learning [C]// Proc of ACL. Stroudsburg, PA: ACL, 2010:384-394.
8Manning C D, Raghavan P, Schutze H. Introduction to Information Retrieval [M]. Cambridge, UK: Cambridge University Press, 2008.
9Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their eompositionality [C] //Proe of NIPS. Cambridge, MA: MIT Press, 2013:3111-3119.
10Zhao Y, Liu Z, Sun M. Phrase type sensitive tensor indexing model for semantic composition [C] //Proc of AAAI. Menlo Park, CA: AAAI, 2015: 2195-2202.

共引文献272

1余传明,李浩男,王曼怡,黄婷婷,安璐.基于深度学习的知识表示研究:网络视角[J].数据分析与知识发现,2020,4(1):63-75.
2张骁雄,杨琴琴,何浩然,丁鲲.面向俄乌冲突的时序知识图谱推理系统设计与实现[J].网络安全与数据治理,2023,42(S01):157-162.
3赵晓函,周子力,李天宇,陈丹华,王凯莉.一种基于IC参数的知识图谱嵌入方法[J].中文信息学报,2021,35(10):48-55.
4詹威威,程序,蔡惠民,刘汪洋,王彬,余正涛.基于综合影响力模型的改进EvolveKG方法及应用研究[J].计算机应用研究,2020,37(S01):159-162.
5阿布都克力木·阿布力孜,张雨宁,阿力木江·亚森,郭文强,哈里旦木·阿布都克里木.预训练语言模型的扩展模型研究综述[J].计算机科学,2022,49(S02):43-54. 被引量：11
6郝卫,魏赟.基于知识图谱表示学习的推荐算法优化[J].智能计算机与应用,2020,10(4):22-26. 被引量：3
7甘惟,吴志强,王元楷,徐浩文,严娟,何珍,赵紫辰.AIGC辅助城市设计的理论模型建构[J].城市规划学刊,2023(2):12-18. 被引量：16
8赵卫红.海洋中胶体研究的新进展[J].海洋与湖沼,2000,31(2):221-229. 被引量：11
9许升健.年薪制的困惑[J].金山企业管理,2000(1):40-41.
10王春凯,冯键.跨界数据融合在保险行业中的应用[J].保险理论与实践,2019,0(3):38-50.

同被引文献47

1李良炎,何中市,易勇.基于词联接的诗词风格评价技术[J].中文信息学报,2005,19(6):98-104. 被引量：7
2肖冬平.知识网络研究综述[J].重庆工商大学学报（自然科学版）,2006,23(6):617-623. 被引量：21
3赵蓉英.论知识网络的结构[J].图书情报工作,2007,51(9):6-10. 被引量：74
4顾东蕾.论学科知识网络的理论基础[J].图书情报工作,2008,52(9):32-35. 被引量：15
5顾东蕾.论学科知识网络[J].情报杂志,2008,27(9):50-55. 被引量：16
6龚岚.试论唐诗宋词中的高频字[J].江西财经大学学报,2009(1):104-108. 被引量：3
7王晓光.科学知识网络的形成与演化（Ⅰ）：共词网络方法的提出[J].情报学报,2009,28(4):599-605. 被引量：87
8姜春林,张帆,唐悦.我国部分科学学期刊共被引网络特征研究[J].情报杂志,2010,29(4):10-15. 被引量：18
9刘宇凡,郭金忠,陈清华.唐代以来汉语文学作品中的字频演变[J].中文信息学报,2011,25(3):93-97. 被引量：4
10王众托.关于超网络的一点思考[J].上海理工大学学报,2011,32(3):229-237. 被引量：63

引证文献4

1李慧,胡吉霞.一种基于图卷积自编码模型的多维度学科知识网络融合方法[J].图书情报工作,2020,64(18):114-125. 被引量：5
2王高杰,冶忠林,赵海兴,朱宇,孟磊.唐诗宋词中的超网络特性分析[J].计算机应用,2021,41(8):2432-2439. 被引量：3
3李卓然,冶忠林,赵海兴,林晶晶.基于混合特征建模的图卷积网络方法[J].计算机应用,2022,42(11):3354-3363. 被引量：3
4唐善成,鲁彪,张雪,张莹,梁少君.面向汉字矢量图形特征的字向量表征方法[J].科学技术与工程,2023,23(16):6967-6973. 被引量：2

二级引证文献13

1孙留倩,魏玉良,王佰玲.基于图卷积网络的多源本体相似度计算方法[J].网络与信息安全学报,2021,7(5):149-155. 被引量：3
2宋雪雁,张祥青,张伟民.DIKW价值链视角下档案文献资源知识元语义抽取与融合模型研究[J].档案学研究,2023(3):17-25. 被引量：3
3夏春阳,宋明顺,黄佳.基于在线评论的游客体验质量分析[J].标准科学,2023(6):80-86. 被引量：2
4李明杰,马福祥,马秀娟,周斌,高淑洁.互联网背景下演员影响力的实证研究——基于超图的方法[J].运筹与管理,2023,32(10):185-190.
5段庆锋,陈红,闫绪娴,刘东霞.基于图神经网络异构数据融合的学科新兴主题探测研究[J].情报杂志,2023,42(12):127-133. 被引量：2
6贺海玉.基于多注意力机制的多粒度读者画像分析[J].微型电脑应用,2023,39(12):143-146. 被引量：1
7陈志奎,杨志朋,陈轩.基于图神经网络聚类的土壤监测点位优化[J].环境保护与循环经济,2024,44(1):72-75.
8符康,闫光辉,罗浩.基于超图理论的中医方剂网络药对挖掘方法[J].计算机工程与应用,2024,60(10):320-331. 被引量：1
9田常伟,董坤,郭锐,林艳秋.基于知识关联分析的科技成果转化效率测度方法研究[J].情报理论与实践,2024,47(5):123-130. 被引量：2
10刘琳,赵佳琪.知识积累视角下知识网络特征对企业双元创新的影响机制研究[J].当代经济,2024,41(6):29-40.

1付丹,潘正军.深度学习模型在多源异构大数据特征学习中的应用研究[J].电脑知识与技术,2019,15(9Z):8-10. 被引量：3
2庄计龙,陈敏刚.数据质量量化评价研究与实现[J].智能计算机与应用,2019,9(4):71-74. 被引量：2
3YE Zhong-lin,ZHAO Hai-xing,ZHANG Ke,ZHU Yu,XIAO Yu-zhi.Tri-party deep network representation learning using inductive matrix completion[J].Journal of Central South University,2019,26(10):2746-2758. 被引量：3
4李川江,代丹丹,贺艳.智能移动终端和二维码技术在实践教学管理平台中的应用研究[J].新疆农机化,2019,0(6):38-40. 被引量：5
5樊玮,韩佳宁,张宇翔.基于网络表示学习的论文影响力预测算法[J].计算机工程,2019,45(12):160-165. 被引量：5
6龙波.信息技术在公路工程项目的应用探索[J].中国建设信息化,2019,0(22):44-47.
7曹家慧.启山林以筚路缘人文而彰美——访音乐美学家刘承华教授[J].交响（西安音乐学院学报）,2019,38(3):69-77. 被引量：3
8江升,旷天亮,李秀喜.基于稀疏过滤特征学习的化工过程故障检测方法[J].化工学报,2019,70(12):4698-4709. 被引量：5
9李婷婷,杨秀军,王乾,任旭华,兰钧,于广军,李嫔,李莉红,文颖,陈旭.基于整张手腕部DR影像深度学习特征的人工智能骨龄评估方法[J].中国数字医学,2019,14(11):29-33. 被引量：8
10张木森.国有建筑施工企业区域化党建工作的挑战与创新 ——以中交四航局第三工程有限公司部分基层单位党建工作为例[J].区域治理,2018,0(5):13-14. 被引量：1

中文信息学报

2019年第10期

浏览历史

内容加载中请稍等...

基于多源信息融合的分布式词表示学习被引量：4

参考文献2

二级参考文献125

共引文献272

同被引文献47

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于多源信息融合的分布式词表示学习 被引量：4

参考文献2

二级参考文献125

共引文献272

同被引文献47

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于多源信息融合的分布式词表示学习被引量：4