摘要
[目的/意义]有效融合引文网络中的引用关系和文本属性等多元数据,增强文献节点间的语义关联,从而为数据挖掘和知识发现等任务提供有力的支撑。[方法/过程]提出了一种引文网络的知识表示方法,先利用神经网络模型学习引文网络中的k阶邻近结构;然后使用doc2vec模型学习标题、摘要等文本属性;最后给出了基于向量共享的交叉学习机制用于多元数据融合。[结果/结论]通过面向干细胞领域的CNKI引文数据集的测试,在链路预测上取得了较好的性能,证明了方法的有效性和科学性。
[Purpose/significance] Effectively integrate multi-dimensional data such as citation relations and text attributes in citation networks,and enhance the semantic association between document nodes,thus providing powerful support for data mining and knowledge discovery. [Method/process] Propose a knowledge representation method for citation network. Firstly,method uses the neural network model to learn the k-order neighbor structure in the citation network. Then use the doc2 vec model to learn text attributes such as titles and abstracts. Finally,a cross-learning mechanism based on vector sharing is presented for multi-data fusion.[Result/conclusion] Through test of CNKI citation data sets for the stem cell field,get a better performance in link prediction,prove the effectiveness and scientificity of the method.
出处
《情报理论与实践》
CSSCI
北大核心
2020年第1期150-154,134,共6页
Information Studies:Theory & Application
基金
中国科学院“十三五”信息化项目“面向干细胞领域知识发现的科研信息化应用”(项目编号:XXH13506)
中国科学院青年创新促进会项目(项目编号:2016159)的研究成果
国家自然科学基金项目“基于科学—技术主题关联分析的创新演化路径识别方法研究”(项目编号:71704170)