大规模图上的SimRank计算研究综述被引量：2

Research Progress of SimRank Computation on Big Graph:A Survey

下载PDF

导出

摘要 SimRank是一种衡量有向图中任意两节点间结构相似度的模型,其主要思想为,若图中两个节点被相似节点引用,则这两个节点相似.SimRank计算的相似度被广泛应用到网络图聚类、近似查询和协同过滤等领域.SimRank计算模型是一个递归模型,其计算时间、空间复杂度非常高,很难应用于大规模图计算.过去十几年,研究者们针对大规模图提出了许多高效或近似计算的SimRank计算算法.本文首先介绍SimRank模型的描述,以及常见的SimRank计算问题定义,然后按照计算方式将这些算法分为迭代法、非迭代法与随机游走法三类;将非迭代法分为基于矩阵运算求解、基于节点对图求解以及基于线性表示求解,将随机游走法分为基于不同索引结构求解、基于不同抽样方式求解以及其他随机游走算法;介绍了这些算法的基本概念、计算原理以及算法特点;分析了随机游走法与迭代法、非迭代法之间的关系;对各种算法的时间复杂度、空间复杂度、计算精确度以及可扩展性进行了论述;在此基础总结了这些SimRank算法所对应的计算场景,主要包括单点对/单源(Single Pair/Single Source)查询问题、全体/部分节点对(All Pair/Partial Pair)计算问题以及查询问题.最后对不同算法实验中图的规模进行了总结,并对大规模图上的SimRank计算方法进行了总结和展望. SimRank is a model for measuring the similarity of two vertices in a directed graph.The main idea is that,if two vertices in the same graph are referenced by similar vertices,the two vertices are similar.SimRank scores are widely used in graph clustering,approximate query and collaborative filtering.As SimRank model is a recursive model,its computational time and space complexity of SimRank is very high.So it is difficult to apply the model to large-scale graphs.Over the past decades,researchers have proposed many efficient or approximate computational SimRank calculation algorithms for large-scale graphs.In this paper,we first introduce the definition of SimRank,and the definitions of common SimRank calculation problems.Then we introduce these algorithms and divide these algorithms into three categories:iterative algorithms,non-iterative algorithms and random walk algorithms.Furthermore,we divide the non-iterative algorithms into matrix operation based algorithms,on node-pair graph based algorithms and linear representation based algorithms,and divide the random walk algorithms into index based algorithms,sampling methods based algorithms and other random walk algorithms.Meanwhile we introduce basic concepts,calculation principles and algorithm property of these algorithms.The analysis of the relationship between the random walk algorithm and the other two is also conducted.We summarize the time complexity,space complexity and scalability of these algorithms.And we summarize the scenarios where these algorithms are applied,which mainly are Single Pair/Single Source,All Pair/Partial Pair and SimRank Join Query problems.At last,the scale of graphs in experiments of different algorithms is summarized,and the calculation methods of SimRank on large-scale graphs are summarized and forecasted.

作者张良富李翠平陈红 ZHANG Liang-Fu;LI Cui-Ping;CHEN Hong(School of Information,Renmin University of China,Beijing 100872;Key Laboratory of Data Engineering and Knowledge Engineering of Ministry of Education(Renmin University of China),Beijing 100872)

机构地区中国人民大学信息学院数据工程与知识工程教育部重点实验室(中国人民大学)

出处《计算机学报》 EI CSCD 北大核心 2019年第12期2665-2682,共18页 Chinese Journal of Computers

基金国家重点研发计划（2018YFB1004401）国家自然科学基金（61772537,61772536,61702522,61532021）资助~~

关键词结构相似度 SimRank计算随机游走算法分析复杂度分析 structural similarity SimRank calculation random walk algorithm analysis complexity analysis

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献24

1宁亚辉,樊兴华,吴渝.基于领域词语本体的短文本分类[J].计算机科学,2009,36(3):142-145. 被引量：41
2漆玉虎,郭进利.超网络研究[J].上海理工大学学报,2013,35(3):227-239. 被引量：12
3张鑫,李荣,黄玉晓,唐军卫,刘松.OSAHS对冠心病合并高血压患者动态血压及心率变异性的影响[J].中西医结合心脑血管病杂志,2014,12(1):35-37. 被引量：18
4黄微,高俊峰,李瑞,周姗姗.Folksonomy中Tag语义距离测度与可视化研究[J].现代图书情报技术,2014(7):64-70. 被引量：8
5石伟杰,徐雅斌.微博用户兴趣发现研究[J].现代图书情报技术,2015(1):52-58. 被引量：8
6王传清,毕强.超网络视域下的数字资源深度聚合研究[J].情报学报,2015,34(1):4-13. 被引量：12
7张菀桐,胡元会,朱宝琛,褚瑜光,宋庆桥,杜柏,李偲偲.冠心病合并高血压患者血压水平与血栓形成动力学相关性研究[J].现代中西医结合杂志,2016,25(2):129-131. 被引量：23
8朱国进,李承前.网络知识资源表示学习模型[J].智能计算机与应用,2016,6(3):5-10. 被引量：1
9宋有美,李建波,和天玥,徐吉兴.基于节点相似性的容迟网络概率路由算法[J].计算机工程,2016,42(9):63-70. 被引量：5
10田博,凡玲玲.基于交互行为的在线社会网络社区发现方法研究[J].情报杂志,2016,35(11):183-188. 被引量：7

引证文献2

1肖璐,赵之辉,陈果.全局视角下的网络社区多元知识关联挖掘[J].图书情报工作,2020,64(6):100-107. 被引量：4
2陈泽,丁琳琳,宋宝燕,王俊陆.大规模动态图中概率游走约束的节点相似Top-k查询方法[J].计算机工程,2021,47(1):72-78. 被引量：2

二级引证文献6

1卢艳秋,宋昶,王向阳.双元创新平衡战略下的企业知识耦合[J].图书情报工作,2021,65(15):61-70. 被引量：6
2易明,刘明,冯翠翠.融合异质信息网络表示学习的跨领域推荐研究[J].情报学报,2022,41(4):337-349. 被引量：8
3钱文渊,荆一楠,王晓阳,吴振环.面向多表连接查询优化的基数估计方法[J].计算机工程,2022,48(6):167-173.
4卢恒,张向先,闫伟,王婉,程子轩.基于UGC知识类聚的虚拟学术社区分面式导航服务研究[J].情报理论与实践,2022,45(8):169-177. 被引量：5
5卢海军,于宁.基于邻近数据查询算法的街区路网规划仿真[J].计算机仿真,2024,41(3):119-122.
6陈一帆,张志强,丁敬达,谢瑞霞.图书情报领域多源数据特征级融合方法研究综述[J].图书情报工作,2024,68(18):134-146. 被引量：1

1宋彦坡,陶焰明,彭小奇,陈卓,高东波.基于数值模拟结果聚类的两相流气体形态识别[J].工程热物理学报,2019,40(10):2345-2352.
2洪佳明,黄云,刘少鹏,印鉴.具有结果多样性的近似子图查询算法[J].南京大学学报（自然科学版）,2019,55(6):960-972.
3李学会.我国面向自闭症者及家庭的社会政策:议程及展望[J].社会福利,2019,0(10):12-18. 被引量：1
4崔娟娟,张蕾,侯谢炼,陈才扣,张海燕.基于鉴别性低秩表示的2阶段人脸识别算法[J].计算机与现代化,2019,0(12):55-59. 被引量：2
5巩雨,刘娟.有向图字典式积中D(n,p)结构的存在性[J].西华师范大学学报（自然科学版）,2019,40(4):371-375.
6熊红林,冀和,樊重俊,黄爱国,余莹.基于多点信息采集交换的居民家庭经济状况核对系统研究与设计[J].计算机时代,2019,0(11):46-50.
7叶佳欣,戈小洁,杨娜,韩雪梅.某市糖尿病微血管并发症老年患者住院费用分析[J].中国初级卫生保健,2019,33(11):20-23. 被引量：2
8刘双双.基于协同过滤推荐技术在就业推荐系统的应用研究[J].现代计算机,2019,0(32):73-75. 被引量：4
9Huiming Zeng,Tingcun Wei,Bo Gan,Wu Gao.Design of a Low-Noise Front-End Readout CSP-Shaper System for CZT Detectors[J].Journal of Signal and Information Processing,2013,4(2):118-122. 被引量：1
10胡正平,刘怀飚,孙德刚.邻域排斥稀疏判决单样本亲属关系认证算法[J].计算机工程与应用,2019,55(22):133-139.

计算机学报

2019年第12期

浏览历史

内容加载中请稍等...

大规模图上的SimRank计算研究综述被引量：2

同被引文献24

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

大规模图上的SimRank计算研究综述 被引量：2

同被引文献24

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

大规模图上的SimRank计算研究综述被引量：2