基于Spark的并行图聚类算法研究被引量：3

Study of Parallelized Graph Clustering Algorithm Based on Spark

下载PDF

导出

摘要对并行图聚类算法进行了研究。基于Spark提出了一个新的并行图聚类算法;由于Spark中的top操作需要耗费大量的内存,提出了一个新算法来替代top操作,有效减少了所消耗的内存;通过对自底向上的层次聚类算法进行改进提高了聚类的速度;基于图数据的特征提出了一种图数据过滤的方法来减少算法运行的时间以及所占用的空间并对其有效性进行了说明。仿真结果表明,运行效果优于进行比较的其他并行化图聚类算法。 The parallelized graph clustering algorithm is researched.A new parallelized graph clustering algorithm is proposed based on Spark.As the top operation of Spark occupies a lot of memory space,a new algorithm which is used to substitute the top operation is proposed to reduce the memory consumption.By improving bottom up hierarchical clustering algorithm,the speed of the proposed algorithm is improved.A new data filtering method based on the feature of graph data is proposed.By the method,the running time and memory space comsuption is reduced greatly.The reason of the high efficiency of this filtering method is explained.Simulation result indicates that the proposed algorithm is better than other parallelized graph clustering algorithms.

作者刘东江黎建辉 Liu Dongjiang;Li Jianhui(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100190,China)

机构地区中国科学院计算机网络信息中心中国科学院大学

出处《系统仿真学报》 CAS CSCD 北大核心 2020年第6期1038-1050,共13页 Journal of System Simulation

基金国家重点研发计划(2016YFB1000600) 中国科学院战略性先导科技专项(XDA06010307)。

关键词图聚类图数据 SPARK 算法并行化 graph clustering graph data Spark algorithm parallelize

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1辛宇,杨静,谢志强.一种面向语义重叠社区发现的Link-Block算法[J].软件学报,2016,27(2):363-380. 被引量：10
2李春英,汤庸,汤志康,黄泳航,袁成哲,赵剑冬.面向大规模学术社交网络的社区发现模型[J].计算机应用,2015,35(9):2565-2568. 被引量：10
3王莉,程学旗.在线社会网络的动态社区发现及演化[J].计算机学报,2015,38(2):219-237. 被引量：54
4刘世超,朱福喜,甘琳.基于标签传播概率的重叠社区发现算法[J].计算机学报,2016,39(4):717-729. 被引量：59
5汪焱,黄发良,元昌安.基于标签影响力的半同步社区发现算法[J].计算机应用,2016,36(6):1573-1578. 被引量：5

二级参考文献83

1赵卓翔,王轶彤,田家堂,周泽学.社会网络中基于标签传播的社区发现新算法[J].计算机研究与发展,2011,48(S3):8-15. 被引量：37
2杨博,刘大有.Force-Based Incremental Algorithm for Mining Community Structure in Dynamic Network[J].Journal of Computer Science & Technology,2006,21(3):393-400. 被引量：8
3PALLA G, DERENYI I, FARKAS I, et al. Uncovering the overlap- ping community structure of complex networks in nature and society [ ]]. Nature, 2005,435(7043) : 814 - 818.
4AHN Y Y, BAGROW J P, LEHMANN S. Link communities reveal muhiscale complexity in networks [ J]. Nature, 2010, 466(7307): 761 -764.
5LANCICHINETTI A, FORTUNATO S, KERTESZ J. Detecting the overlapping and hierarchical community structure in complex net- works [ J]. New Journal of Physics, 2009, 11 (3) : 033015.
6RAGHAVAN U N, ALBERT R, KUMARA S. Near linear time al- gorithm to detect community structures in large-scale networks [ EB/ OL]. [ 2015- 01- 08 ]. http://wenku, baidu, corn/view/ d6c2 d36ba98271 fe910et9 c9. html.
7JIN H, WANG S, LI C. Community detection in complex networks by density-based clustering [ J]. Physica A: Statistical Mechanics and its Applications, 2013, 392(19) : 4606 -4618.
8XIA Z, BU Z. Community detection based on a semantic network [ J]. Knewledge-Based Systems, 2012, 26:30 - 39.
9BARBIERI N, BONCH F, MANCO G. Cascade-based community de- tection [ C]// Proceedings of the 6th ACM International Conference on Web Search and Data Mining. New York: ACM, 2013:33 -42.
10DEV H, ALl M E, HASHEM T. User interaction based community detection in online social networks [ M]// BHOWMICK S S, DYRESON C, JENSEN C S, et al. Database Systems for Advanced Applications, LNCS 8422. Bedim Springer, 2014:296-310.

共引文献122

1吴清寿,郭磊,余文森.基于网络社区发现的标签传播聚类算法[J].计算机系统应用,2020,29(12):135-143. 被引量：1
2费蓉,李莎莎,胡博,唐瑜,方金正.基于标签传播的拓扑势社区检测算法[J].计算机系统应用,2020(10):148-157. 被引量：2
3Jie Tong,Leilei Shi,Lu Liu,John Panneerselvam,Zixuan Han.A Novel Influence Maximization Algorithm for a Competitive Environment Based on Social Media Data Analytics[J].Big Data Mining and Analytics,2022,5(2):130-139. 被引量：2
4刘长明.理气活血法治消化性溃疡[J].河南中医,2000,20(3):28-29.
5郭昆,彭胜波,陈羽中,郭文忠.基于密度聚类的增量动态社区发现算法[J].模式识别与人工智能,2018,31(11):965-978. 被引量：9
6朱征宇,袁闯.融入H指数的局部拓展类重叠社区发现算法[J].小型微型计算机系统,2019,40(1):20-25. 被引量：2
7仲兆满,胡云,李存华,刘宗田.微博中特定用户的相似用户发现方法[J].计算机学报,2016,39(4):765-779. 被引量：9
8张艳红,王宝会.基于深度神经网络的社会媒体网络分析[J].计算机科学,2016,43(4):252-255. 被引量：5
9柴旭清,董永亮.一种高效的大规模网络k团挖掘算法[J].计算机科学,2016,43(5):265-268.
10黄蓝会.基于社会媒体网络的聚类方法的研究[J].微型电脑应用,2016,32(6):1-2. 被引量：4

同被引文献20

1张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
2任磊,杜一,马帅,张小龙,戴国忠.大数据可视分析综述[J].软件学报,2014,25(9):1909-1936. 被引量：419
3赵静,刘宇.大数据技术在计算机网络入侵检测中的研究[J].网络新媒体技术,2018,7(4):45-49. 被引量：5
4王宇钢,修世超.核模糊聚类和BP神经网络的切削工艺绿色度评价[J].机械设计与制造,2018(11):41-44. 被引量：2
5李文杰,闫世强,蒋莹,张松芝,王成良.自适应确定DBSCAN算法参数的算法研究[J].计算机工程与应用,2019,55(5):1-7. 被引量：108
6张远鹏,周洁,邓赵红,钟富礼,蒋亦樟,杭文龙,王士同.代表点一致性约束的多视角模糊聚类算法[J].软件学报,2019,30(2):282-301. 被引量：16
7胡小强,吴翾,闻立杰,王建民.基于Spark的并行分布式过程挖掘算法[J].计算机集成制造系统,2019,25(4):791-797. 被引量：7
8吴其平,吴成茂.一种快速鲁棒核空间图形模糊聚类分割算法[J].智能系统学报,2019,14(4):804-811. 被引量：6
9董安国,张倩,刘洪超,梁苗苗.基于TSNE和多尺度稀疏自编码的高光谱图像分类[J].计算机工程与应用,2019,55(21):177-182. 被引量：9
10姜健伟,殷俊.基于正交约束的分块不完整多视角聚类[J].模式识别与人工智能,2020,33(1):41-49. 被引量：2

引证文献3

1殷红花.Spark技术在高校网络安全管理中的应用[J].电脑知识与技术,2019,15(7Z):291-293. 被引量：1
2郝笑弘,尹青山.大规模数据集谱聚类并行优化算法[J].机械设计与制造,2021(10):211-214.
3徐旸,王佳斌,彭凯.结合PCA的t-SNE算法的并行化实现方法[J].华侨大学学报（自然科学版）,2022,43(5):685-692. 被引量：1

二级引证文献2

1莫恭钿,韦端.基于数字图书馆公共资源管理平台的实时日志分析系统的设计与应用[J].广西民族大学学报（自然科学版）,2020,26(1):87-91. 被引量：1
2吕弢,陈璟,薛善烨.离散制造中基于多源多模数据的产品指标联合分析[J].空天防御,2024,7(5):110-119.

1张娟.两种清洗流程在降低金属气管内套管返洗率的对比研究[J].临床医药文献电子杂志,2020,7(43):169-170. 被引量：2
2道奇.改善生产流程的7大关键印刷包装企业能做到多少[J].广东印刷,2020(3):41-41.
3林泓宇.加强教师党支部建设,推动革命文化传承——以西部高校某学院为例[J].科教文汇,2020(19):39-41. 被引量：1
4徐文庆,熊建武,刘少华,汪哲能,陈黎明,胡智清.自底向上的电熨斗倒置式布局三板点浇口模具设计[J].工程塑料应用,2020,48(7):85-90. 被引量：9
5郭斯羽,胡萍萍,唐璐,温和,刘敏.基于区域重构的树状骨架快速去毛刺方法[J].电子测量与仪器学报,2020,32(4):58-64. 被引量：3
6王红,郭静,王阳.航空安全事件关联分析方法研究[J].安全与环境学报,2020,20(2):602-609. 被引量：4

系统仿真学报

2020年第6期

浏览历史

内容加载中请稍等...

基于Spark的并行图聚类算法研究被引量：3

参考文献5

二级参考文献83

共引文献122

同被引文献20

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Spark的并行图聚类算法研究 被引量：3

参考文献5

二级参考文献83

共引文献122

同被引文献20

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Spark的并行图聚类算法研究被引量：3