一种基于K-means改进的社区发现算法被引量：2

An Improved Community Detection Algorithm Based on K-means Algorithm

导出

摘要传统的社区发现算法往往时间复杂度较高,K-means算法作为聚类算法且时间复杂度较低可为社区发现提供新思路,但K-means算法的原始应用场景为数值环境与社交网络不符,且自身存在初始中心节点选取敏感等原有问题,针对上述问题本文在下面三个方面进行了优化:第一,结合最短路径及共同邻居信息重新定义距离度量;第二,结合了节点的度和节点距离因素进行初始中心节点选取;第三,在K-means算法结果的基础上进行基于贪心策略以模块度为目标的层次聚类优化。通过实验表明:改进的K-means算法能够很好地应用于社区发现,得到的社区发现结果有较高质量。 The time complexity of traditional community detection algorithm is high. The K-means algorithm is a clustering algorithm and has a low time complexity, so it can provide new ideas for community detection. But the K-means algorithm is applied to the numerical environment, which is not in conformity with the social network. And there are some problems in the K-means algorithm, such as the selection of sensitivityto the initial center node. In view of the above problems, this paper optimizes the following three aspects： First, redefine the distance with the shortest path and the common neighbor information. Second, the initial center node is selected by the node degree and the node distance. Third, doing hierarchical clustering for the results of the K-means algorithm. The experiment shows that the improved K-means algorithm can be used in community detection well, and the results of community detection are of high quality.

作者欧璇于建军 Ou Xuan;Yu Jianjun(Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China;University of Chinese Academy of Sciences, Beijing 100049, China)

机构地区中国科学院计算机网络信息中心中国科学院大学

出处《科研信息化技术与应用》 2017年第5期11-18,共8页 E-science Technology & Application

基金中国科学院十三五信息化项目"智慧中科院建设推进工程"(XXH13504)

关键词社区发现 K-MEANS算法模块度 community detection K-means algorithm modularity

分类号 F830.4 [经济管理—金融学]

引文网络
相关文献

参考文献2

1封海岳,薛安荣.基于重叠模块度的社区离群点检测[J].计算机应用与软件,2013,30(5):7-10. 被引量：3
2朱牧,孟凡荣,周勇.基于链接密度聚类的重叠社区发现算法[J].计算机研究与发展,2013,50(12):2520-2530. 被引量：34

二级参考文献13

1Newman M E J,Girvan M.Community structure in social and biological networks[J].Proceedings of the National Academy of Sciences USA,2002,99(12):7821-7826.
2Jing Gao,Feng Liang,Wei Fan,et al.On community outliers and their efficient detection in information networks[C]//Proceeding of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2010:813-822.
3Newman M E J,Girvan M.Finding and evaluating community structure in networks[J].Physical Review E,2004,69(2):026113.
4Shen Huawei,Cheng Xueqi,Cai Kai,et al.Detect overlapping and hier-archical community structure in networks[J].Physica A,2009,338(8):1706-1712.
5Palla G,Farkas I,et al.Uncovering the overlapping community struc-ture of complex networks in nature and society[J].Nature,2005,435(7043):814-818.
6Jussi M Kumpula,Mikko Kivela,Kimmo Kaski,et al.Sequential algo-rithm for fast clique percolation[J].Physical Review E,2008,78(2):026109.
7Ill'es J Farkas,Dánielbel,Gergely Palla,et al.Weighted network modules[J].New Journal of Physics,2007,9(6):180.
8Gergely Palla,Ill'es J Farkas,P'eter Pollner,et al.Directed network modules[J].New Journal of Physics,2007,9(6):186.
9Zhang Shihua,Wang Ruisheng,Zhang Xiangsun.Identification of over-lapping community structure in complex networks using fuzzy c-means clustering[J].Physica A:Statistical Mechanics and its Applications,2007,374(1):483-490.
10沈华伟,程学旗,陈海强,刘悦.基于信息瓶颈的社区发现[J].计算机学报,2008,31(4):677-686. 被引量：27

共引文献35

1阳广元,曹霞,甯佐斌,潘煦.国内社区发现研究进展[J].情报资料工作,2014,35(2):29-33. 被引量：4
2李刘强,桂小林,安健,孙雨.采用模糊层次聚类的社会网络重叠社区检测算法[J].西安交通大学学报,2015,49(2):6-13. 被引量：9
3孙贵宾,周勇.基于结构相似度仿射传播的社团检测算法[J].计算机应用,2015,35(3):633-637. 被引量：1
4陈羽中,施松,陈国龙,於志勇.基于节点层级与标签传播增益的重叠社区发现[J].模式识别与人工智能,2015,28(4):289-298. 被引量：1
5郭红,黄佳鑫,郭昆.基于增广边簇序列的重叠层次社区发现[J].模式识别与人工智能,2015,28(9):828-838.
6谢梦燕,黄旭,赵青,王俊辉.一种不规则形状聚类算法[J].西安文理学院学报（自然科学版）,2015,18(3):5-8.
7黄佳鑫,郭红,郭昆.基于影响簇选择模型和MCMC采样的社交圈子识别算法[J].福州大学学报（自然科学版）,2015,43(5):604-611. 被引量：1
8李春英,汤庸,林海,袁成哲,麦辉强.基于标签传播的可并行复杂网络重叠社区发现算法[J].中国科学：信息科学,2016,46(2):212-227. 被引量：11
9姚新亮,钟诚.识别高质量重叠社区的高效算法[J].小型微型计算机系统,2016,37(3):412-416. 被引量：1
10刘井莲,王大玲,赵卫绩,冯时,张一飞.一种基于核心节点扩展的社区挖掘算法[J].山东大学学报（理学版）,2016,51(1):106-114. 被引量：6

同被引文献9

1聂恩伦,陈黎,王亚强,秦湘清,金宇,于中华.基于K近邻的新话题热度预测算法[J].计算机科学,2012,39(B06):257-260. 被引量：30
2阳爱民,林江豪,周咏梅.中文文本情感词典构建方法[J].计算机科学与探索,2013,7(11):1033-1039. 被引量：37
3李寿山,李逸薇,黄居仁,苏艳.基于双语信息和标签传播算法的中文情感词典构建方法[J].中文信息学报,2013,27(6):75-81. 被引量：35
4王志涛,於志文,郭斌,路新江.基于词典和规则集的中文微博情感分析[J].计算机工程与应用,2015,51(8):218-225. 被引量：68
5栗雨晴,礼欣,韩煦,宋丹丹,廖乐健.基于双语词典的微博多类情感分析方法[J].电子学报,2016,44(9):2068-2073. 被引量：32
6梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(8):1724-1735. 被引量：137
7郭友雄,黄添强,林玲鹏,黄维.Hadoop平台下基于快速搜索与密度峰值查找的聚类算法[J].福建师大福清分校学报,2018,36(2):37-44. 被引量：2
8洪巍,李敏.文本情感分析方法研究综述[J].计算机工程与科学,2019,41(4):750-757. 被引量：86
9李勇,金庆雨,张青川.融合位置注意力机制和改进BLSTM的食品评论情感分析[J].郑州大学学报（工学版）,2020,41(1):58-62. 被引量：10

引证文献2

1陈力,黄树成.基于Fast Unfolding算法的情感词典扩展方法研究[J].计算机与数字工程,2023,51(2):405-410.
2李鹏浩,朱立敬,石秀君.基于K-means算法微博热点话题预测分析[J].数字通信世界,2019(3):84-84. 被引量：3

二级引证文献3

1徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
2韩琮师,李旭健.改进的K-means算法研究[J].软件,2020,41(3):21-23. 被引量：6
3梁达平.一种基于聚类的热门就业信息识别及预测算法[J].信息技术与信息化,2023(6):9-12.

1刘建生,吴斌,章泽煜.基于相关性加权的K-means算法[J].江西理工大学学报,2018,39(1):87-92. 被引量：6
2陈闽韬,匡芳君.数据挖掘技术在医疗大数据中的应用研究[J].电脑与电信,2017(11):34-36. 被引量：5
3呼文军,马忠军,马梅.领导—跟随多智能体系统在分布式自适应控制下的滞后一致性[J].广西师范大学学报（自然科学版）,2018,36(1):70-75. 被引量：6
4蒋丽,薛善良.基于改进k-means算法的文本聚类[J].计算机与现代化,2018(4):17-21. 被引量：6
5贾瑞玉,李玉功.类簇数目和初始中心点自确定的K-means算法[J].计算机工程与应用,2018,54(7):152-158. 被引量：50
6赵霞,魏霖静,肖君.非负矩阵MapReduce梯度下降半监督社区发现算法[J].计算机应用与软件,2018,35(4):137-142.
7容芷君,杨志伟,陈奎生,但斌斌.基于遗传算法的产品模块化[J].机床与液压,2018,46(7):18-22. 被引量：5
8张素琪,高星,霍士杰,郭京津,顾军华.基于速度优化和社区偏向的标签传播算法[J].数据分析与知识发现,2018,2(3):60-69. 被引量：4
9唐献全.剥叶滚筒之间水平距离的调整对甘蔗剥叶的影响[J].机械研究与应用,2018,31(3):36-38.
10孙建芳,李万秋,张国辉,李傲松.扫描阅卷系统中模板定制和图像聚类方法的研究[J].计算技术与自动化,2017,36(3):105-108. 被引量：3

科研信息化技术与应用

2017年第5期

浏览历史

内容加载中请稍等...

一种基于K-means改进的社区发现算法被引量：2

参考文献2

二级参考文献13

共引文献35

同被引文献9

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种基于K-means改进的社区发现算法 被引量：2

参考文献2

二级参考文献13

共引文献35

同被引文献9

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种基于K-means改进的社区发现算法被引量：2