一种基于密度的分布式聚类算法被引量：10

An improved density based distributed clustering

下载PDF

导出

摘要对基于密度的分布式聚类算法DBDC(density based distributed clustering)进行改进,提出了一种基于密度的分布式聚类算法DBDC*.该算法在局部筛选代表点时结合贝叶斯信息准则BIC,得到少量精准反映局部站点数据分布的BIC核心点,有效降低了分布式聚类过程中的数据通信量,全局聚类时综合考虑了各站点数据的分布情况.实验结果表明,算法DBDC*的效率优于DBDC,聚类效果好. A large number of data are distributed with the application of networks. Distributed clustering is a challenging research topic due to variety of the real-life constrains including bandwidth, the storage of the site memory, etc. An effective density-based distributed clustering algorithm （DBDC ＊） is proposed to improve efficiency of the distributed clustering algorithm （DBDC）. DBDC ＊ , which is combined with the Bayesian Information Criterion, only selecting less BIC_ core_ points to represent each local site, effectively decrease network overload and improves the quality of global clustering. DBDC ＊ is carried out on two different levels, i.e. the local level and the global level. On the local level, all sites carry out a DBSCAN clustering independently from each other. After having completed the clustering, a BIC core points local model is de/ermined. Next the local model is transferred to a central site, where the local models are merged in order to form a global model on the global level by analyzing the local BIC core points. To each local representatives a global cluster-identifier is assigned. This resulting global clustering is broadcasted to all local sites. Then all local models are updated. Experimental results show that the efficiency of the algorithm DBDC ＊ is superior to that of the algorithm DBDC.

作者郑苗苗吉根林

机构地区南京师范大学数学与计算机科学学院

出处《南京大学学报（自然科学版）》 CAS CSCD 北大核心 2008年第5期536-543,共8页 Journal of Nanjing University（Natural Science）

基金国家自然科学基金(40771163)

关键词聚类分布式聚类基于密度的聚类算法(DBSCAN) 分布式聚类算法(DBDC) clustering, distributed clustering, density-based spatical cIustiny of application with noise（DBSCAN）, density based distributed clusting（DBDC）

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1赵鹏,耿焕同,王清毅,蔡庆生.基于聚类和分类的个性化文章自动推荐系统的研究[J].南京大学学报（自然科学版）,2006,42(5):512-518. 被引量：13
2Januzaj E, Kriegel H P, Pfeifle M. DBDC Density based distributed clustering. Proceed ings of the 9^th International Conference of Extending Database Technology. Heraklion: Springer, 2004, 88-105.
3Ester M, Kriegel H P, Sander J, etal. A den sity based algorithm of discovering clusters in large spatial databases with noise. Proceedings of the 2^nd International Conference ot Knowledge Discovery and Data Mining. Portland.. AAAI, 1996, 226-231.
4Bezdek J C, Nikhil R P. Some new indexes of cluster validity. IEEE Transactions on Systems, Man and Cybernertics-Part B, 1998, 28 (3) : 301-310.
5Kass R, Wasserman L. A reference Bayesian test for nested hypotheses and its relationship to the Schwarz criterion. Journal of the American Statistical Association, 1995, 773-795.
6Dataset [DB/OL]. http://www. ics. uci. edu/-mlearn/databases/student/ . 1999-10-28.
7Dataset [DB/OL]. http://www. ics. uci. edu/-mlearn/databases/iris/ . 1999- 10- 28.
8Dataset [DB/OL]. http://www. ics. uci. edu/-mlearn/databases/glass/ . 1999- 10- 28.
9The third international knowledge discovery and data mining tools competition dataset [DB/OL]. http://kdd. ics. uci. edu/databases/kddcup99/kddcup99. html. 1999 - 10- 28.
10Modha D S, Spangler W S. Feature weighting in k-means clustering. Machine Learning, 2003, 52(3): 217-237.

二级参考文献10

1邓爱林,左子叶,朱扬勇.基于项目聚类的协同过滤推荐算法[J].小型微型计算机系统,2004,25(9):1665-1670. 被引量：146
2宋丽哲,牛振东,宋瀚涛,余正涛,师雪霖.数字图书馆个性化服务用户模型研究[J].北京理工大学学报,2005,25(1):58-62. 被引量：45
3Bollacker K D, Lawrence S, Giles C L. Discovery relevance scientific literature on the web.IEEE Intelligence Systems, 2000,15(2) :42-77.
4Mobasher B, Cooley R, Srivastava J. Automatic personalization based on web usage mining.Communications of the ACM,2000,43(8) : 142-151.
5Albert R, Barabosi A L. Statistical mechanics of complex networks. Review of Modern Physics,2002,74(1):47-97.
6Mooney R J, Roy L. Content-based book recommending using learning for text categorization.Proceedings of the 5th ACM Conference on Digital Libraries, 2000:195-204.
7Rickard C, Martin S. Inverted file search algorithms for collaborative filtering. Proceedings ofthe 25th Annual International ACM SIGIR Conference, 2002: 246-252.
8Lee D L, Chuang H, Seamons K E. Document ranking and the vector-space model. IEEE Software, 1997,14(2) : 67-75.
9李振东,费翔林.基于概念的信息检索模型研究[J].南京大学学报（自然科学版）,2002,38(1):99-109. 被引量：33
10曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学报,2002,13(10):1952-1961. 被引量：394

共引文献12

1杨梦月,何洪波,王闰强.基于反事实学习及混淆因子建模的文章个性化推荐[J].计算机系统应用,2020(10):53-60. 被引量：1
2张耕畅,黄晓禹,卢世尧,王晓萍,侯超钧.基于云计算的大学生兴趣社交平台[J].仲恺农业工程学院学报,2013,26(4):38-42. 被引量：1
3李艳,范明.基于基本显露模式的电子邮件分类与过滤技术[J].南京大学学报（自然科学版）,2008,44(5):544-550. 被引量：3
4于洪,李转运.基于遗忘曲线的协同过滤推荐算法[J].南京大学学报（自然科学版）,2010,46(5):520-527. 被引量：73
5王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7):66-76. 被引量：332
6郝水龙,吴共庆,胡学钢.基于层次向量空间模型的用户兴趣表示及更新[J].南京大学学报（自然科学版）,2012,48(2):190-197. 被引量：26
7毕方明,王为奎,陈龙.基于空间密度的群以噪声发现聚类算法研究[J].南京大学学报（自然科学版）,2012,48(4):491-498. 被引量：15
8蒋翠清,郝扬.融合地理影响的个性化位置推荐[J].信息技术与信息化,2015(2):69-71.
9邢玲,宋章浩,马强.基于混合行为兴趣度的用户兴趣模型[J].计算机应用研究,2016,33(3):661-664. 被引量：19
10胡晴云.情报信息利用中个性化推荐理论研究[J].甘肃科技纵横,2018,47(9):1-5. 被引量：1

同被引文献143

1陈庆章,韩江洪,张维一,谈国泉,郎美亚.采用适应性遗传算法进行数据聚类的研究[J].南京大学学报（自然科学版）,2005,41(z1):749-754. 被引量：1
2薛方正,方帅,徐心和.多机器人对抗系统仿真中的对手建模[J].系统仿真学报,2005,17(9):2138-2141. 被引量：7
3董志峰,汪增福.基于动态MFCC的说话人识别算法[J].模式识别与人工智能,2005,18(5):596-601. 被引量：7
4杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：188
5王红睿,赵黎明,裴剑.均衡化的改进K均值聚类法[J].吉林大学学报（信息科学版）,2006,24(2):172-176. 被引量：13
6刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
7于林森,张田文.用于图像分割的滤波EM算法[J].计算机学报,2006,29(6):928-935. 被引量：7
8刘扬,黄庆明,高文,叶齐祥.自适应高斯混合模型球场检测算法及其在体育视频分析中的应用[J].计算机研究与发展,2006,43(7):1207-1215. 被引量：18
9黄添强,秦小麟,王金栋.多代表点特征树与空间聚类算法[J].计算机科学,2006,33(12):189-195. 被引量：5
10吕强,高彦明,钱培德.共享信息素矩阵:一种新的并行ACO方法[J].自动化学报,2007,33(4):418-421. 被引量：11

引证文献10

1胡俊,黄厚宽,高芳.一种基于平行坐标度量模型的聚类算法及其应用[J].南京大学学报（自然科学版）,2009,45(5):645-655. 被引量：6
2卿湘运,王行愚.鲁棒贝叶斯混合分布的模型选择[J].南京大学学报（自然科学版）,2009,45(5):689-698. 被引量：1
3储岳中.一类基于贝叶斯信息准则的k均值聚类算法[J].安徽工业大学学报（自然科学版）,2010,27(4):409-412. 被引量：15
4孙正,宋文军,王崇骏,谢俊元.用于社团分析的差异性度量方法[J].南京大学学报（自然科学版）,2010,46(5):528-534. 被引量：2
5赵华军,钟才明,李文,王睿智,苗夺谦.网页搜索结果聚类与可视化[J].南京大学学报（自然科学版）,2010,46(5):542-551. 被引量：5
6储岳中,徐波.动态最近邻聚类算法的优化研究[J].计算机工程与设计,2011,32(5):1687-1690. 被引量：5
7解晓敏,李云.最小最大模块化网络中基于聚类的数据划分方法研究[J].南京大学学报（自然科学版）,2012,48(2):133-139. 被引量：4
8李晓翠,孟凡荣,周勇.一种基于代表点的快速聚类算法[J].南京大学学报（自然科学版）,2012,48(4):504-512. 被引量：4
9石林宾,余正涛,严馨,宋海霞,洪旭东.基于半监督图聚类的项目主题模型构建方法[J].计算机科学,2015,42(5):119-123. 被引量：1
10谢梦燕,黄旭,赵青,王俊辉.一种不规则形状聚类算法[J].西安文理学院学报（自然科学版）,2015,18(3):5-8.

二级引证文献43

1方兴,晋欣桥,范波,杜志敏,曾晓庆.基于层次聚类的航站楼空调机组运行性能评价[J].化工学报,2012,63(S2):89-94. 被引量：1
2孙正,宋文军,王崇骏,谢俊元.用于社团分析的差异性度量方法[J].南京大学学报（自然科学版）,2010,46(5):528-534. 被引量：2
3储岳中,徐波.动态最近邻聚类算法的优化研究[J].计算机工程与设计,2011,32(5):1687-1690. 被引量：5
4陈永彬,张琢.智能单粒子优化算法在聚类分析中的应用[J].南京大学学报（自然科学版）,2011,47(5):578-584. 被引量：3
5汪慧玲,范宪伟,杨华磊.多体系统差异度测量与系统引力[J].沈阳师范大学学报（自然科学版）,2011,29(4):495-498.
6蒋才智,王浩,姚宏亮.基于知网的贝叶斯中文人名识别[J].南京大学学报（自然科学版）,2012,48(2):147-153. 被引量：4
7刘娜,肖智博,鲁明羽.基于形态学的单词-文档谱聚类方法[J].南京大学学报（自然科学版）,2012,48(2):154-163.
8苏亚然,陈军霞,牛习现.随机种子最近邻居搜索聚类算法研究[J].河北科技大学学报,2012,33(4):338-342. 被引量：1
9胡博磊,谭建豪.基于累积平均密度的聚类方法[J].计算机工程与科学,2013,35(1):155-159. 被引量：1
10曾明如,刘公法,宗胡亮,刘亮.无线信道统计模型识别[J].南昌大学学报（理科版）,2012,36(6):577-580. 被引量：1

1钱鑫,张龙波,田爱奎,邓齐志,汪金苗.一种面向数据密集型计算环境的聚类算法[J].济南大学学报（自然科学版）,2013,27(1):11-15. 被引量：3
2王先平,张永芬.基于SOA架构的分布式聚类算法的Web服务模型研究[J].数字技术与应用,2014,32(4):136-137. 被引量：4
3冯少荣,张东站.基于中心点及密度的分布式聚类算法[J].计算机工程,2010,36(19):56-58.
4李锁花,孙志挥,周晓云.基于特征向量的分布式聚类算法[J].计算机应用,2006,26(2):379-382. 被引量：6
5吉根林,姚瑶.一种分布式隐私保护的密度聚类算法[J].智能系统学报,2009,4(2):137-141. 被引量：2
6吉根林,凌霄汉,杨明.一种基于集成学习的分布式聚类算法[J].东南大学学报（自然科学版）,2007,37(4):585-588. 被引量：1
7樊广佺,马丽平.一种改进的基于Delaunay三角网的聚类算法[J].计算机工程与科学,2016,38(3):585-589. 被引量：3
8储岳中.一类基于贝叶斯信息准则的k均值聚类算法[J].安徽工业大学学报（自然科学版）,2010,27(4):409-412. 被引量：15
9倪巍伟,陈耿,吴英杰,孙志挥.一种基于局部密度的分布式聚类挖掘算法[J].软件学报,2008,19(9):2339-2348. 被引量：19
10侯君,李千目,张宏.分布式拒绝服务的研究综述[J].南京晓庄学院学报,2006,22(6):76-81.

南京大学学报（自然科学版）

2008年第5期

浏览历史

内容加载中请稍等...

一种基于密度的分布式聚类算法被引量：10

参考文献10

二级参考文献10

共引文献12

同被引文献143

引证文献10

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

一种基于密度的分布式聚类算法 被引量：10

参考文献10

二级参考文献10

共引文献12

同被引文献143

引证文献10

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

一种基于密度的分布式聚类算法被引量：10