适合大规模数据集的增量式模糊聚类算法被引量：17

Incremental fuzzy (c+p)-means clustering for large data

下载PDF

导出

摘要 FCPM算法已被成功地应用到模糊系统建模上,但其在某一类的聚类中心已知的大规模数据上的聚类性能较差。为了避免这个缺点,参照单程模糊c均值(SPFCM)聚类算法、在线模糊c均值(OFCM)聚类算法,提出了适合大规模数据集的增量式模糊聚类算法(Incremental fuzzy(c+p)-means clustering,IFCM(c+p))。通过在每个数据块中使用FCPM算法进行聚类,把每个数据块的聚类中心及其附近的一些样本点加入到下一个数据块参与聚类,同时添加平衡因子以提高算法聚类性能。同SPFCM、OFCM以及rse FCM算法相比,IFCM(c+p)对初始聚类中心不敏感。实验表明在没有花费很多运行时间的情况下,IFCM(c+p)算法的聚类性能比SPFCM算法和rse FCM算法更具优势,因此该算法更适合处理某一类聚类中心已知的大规模数据集。 FCPM has been demonstrated to be successful in fuzzy system modeling, however, it will be ineffective for large data clustering tasks where the cluster centers of one class are known. In order to circumvent this draw- back, referring to single-pass fuzzy c-means （SPFCM） clustering algorithm and online fuzzy c-means （OFCM） clustering algorithm, the incremental fuzzy clustering algorithm for large data called IFCM （c＋p） is proposed in this paper. FCPM algorithm is used to cluster for each data block at first, and then the clustering centers of data block and some of the sample points being near them are joined into the next block to be clustered, meanwhile the bal- ance factor is given to enhance the clustering performance. In contrast to SPFCM, OFCM and rseFCM, IFCM（c＋ p） is not sensitive to the initial cluster centers. The experiments indicate the proposed clustering algorithm IFCM （c ＋p） is competitive to the clustering algorithms SPFCM and rseFCM in the clustering performance without the loss of running time a lot, hence it is especially suitable for large data clustering tasks where the cluster centers of one class are known.

作者李滔王士同

机构地区江南大学数字媒体学院

出处《智能系统学报》 CSCD 北大核心 2016年第2期188-199,共12页 CAAI Transactions on Intelligent Systems

基金国家自然科学基金项目(61272210)

关键词增量式模糊聚类 FCPM IFCM(c+p) 平衡因子大规模数据集 incremental fuzzy clustering FCPM IFCM（c＋p） balance factor large data

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献22

1BEZDEK J C, EHRLICH R, FULL W. FCM: the fuzzy c-means clustering algorithm[J]. Computers & Geosciences, 1984, 10(2): 191-203.
2CAN F, DROCHAK N D II. Incremental clustering for dynamic document databases[C]//Proceedings of the 1990 Symposium on Applied Computing. Fayetteville, AR, USA, 1990: 61-67.
3KAUFMAN L, ROUSSEEUW P J. Finding groups in data: an introduction to cluster analysis[M]. New York: John Wiley & Sons, 2009: 830-832.
4GUHA S, RASTOGI R, SHIM K. Cure: an efficient clustering algorithm for large databases[J]. Information systems, 2001, 26(1): 35-58.
5CAN F. Incremental clustering for dynamic information processing[J]. ACM transactions on information systems, 1993, 11(2): 143-164.
6CAN F, FOX E A, SNAVELY C D, et al. Incremental clustering for very large document databases: Initial MARIAN experience[J]. Information sciences, 1995, 84(1/2): 101-114.
7ZHANG Tian, RAMAKIRSHNAN R, LIVNY M. BIRCH: An efficient data clustering method for very large databases[C]//Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. New York, USA, 1996: 103-114.
8NG R T, HAN Jiawei. CLARANS: A method for clustering objects for spatial data mining[J]. IEEE transactions on knowledge and data engineering, 2002, 14(5): 1003-1016.
9SHANKER B U, PAL N R. FFCM: An effective approach for large data sets[C]//Proceedings of the 3rd International Conference on Fuzzy Logic, Neural Nets and Soft Computing. Iizuka, Japan, 1994: 331-332.
10CHENG Taiwai, GOLDGOF D B, HALL L O. Fast clustering with application to fuzzy rule generation[C]//Proceedings of 1995 IEEE International Fuzzy Systems, 1995. International Joint Conference of the Fourth IEEE International Conference on Fuzzy Systems and The Second International Fuzzy Engineering Symposium. Yokohama, Japan, 1995: 2289-2295.

二级参考文献20

1李存华,孙志挥,陈耿,胡云.核密度估计及其在聚类算法构造中的应用[J].计算机研究与发展,2004,41(10):1712-1719. 被引量：62
2张廷宪,郑志刚.耦合非线性振子系统的同步研究[J].物理学报,2004,53(10):3287-3292. 被引量：15
3Jain A K, Murty M N, Flynn P J. Data clustering: A review [J]. ACM Computing Surveys, 1999, 31(3): 264-323.
4B6hm C, Plant C, Shao J, et al. Clustering by synchronization [C]//Proc of the 16th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2010: 583-592.
5Kim J, Scott C D. Lz kernel classification [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2010, 32 (10) : 1822-1831.
6Freedman D, Kisilev P. Fast data reduction via KDE approximation [C] //Proc of 2009 Data Compression Conference. Los Alamitos, CA: IEEE Computer Society, 2009, 445-445.
7Chao H, Girolami M. Novelty detection employing an L2 optimal non-parametric density estimator [J]. Pattern Recognition Letters, 2004, 25(12), 1389-1397.
8Moreno Y, Pacheco A F. Synchronization of Kuramo to oscillators in scale-free networks[J].Euro Physics Letters, 2004, 68(4): 603-609.
9Girolami M, Chao H. Probability density estimation from optimally condensed data samples [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2003, 25 (10) 1253-1264.
10Tsang I, Kwok J, Cheung P. Core vector machines: Fast SVM training on very large datasets [J]. Journal of Machine Learning Research, 2005, 6(4): 363-392.

共引文献10

1陈新泉,苏锦钿.基于半监督学习的k平均聚类框架[J].广西大学学报（自然科学版）,2014,39(5):1074-1082. 被引量：3
2蔡昌许.一种基于连通性的聚类有效性评价指标[J].计算机应用与软件,2015,32(11):285-288. 被引量：1
3张晓琳,崔宁宁,杨涛,李洁.一种分层自适应快速K-means算法[J].计算机应用研究,2016,33(2):421-423. 被引量：7
4巩树凤,张岩峰.EDDPC:一种高效的分布式密度中心聚类算法[J].计算机研究与发展,2016,53(6):1400-1409. 被引量：16
5许凯,吴小俊,尹贺峰.基于分布式低秩表示的子空间聚类算法[J].计算机研究与发展,2016,53(7):1605-1611. 被引量：5
6乔颖,王士同.快速大样本同步聚类[J].计算机工程与应用,2016,52(23):159-166. 被引量：2
7乔颖,王士同,杭文龙.大规模数据集引力同步聚类[J].控制与决策,2017,32(6):1075-1083. 被引量：3
8刘解放,王士同,王骏,邓赵红.面向大规模数据属性效应控制的核心向量回归机[J].计算机研究与发展,2017,54(9):1979-1991.
9张远鹏,邓赵红,钟富礼,杭文龙,王士同.基于代表点评分策略的快速自适应聚类算法[J].计算机研究与发展,2018,55(1):163-178. 被引量：5
10杨旭,钱晓东.基于改进的Vicsek模型的社会网络同步聚类算法[J].数据分析与知识发现,2020,4(4):119-128. 被引量：1

同被引文献119

1朱嘉钢,王士同.Huber-SVR中参数μ与输入噪声间关系的研究[J].复旦学报（自然科学版）,2004,43(5):793-796. 被引量：6
2杨燕,靳蕃,KAMEL Mohamed.聚类有效性评价综述[J].计算机应用研究,2008,25(6):1630-1632. 被引量：117
3阳爱民,李心广,周咏梅,胡运发.一种基于支持向量机的模糊分类器[J].系统仿真学报,2008,20(13):3414-3419. 被引量：8
4曲福恒,胡雅婷,马驷良.基于模拟退火的无监督核模糊聚类算法[J].吉林大学学报（理学版）,2009,47(2):317-322. 被引量：6
5惠飞,黄士坦.基于灰度特征聚类的图像自动分割方法[J].武汉大学学报（工学版）,2009,42(3):405-408. 被引量：2
6童先群,周忠眉.基于属性值信息熵的KNN改进算法[J].计算机工程与应用,2010,46(3):115-117. 被引量：32
7孟海东,王淑玲,郝永宽.基于簇特征的增量聚类算法设计与实现[J].计算机工程与应用,2010,46(24):132-134. 被引量：9
8王骏,王士同,王晓明.基于特征加权距离的双指数模糊子空间聚类算法[J].控制与决策,2010,25(8):1207-1210. 被引量：6
9蔡前凤,郝志峰,杨晓伟.基于核映射的高阶Takagi-Sugeno模糊模型[J].控制理论与应用,2011,28(5):681-687. 被引量：1
10吴佳,罗可.改进的模糊C均值的增量聚类算法[J].计算机工程与应用,2011,47(23):141-142. 被引量：4

引证文献17

1李滔,王士同.适合大规模数据集且基于LLM的0阶TSK模糊分类器[J].控制与决策,2017,32(1):21-30. 被引量：2
2徐莹莹,邹丽,黄志鑫,潘畅.基于TOPSIS的语言真值直觉模糊多属性决策[J].智能系统学报,2017,12(4):504-510.
3李滔,王士同.增量式0阶TSK模糊分类器及鲁棒改进[J].浙江大学学报（工学版）,2017,51(10):1901-1911.
4尹倩.基于簇特征的球员跑动大规模数据聚类研究[J].常州工学院学报,2017,30(6):35-39.
5刘晋胜,周靖.混合属性对象的类别关系修正的模糊聚类方法[J].计算机应用研究,2018,35(2):367-371.
6张佩瑞,杨燕,邢焕来,喻琇瑛.基于核K-means的增量多视图聚类算法[J].山东大学学报（工学版）,2018,48(3):48-53. 被引量：1
7金保林.基于模糊聚类改进的光纤大数据分类算法研究[J].激光杂志,2018,39(7):152-156. 被引量：2
8迟福建,葛磊蛟,洪博文,李盛伟,高毅,张东.固定式光伏发电组件最佳倾角的聚类分析方法[J].电测与仪表,2018,55(13):89-93. 被引量：5
9谢磊,王士同.图松弛优化聚类的快速近似提升方法[J].计算机科学与探索,2018,12(4):642-652. 被引量：1
10王俊,谭骥,张海洋,赵凯旋.基于半监督模糊聚类算法的奶牛行为判别系统[J].中国畜牧兽医,2018,45(11):3112-3121. 被引量：2

二级引证文献37

1邓子云.基于Scrapy的网站增量式爬取功能的研制与应用[J].湖南工业职业技术学院学报,2022,22(6):25-29.
2<<药品非临床研究质量管理规范>>(试行)[J].中国医药情报,2000,6(1):21-27.
3邵俊健,王士同.具有抗噪性能适用高维数据的增量式聚类算法[J].计算机科学与探索,2019,13(9):1553-1566. 被引量：10
4王帅琪,金玉婷,陈英实.光伏技术在路面结构中的应用分析[J].建材与装饰,2019,0(31):246-247. 被引量：1
5周塔,邓赵红,蒋亦樟,王士同.一种面向中小规模数据集的模糊分类方法[J].软件学报,2019,30(12):3637-3650. 被引量：1
6唐国栋,蒙仲举,高永,郑海峰,贾瑞庭,石涛.沙区光伏设施干扰下近地表输沙通量分析[J].干旱区研究,2020,37(3):739-748. 被引量：4
7顾苏杭,王士同.基于社交网络的双知识表达分类方法[J].控制与决策,2020,35(11):2653-2664.
8李俊,李延平,赵玲令,高梦薇.基于数据挖掘的精准就业数据研究[J].信息技术与信息化,2020(11):37-39. 被引量：2
9钟耀霞,程建斌,项正山.传感网络局部离群数据动态聚类算法仿真[J].计算机仿真,2020,37(11):312-315. 被引量：1
10应烨伟,曾松伟,赵阿勇,颜菲菲.基于颈环采集节点的母羊产前行为识别方法[J].农业工程学报,2020,36(21):210-219. 被引量：6

1李晨龙,杨青.污水处理过程的集合型监测方法研究[J].测控技术,2016,35(5):49-52. 被引量：2
2王亚男,叶蓓,雷英杰.基于GA与IFCM聚类算法的入侵检测[J].计算机工程,2013,39(9):170-173. 被引量：2
3陈娟,徐立鸿.采用模糊C均值聚类和遗传算法进行系统建模[J].微型机与应用,2004,23(9):54-56.
4浦雅雯,刘万军,姜文涛.基于PSO-IFCM的遮挡车牌车辆识别[J].计算机工程,2012,38(14):157-160. 被引量：6
5韩鲁,顾国华,钱惟贤,陈钱,徐富元.基于惯性传感器和Kinect摄像机的OFCM图像匹配算法[J].半导体光电,2014,35(4):713-717.
6范晓诗,雷英杰,路艳丽,王亚男.基于DTW的长期直觉模糊时间序列预测模型[J].通信学报,2016,37(8):95-104. 被引量：5
7张伟斌,刘文江.区间型数据的模糊c均值聚类算法[J].计算机工程,2008,34(11):26-28. 被引量：7
8武星星,朱喜林,李晓梅.模糊推理系统在DSP上的实现和优化[J].微计算机信息,2007,23(03Z):177-179. 被引量：4
9梁山,石为人,毛信东.一类基于神经网络的模糊系统建模与控制[J].重庆大学学报（自然科学版）,1998,21(2):34-39.
10黄凯锋,吴庆涛,郑瑞娟.基于模糊C-均值聚类优化的入侵检测算法[J].计算机工程与设计,2012,33(11):4100-4104. 被引量：1

智能系统学报

2016年第2期

浏览历史

内容加载中请稍等...

适合大规模数据集的增量式模糊聚类算法被引量：17

参考文献22

二级参考文献20

共引文献10

同被引文献119

引证文献17

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

适合大规模数据集的增量式模糊聚类算法 被引量：17

参考文献22

二级参考文献20

共引文献10

同被引文献119

引证文献17

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

适合大规模数据集的增量式模糊聚类算法被引量：17