高维数据的增量式聚类算法的距离度量选择研究被引量：5

Selecting distance metrics for incremental clustering algorithm of high dimensional data

下载PDF

导出

摘要合适的距离度量函数对于聚类结果有重要的影响。针对大规模高维数据集,使用增量式聚类算法进行距离度量的选择分析。SpFCM算法是将大规模数据集分成小样本进行增量分批聚类,可在有限的计算机内存中获得较好的聚类结果。在传统的SpFCM算法的基础上,使用不同的距离度量函数来衡量样本之间的相似性,以得出不同的距离度量对SpFCM算法的影响。在不同的大规模高维数据集中,使用欧氏距离、余弦距离、相关系数距离和扩展的杰卡德距离来计算距离。实验结果表明,后3个距离度量相对于欧氏距离可以很大程度地提高聚类效果,其中相关系数距离可以得到较好的结果,余弦距离和扩展的杰卡德距离效果比较一般。 Appropriate distance metric functions have an important effect on clustering results.For large-scale and high-dimensional datasets,the incremental fuzzy clustering algorithm is used to analyze the selection of distance metrics.Since the SpFCM algorithm divides a large-scale dataset into small samples for incremental batch clustering,it can get better clustering results in limited computer memory.Different distance metric functions are applied into the traditional SpFCM algorithm in order to measure the similarities between different samples to check the effect of different distance metrics on the SpFCM algorithm.Four distance metrics,which are the Euclidean metric,the cosine metric,the correlation distance metric and the extended Jaccard similarity metric,are used to calculate the distance for different large-scale high dimensional datasets.Experimental results show that,the latter three distance metrics can greatly improve the clustering effect.The correlation distance metric gets a better clustering result while the cosine distance metric and the extended Jaccard similarity distance get an average result.

作者邵俊健王士同 SHAO Jun-jian;WANG Shi-tong(School of Digital Media,Jiangnan University,Wuxi 214122,China)

机构地区江南大学数字媒体学院

出处《计算机工程与科学》 CSCD 北大核心 2019年第2期214-223,共10页 Computer Engineering & Science

关键词高维数据 SpFCM算法距离度量增量式模糊聚类算法相关系数距离度量 high dimensional data SpFCM algorithm distance metric incremental fuzzy clustering algorithm correlation coefficient distance metric

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1王骏,王士同,邓赵红.聚类分析研究中的若干问题[J].控制与决策,2012,27(3):321-328. 被引量：194
2郑宏亮,王建英.一种基于Mahalanobis距离的增量聚类算法[J].计算机应用与软件,2011,28(12):38-40. 被引量：4
3卞则康,王士同.基于混合距离学习的鲁棒的模糊C均值聚类算法[J].智能系统学报,2017,12(4):450-458. 被引量：6
4赵亮,刘建辉,张昭昭.基于贝叶斯距离的K-modes聚类算法[J].计算机工程与科学,2017,39(1):188-193. 被引量：5

二级参考文献88

1马光志,倪国元.一种增量式模糊聚类算法[J].微计算机应用,2005,26(1):5-7. 被引量：8
2邓赵红,王士同.鲁棒性的模糊聚类神经网络[J].软件学报,2005,16(8):1415-1422. 被引量：11
3李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
4王丽娟,关守义,王晓龙,王熙照.基于属性权重的Fuzzy C Mean算法[J].计算机学报,2006,29(10):1797-1803. 被引量：45
5刘建晔,李芳.一种基于密度的高性能增量聚类算法[J].计算机工程,2006,32(21):76-78. 被引量：12
6刘青宝,侯东风,邓苏,张维明.基于相对密度的增量式聚类算法[J].国防科技大学学报,2006,28(5):73-79. 被引量：13
7王洪春,彭宏.基于模糊C-均值的增量式聚类算法[J].微电子学与计算机,2007,24(6):156-157. 被引量：22
8Bezdek J C. Pattern Recognition with Fuzzy Objective Function Algo- rithms[ M]. Plenum, N. Y, 1981.
9Edwin Lughofer. Extensions of vector quantization for incremental clus- tering [ J ]. Pattern Recognition,2008,41:995 - 1011.
10Xiang S, Nie F, Zhang C S. Learning a Mahalanobis distance metric for data clustering a classification [ J ]. Pattern Recognition, 2005,41 (12) :3600 -3612.

共引文献205

1蒙克,华冉,汪佩洁.重新发现比较社会政策研究:概念化与方法[J].中国公共政策评论,2020(2):1-27. 被引量：1
2陈卫东,胡盛林.兼顾公平和效率原则的我国电力市场碳配额分配方案[J].煤炭经济研究,2020,40(1):15-21. 被引量：8
3郭林,程保增,张博.定量方法在古墓葬研究中的运用——以邹县野店墓地为例[J].洛阳考古,2022(2):24-29.
4薛宁静.生产状态的熵值评估谱聚类分析[J].计算机工程与应用,2012,48(19):230-233. 被引量：1
5刘忠宝,赵文娟,师智斌.基于分类超平面的非线性集成学习机[J].计算机应用研究,2013,30(5):1361-1364. 被引量：2
6李婷婷,沙爱民,卢正宇,雒应.山区公路施工安全评价中聚类分析的应用研究[J].西南师范大学学报（自然科学版）,2013,38(6):47-53. 被引量：5
7王歌,方俊.产业集群模式下建筑业“两化”融合路径研究——以湖北建筑业为例[J].建筑经济,2013,34(8):9-13. 被引量：4
8崔兆华,高立群,马红宾,李洪军.融合万有引力和局部熵的FCM算法[J].计算机应用研究,2013,30(12):3828-3830. 被引量：2
9汤小华.基于聚类时间序列法的电力负荷预测[J].中国新技术新产品,2014(1):158-159. 被引量：1
10应文豪,许敏,王士同,邓赵红.在大规模数据集上进行快速自适应同步聚类[J].计算机研究与发展,2014,51(4):707-720. 被引量：11

同被引文献54

1蒲天骄,乔骥,韩笑,张国宾,王新迎.人工智能技术在电力设备运维检修中的研究及应用[J].高电压技术,2020,46(2):369-383. 被引量：209
2贺艳芳,石坚.SDH告警显示预处理和告警关联分析[J].科学技术与工程,2006,6(4):487-491. 被引量：5
3吴庆洪,张颖,马宗民.蚁群算法综述[J].微计算机信息,2011,27(3):1-2. 被引量：33
4张银玲,牛小梅.蚁群算法在移动机器人路径规划中的仿真研究[J].计算机仿真,2011,28(6):231-234. 被引量：35
5王韶,周鑫.应用层次聚类法和蚁群算法的配电网无功优化[J].电网技术,2011,35(8):161-167. 被引量：36
6郑华军,张宪,乔欣.蚁群聚类分析算法在茶叶等级分类识别中的应用[J].轻工机械,2011,29(5):90-93. 被引量：4
7李泓泽,郭森,王宝.基于遗传改进蚁群聚类算法的电力客户价值评价[J].电网技术,2012,36(12):256-261. 被引量：31
8熊先青,吴智慧.大规模定制家具的发展现状及应用技术[J].南京林业大学学报（自然科学版）,2013,37(4):156-162. 被引量：76
9蔡强,王君君,李海生,毛典辉.基于神经网络的食品安全评价模型构建研究[J].食品科学技术学报,2014,32(1):69-76. 被引量：15
10张星联,张慧媛,唐晓纯,钱永忠,李笑曼.基于神经网络的蔬菜农药残留风险预警模型研究[J].中国农业大学学报,2015,20(2):259-267. 被引量：8

引证文献5

1陶涛,王洁,刘忠会,陈星艳,冯万福.基于蚁群聚类算法的板式定制家具订单聚类分析[J].林产工业,2020,57(5):49-52. 被引量：8
2甄俊涛,刘臣.高维数据多标签分类的食品安全预警研究[J].计算机技术与发展,2020,30(9):109-114. 被引量：2
3邱劲.加速多标签特征提取的内核依赖最大化[J].苏州科技大学学报（工程技术版）,2021,34(4):71-80.
4张翼英,王鹏凯,柳依阳,武延年,郭晓艳.基于W-ReLU的设备多工况状态异常检测方法[J].天津科技大学学报,2022,37(5):63-70. 被引量：4
5孟朋辉,黄凯雯,徐磊.基于改进ReliefF与ACO特征选择算法的心肌病分类模型[J].软件工程与应用,2022,11(2):267-281.

二级引证文献14

1杨巍巍.南城校用家具产业现状与展望[J].林业和草原机械,2021,2(1):42-44.
2王芳,孙晓红,陶光灿.中国食品安全风险分级研究进展[J].食品科学,2021,42(21):271-277. 被引量：13
3王洁,陶涛,陈星艳,钱筱楠,欧阳周洲,刘忠会,冯万福.蚁群算法在定制家具矩形零件排样中的应用[J].林业工程学报,2022,7(1):192-196. 被引量：6
4任杰,熊先青,赵建忠,费建良,张江.实木定制柜门的标准化设计[J].林业工程学报,2022,7(1):197-204. 被引量：8
5钱筱楠,欧阳周洲,蔡丰,荔伟伟,陈星艳,陶涛.价值流分析在板式定制家具生产改善中的应用[J].林产工业,2022,59(2):53-57. 被引量：18
6秦晓宇,徐伟,詹先旭.定制家具企业订单组批方式对板材利用率的影响[J].林业工程学报,2022,7(2):193-198. 被引量：7
7韩世鹤,李红,江逸楠,李立,李家琦,王亚珅.基于食品抽检数据的风险预警智能研究模型构建分析[J].食品安全质量检测学报,2022,13(10):3172-3179. 被引量：5
8鄂晶晶,杨丽华,冯锋.基于改进稀疏表示的大数据模糊聚类仿真研究[J].计算机仿真,2023,40(1):479-483.
9陈咏龄.低时延通信中的变电站电源设备异常振动状态智能检测[J].通信电源技术,2023,40(19):112-114.
10姚翊姁.3D沉浸式系统图像修复关键技术研究[J].自动化与仪器仪表,2024(1):17-20.

1卢晶,段勇,刘海波.基于z值的分布式密度峰值聚类算法[J].电子学报,2018,46(3):730-738. 被引量：5
2张凯斐,刘继华,张菊芳.大规模高维数据集中局部异常数据挖掘算法[J].微电子学与计算机,2018,35(3):116-119. 被引量：13
3樊路,钱雪忠,姚琳燕.基于K近邻的增量式聚类算法[J].传感器与微系统,2019,38(2):136-139. 被引量：4
4丁屹峰,杨烁,赵乐,焦然,马龙飞,许仪勋,王洪安.基于用户用电行为和粒子群算法的非侵入式负荷识别方法[J].电力科学与技术学报,2018,33(4):66-72. 被引量：9
5陈为公,李艳娟,刘艳,闫红.基于改进TOPSIS法的PPP项目风险初步分担研究[J].会计之友,2019,0(1):15-20. 被引量：6
6朱威威,赵岩松,李艳灵.一种基于集合划分的鲁棒性自适应模糊聚类分割算法[J].信阳师范学院学报（自然科学版）,2019,32(1):146-152. 被引量：11
7何恩节,郑磊.基于线性CCD传感的实训类智能车系统的搭建与调控[J].现代计算机,2019,25(3):55-61.
8钱恒,虞慧群,范贵生.基于增量式随机森林的燃气负荷预测方法[J].华东理工大学学报（自然科学版）,2019,45(1):133-139. 被引量：7
9桑海峰,王传正,吕应宇,何大阔,刘晴.基于多信息流动卷积神经网络的行人再识别[J].电子学报,2019,47(2):351-357. 被引量：8
10程剑,刘海涛,张琦珺.基于移动端平台的目标检测及其优化[J].电子技术与软件工程,2019(2):66-68. 被引量：1

计算机工程与科学

2019年第2期

浏览历史

内容加载中请稍等...

高维数据的增量式聚类算法的距离度量选择研究被引量：5

参考文献4

二级参考文献88

共引文献205

同被引文献54

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

高维数据的增量式聚类算法的距离度量选择研究 被引量：5

参考文献4

二级参考文献88

共引文献205

同被引文献54

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

高维数据的增量式聚类算法的距离度量选择研究被引量：5