基于密度的K-means算法在轨迹数据聚类中的优化被引量：8

Optimization of density-based K-means algorithm in trajectory data clustering

下载PDF

导出

摘要针对传统的K-means算法无法预先明确聚类数目,对初始聚类中心选取敏感且易受离群孤点影响导致聚类结果稳定性和准确性欠佳的问题,提出一种改进的基于密度的K-means算法。该算法首先基于轨迹数据分布密度和增加轨迹数据关键点密度权值的方式选取高密度的轨迹数据点作为初始聚类中心进行K-means聚类,然后结合聚类有效函数类内类外划分指标对聚类结果进行评价,最后根据评价确定最佳聚类数目和最优聚类划分。理论研究与实验结果表明,该算法能够更好地提取轨迹关键点,保留关键路径信息,且与传统的K-means算法相比,聚类准确性提高了28个百分点,与具有噪声的基于密度的聚类算法相比,聚类准确性提高了17个百分点。所提算法在轨迹数据聚类中具有更好的稳定性和准确性。 Since the traditional K-means algorithm can hardly predefine the number of clusters, and performs sensitively to the initial clustering centers and outliers, which may result in unstable and inaccurate results, an improved density-based K- means algorithm was proposed. Firstly, high-density trajectory data points were selected as the initial clustering centers to perform K-means clustering by considering the density of the trajectory data distribution and increasing the weight of the density of important points. Secondly, the clustering results were evaluated by the Between-Within Proportion （BWP） index of cluster validity function. Finally, the optimal number of clusters and clustering were determined according to the clustering results evaluation. Theoretical researches and experimental results show that the improved algorithm can be better at extracting the trajectory key points and keeping the key path information. The accuracy of clustering resuhs was 28 percentage points higher than that of the traditional K-means algorithm and 17 percentage points higher than that of the Density-Based Spatial Clustering of Applications with Noise （DBSCAN） algorithm. The proposed algorithm has a better stability and a higher accuracy in trajectory data clustering.

作者郝美薇戴华林郝琨

机构地区天津城建大学计算机与信息工程学院

出处《计算机应用》 CSCD 北大核心 2017年第10期2946-2951,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61571318)~~

关键词 K-MEANS算法基于密度车辆活动特征密度权值初始聚类中心类内类外划分指标 K-means algorithm density-based characteristics of vehicle activity weight of density initial clusteringcenter Between-Within Proportion （BWP） index

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1王祖超,袁晓如.轨迹数据可视分析研究[J].计算机辅助设计与图形学学报,2015,27(1):9-25. 被引量：41
2周世兵,徐振源,唐旭清.K-means算法最佳聚类数确定方法[J].计算机应用,2010,30(8):1995-1998. 被引量：145
3张淑清,黄震坤,冯铭.一种优化的改进k_means算法[J].微电子学与计算机,2015,32(12):36-39. 被引量：2
4何云斌,刘雪娇,王知强,万静,李松.基于全局中心的高密度不唯一的K-means算法研究[J].计算机工程与应用,2016,52(1):48-54. 被引量：10
5张素洁,赵怀慈.最优聚类个数和初始聚类中心点选取算法研究[J].计算机应用研究,2017,34(6):1617-1620. 被引量：82

二级参考文献144

1陈小全,张继红.基于改进粒子群算法的聚类算法[J].计算机研究与发展,2012,49(S1):287-291. 被引量：31
2袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：154
3毛韶阳,李肯立.优化K-means初始聚类中心研究[J].计算机工程与应用,2007,43(22):179-181. 被引量：26
4CALINSKI R,HARABASZ J.A dendrite method for cluster analysis[J].Communications in Statistics,1974,3(1):1 -27.
5DAVIES D L,BOULDIN D W.A cluster separation measure[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1979,1(2):224-227.
6DUDOIT S,FRIDLYAND J.A prediction-based resampling method for estimating the number of clusters in a dataset[J].Genome Biology,2002,3(7):1-21.
7DIMITRIADOU E,DOLNICAR S,WEINGESSEL A.An examination of indexes for determining the number of cluster in binary data sets[J].Psychometrika,2002,67(1):137-160.
8KAPP A V,TIBSHIRANI R.Are clusters found in one dataset present in another dataset?[J].Biostatistics,2007,8(1):9-31.
9ROUSSEEUW P J.Silhouettes:a graphical aid to the interpretation and validation of cluster analysis[J].Journal of Computational and Applied Mathematics,1987,20(1):53 -65.
10DEMB(E)L(E) D,KASTNER P.Fuzzy C-means method for clustering microarray data[J].Bioinformatics,2003,19(8):973-980.

共引文献274

1周斌,苏鹏,高鹏.基于改进YOLOv3算法的挖掘机检测方法[J].数字制造科学,2022(2):141-145. 被引量：2
2乔莉鸽,王虹,韩杨丽,武子鸣.轨迹墙可视化方法的可用性评价[J].测绘科学,2020,45(2):128-137.
3黄仁,冯阿瑞.基于Ncut的自适应图像分割方法[J].土木建筑与环境工程,2013,35(S2):107-110. 被引量：2
4何云,李辉,姚能坚,赵榕生.改进K-means算法实现移动通信行为特征分析[J].计算机技术与发展,2011,21(6):63-65. 被引量：1
5边鹏,赵妍,苏玉召.一种改进的K-means算法最佳聚类数确定方法[J].现代图书情报技术,2011(9):34-40. 被引量：12
6张琳,陈燕,汲业,张金松.一种基于密度的K-means算法研究[J].计算机应用研究,2011,28(11):4071-4073. 被引量：44
7宫峰勋,戴丽华.基于K-means聚类的多传感器航迹起始算法[J].中国电子商情（通信市场）,2011(6):340-346.
8李坦,杨洪耕,高云.智能电表家用负荷识别技术综述[J].供用电,2011,28(6):39-42. 被引量：9
9谢娟英,马箐,谢维信.一种确定最佳聚类数的新算法[J].陕西师范大学学报（自然科学版）,2012,40(1):13-18. 被引量：11
10陈英,何中市,黄敏.一种优化的K-means聚类中心算法研究[J].制造业自动化,2012,34(8):19-22. 被引量：5

同被引文献60

1张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：61
2熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11):4188-4190. 被引量：86
3谢娟英,郭文娟,谢维信.基于邻域的K中心点聚类算法[J].陕西师范大学学报（自然科学版）,2012,40(4):16-22. 被引量：32
4王涛波,黄宝军.改进模糊聚类算法在航迹分析中的应用[J].中国安全科学学报,2014,24(2):23-27. 被引量：10
5陈子静,朱小良.一种基于广义回归神经网络的超声波流量传感器系数求解方法[J].传感技术学报,2015,28(1):56-61. 被引量：11
6沈笑云,唐鹏,张思远,焦卫东.ADS-B统计数据的位置导航不确定类别质量分析[J].航空学报,2015,36(9):3128-3136. 被引量：27
7卞彩峰,邱建林,陈燕云,陆鹏程,陈璐璐.基于粒计算的k值选取及其应用[J].计算机工程与设计,2015,36(11):3082-3086. 被引量：4
8何云斌,刘雪娇,王知强,万静,李松.基于全局中心的高密度不唯一的K-means算法研究[J].计算机工程与应用,2016,52(1):48-54. 被引量：10
9郝运河,张浩峰,於敏杰,易磊.基于K-means特征的复杂环境下道路识别算法[J].计算机应用研究,2016,33(2):602-606. 被引量：7
10卢晓勇,陈木生.基于随机森林和欠采样集成的垃圾网页检测[J].计算机应用,2016,36(3):731-734. 被引量：17

引证文献8

1陈培毅.基于密度的K-Means算法在环保监控管理系统中的应用研究[J].环境科学与管理,2018,43(8):5-8. 被引量：1
2段桂芹,邹臣嵩,刘锋.基于优化初始聚类中心的K中心点算法[J].计算机与现代化,2019(4):1-5. 被引量：5
3李楠,靳辉辉,樊瑞.终端区航空器爬升下降率异常识别研究[J].计算机仿真,2020,37(5):25-29. 被引量：2
4塔娜.基于云计算技术的大规模数据聚类分析[J].现代电子技术,2020,43(15):123-126. 被引量：5
5李新春,黄朝晖.基于聚类的PCA和GRNN的CSI指纹定位算法[J].重庆邮电大学学报（自然科学版）,2021,33(3):449-457. 被引量：3
6张瑛玺,王法玉.改进DBSCAN算法在校园轨迹数据相似性的应用[J].计算机系统应用,2022,31(5):364-370. 被引量：3
7贺玉海,周庆琨,程埮晟,王勤鹏.基于改进K-Medoids的组合聚类算法及异常值检测研究[J].大连理工大学学报,2022,62(4):403-410. 被引量：10
8李楠,靳辉辉,强懿耕.基于多维特征终端区航空器轨迹聚类研究[J].航空计算技术,2019,49(2):15-18. 被引量：3

二级引证文献32

1张洪峰,张伟,孙墨林,张亚杰.基于分表计电原理的新型环保监测平台设计[J].数字技术与应用,2024,42(3):228-234.
2陈万志,赵帅,方圆,王天元.改进PrefixSpan的行为轨迹数据挖掘算法[J].辽宁工程技术大学学报（自然科学版）,2023(4):506-512.
3刘锋,邹臣嵩,崔炜.大数据环境下基于K中心点优化算法的Web服务组合[J].计算机与现代化,2020(12):20-24. 被引量：1
4苏宇,周川,王强钢.基于物联网的台区线损指标闭环管控[J].华电技术,2021,43(1):19-23. 被引量：5
5赵学武,吴宁,王军,阮利,李玲玲,徐涛.航空大数据研究综述[J].计算机科学与探索,2021,15(6):999-1025. 被引量：14
6陆妍玲,韦晶闪,赵雨萌,周俊芬,李景文,姜建武.提取热点区域的时空轨迹数据聚类分析[J].数学的实践与认识,2021,51(13):129-138. 被引量：4
7褚晓,曾维理,徐正凤.航空器轨迹聚类研究综述[J].航空计算技术,2021,51(5):126-129. 被引量：3
8李楠,孙伯鑫,樊瑞,强懿耕.基于多维特征的终端区异常轨迹实时检测[J].安全与环境学报,2022,22(1):242-249. 被引量：6
9汤文泽,陈炜鑫,杨景亮.基于多元统计分析的企业车辆运行费用研究[J].信息与电脑,2022,34(4):28-31.
10段桂芹,邹臣嵩.基于近邻传播聚类的职业能力评价模型[J].计算机与现代化,2022(5):21-27.

1吴复.数学竞赛中二次函数类题的解法[J].数学大世界（初中版）,2013(1):67-68.
2张慧,翟宇梅.优化K-means算法在中国近海气候区划中的应用[J].气象科技,2017,45(4):750-755.
3离群的大雁[J].小学生作文辅导（语文园地）,2017,0(10):31-31.
4赵其杰,柯震南,陶靖,卢建霞.基于密度-距离的t混合模型流式数据聚类[J].仪器仪表学报,2017,38(9):2130-2137. 被引量：7
5左倪娜.改进模拟退火算法的K-means聚类方法在学生成绩上的应用[J].广西教育,2017,0(31):149-152. 被引量：2
6王柏人,曲鸣.基于K-means聚类分析的硬件木马检测方法[J].北京电子科技学院学报,2016,24(2):84-87. 被引量：1
7骆伟,陈希邦.基于微博数据分析的算法研究[J].科技与创新,2017(18):26-27.
8罗林波,罗岚波,伍娟.基于粒子群的K-均值算法在电网企业对标中应用[J].电子世界,2017,0(19):28-29.
9姜洪权,王岗,高建民,姜朋,郭旗.高血压患者并发症模式的分析方法研究[J].中国循证医学杂志,2017,17(9):1100-1105. 被引量：5
10孙志玲,吴嘎日迪.某一函数类在Orlicz空间中的宽度的精确估计[J].应用泛函分析学报,2006,8(4):363-368. 被引量：1

计算机应用

2017年第10期

浏览历史

内容加载中请稍等...

基于密度的K-means算法在轨迹数据聚类中的优化被引量：8

参考文献5

二级参考文献144

共引文献274

同被引文献60

引证文献8

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于密度的K-means算法在轨迹数据聚类中的优化 被引量：8

参考文献5

二级参考文献144

共引文献274

同被引文献60

引证文献8

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于密度的K-means算法在轨迹数据聚类中的优化被引量：8