基于区间数的多维不确定性数据UID-DBSCAN聚类算法被引量：3

UID-DBSCAN Clustering Algorithm of Multi-dimensional Uncertain Data Based on Interval Number

下载PDF

导出

摘要不确定性数据聚类方法的研究日益受到广泛关注,其中UIDK-means算法与U-PAM算法继承了基于划分算法无法识别任意形状簇和对噪声点敏感的缺陷。FDBSCAN算法事先假定不确定性数据的概率分布函数或概率密度函数是已知的,然而这些信息在实际应用中往往难以获取。针对上述算法的不足,提出一种基于区间数的多维不确定性数据聚类UID-DBSCAN算法。该算法利用区间数结合数据的统计信息合理地表示不确定性数据,采用低计算复杂度的区间数距离函数衡量不确定性数据对象间的相似度,首次提出区间数的密度、密度可达与密度相连等概念,并将其用于扩展簇中,同时结合数据集的统计特征自适应地选取算法的密度参数来实现自动聚类。实验结果表明,UID-DBSCAN算法能够有效识别噪声,处理任意形状簇,具有较高的聚类精度和较低的计算复杂度。 The researches on clustering methods of uncertain data have been paid more and more attention,among them,the UIDK-means algorithm and U-PAM algorithm inherit the partition-based algorithm defects that can not identify any shape clusters and is sensitive to noise.FDBSCAN algorithm assumes that the probability distribution function or probability density function of uncertain data is known,however this information is hard to acquire.For the shortage of the above algorithms,a new multi-dimensional uncertain data clustering algorithm namely UID-DBSCAN based on interval numbers was proposed.It uses interval data combined with statistic information to describe uncertain data reasonably.And it utilizes the intervals distance function of low computing complexity to measure the similarity of different uncertain data.The concepts of interval density,interval density-reachable and interval density connected were firstly proposed and applied to expand clusters.Meanwhile in order to realize automatic clustering,combining with statistical features of the data,the parameters of density can be adaptively selected.Experiment results show that UID-DBSCAN algorithm can identify noise effectively,process arbitrary shape clusters and obtain better clustering precision with low computing complexity.

作者魏方圆黄德才

机构地区浙江工业大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2017年第B11期442-447,共6页 Computer Science

基金水利部公益性行业科研专项(201401044)资助

关键词不确定性数据区间数聚类算法 DBSCAN Uncertain data Interval number Clustering algorithm DBSCAN

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1周傲英,金澈清,王国仁,李建中.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16. 被引量：185
2孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
3许华杰,李国徽,杨兵,杜建强.基于密度的不确定性数据概率聚类[J].计算机科学,2009,36(5):68-71. 被引量：12
4胡春安,范丽文,毛伊敏.HPDBSCAN:高效的不确定数据处理算法[J].计算机工程与设计,2013,34(3):1044-1049. 被引量：6
5彭宇,罗清华,彭喜元.UIDK-means:多维不确定性测量数据聚类算法[J].仪器仪表学报,2011,32(6):1201-1207. 被引量：18
6何云斌,张志超,万静,李松.不确定数据聚类的U-PAM算法和UM-PAM算法的研究[J].计算机科学,2016,43(6):263-269. 被引量：7
7戴阳阳,李朝锋,徐华.初始点优化与参数自适应的密度聚类算法[J].计算机工程,2016,42(1):203-209. 被引量：20

二级参考文献144

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2余仕成.大学物理实验数据处理的几个问题讨论[J].武汉化工学院学报,2005,27(1):94-96. 被引量：9
3谷峪,于戈,张天成.RFID复杂事件处理技术[J].计算机科学与探索,2007,1(3):255-267. 被引量：54
4高迎,程涛远,王珊.基于Hilbert曲线的许可证存储策略及查找算法[J].软件学报,2006,17(2):305-314. 被引量：20
5李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
6Deshpande A, Guestrin C, Madden S, Hellerstein J M, Hong W. Model-driven data acquisition in sensor networks// Proceedings of the 30th International Conference on Very Large Data Bases. Toronto, 2004:588-599
7Madhavan J, Cohen S, Xin D, Halevy A, Jeffery S, Ko D, Yu C. Web-scale data integration: You can afford to pay as you go//Proceedings of the 33rd Biennial Conference on Innovative Data Systems Research. Asilomar, 2007:342-350
8Liu Ling. From data privacy to location privacy: Models and algorithms (tutorial)//Proceedings of the 33rd International Conference on Very Large Data bases. Vienna, 2007: 1429- 1430
9Samarati P, Sweeney L. Generalizing data to provide anonymity when disclosing information (abstract)//Proeeedings of the 17th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. Seattle, 1998:188
10Cavallo R, Pittarelli M. The theory of probabilistic databases//Proceedings of the 13th International Conference on Very Large Data Bases. Brighton, 1987:71-81

共引文献1301

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献28

1许瑞丽,徐泽水.区间数相似度研究[J].数学的实践与认识,2007,37(24):1-8. 被引量：27
2谢海.基于改进的相对优势度的区间数排序[J].科学技术与工程,2008,8(22):5983-5986. 被引量：13
3詹棠森,林卫中.基于数据最优分区间相似度算法及应用[J].数学的实践与认识,2009,39(20):31-34. 被引量：6
4任凯,浦金云.基于案例属性特征区间相似度的改进算法研究[J].控制与决策,2010,25(2):307-310. 被引量：17
5樊治平,宫贤斌,张全.区间数多属性决策中决策矩阵的规范化方法[J].东北大学学报（自然科学版）,1999,20(3):326-329. 被引量：63
6姜艳萍,樊治平,袁娜.基于相似度计算的森林火灾应急响应方案选择方法[J].系统工程,2010,28(11):104-109. 被引量：10
7冯秀珍,武高峰.基于区间相似度的动态服务协商模型[J].计算机工程,2011,37(5):267-269. 被引量：2
8兰继斌,胡明明,叶新苗.基于相似度的区间数排序[J].计算机工程与设计,2011,32(4):1419-1421. 被引量：14
9彭宇,罗清华,彭喜元.UIDK-means:多维不确定性测量数据聚类算法[J].仪器仪表学报,2011,32(6):1201-1207. 被引量：18
10张新猛,蒋盛益.一种基于相似度概率的不确定分类数据聚类算法[J].山东大学学报（工学版）,2011,41(3):12-16. 被引量：5

引证文献3

1龚日朝,谭可星,潘芬萍.区间数相似度计算模型及其应用研究[J].邵阳学院学报（自然科学版）,2019,16(1):1-14. 被引量：5
2吴翠先,何少元.基于区间数的不确定性数据聚类算法:UD-OPTICS[J].计算机工程与科学,2019,41(7):1303-1311. 被引量：3
3肖满生,张龙信,张晓丽,胡永祥.一种改进的区间型不确定数据模糊聚类方法[J].电子与信息学报,2020,42(8):1968-1974. 被引量：7

二级引证文献15

1龚日朝,谭可星.基于区间数度量的精准扶贫工作绩效评价方法[J].湖南文理学院学报（自然科学版）,2020,32(2):12-17. 被引量：1
2张巍,张虹敏.基于区间数理论的建筑企业BIM信息化平台成熟度评价[J].项目管理技术,2020,18(10):43-48. 被引量：4
3龚日朝,谭可星,李诗音,龚泽权.基于均匀分布区间数的排序方法[J].湖南科技大学学报（自然科学版）,2020,35(4):110-116. 被引量：2
4杨岚.融媒体资源搜索的UI界面多维可视化系统设计[J].现代电子技术,2021,44(19):119-123.
5龚日朝,李诗音,谭可星.带分布区间数的可能度计算模型及其排序[J].系统工程理论与实践,2021,41(9):2428-2446. 被引量：6
6黄悦,幸福堂,石癸鑫,吴孟龙.矿业安全生产事故时间序列的模糊区间预测[J].矿业安全与环保,2021,48(5):96-102. 被引量：2
7王进花,王跃龙,黄涛,曹洁.基于AE-IFCM的轴承故障诊断方法[J].太阳能学报,2022,43(7):310-315. 被引量：3
8薛海,胡李军,李强.基于模糊聚类的高表征度地铁构架应力谱编制方法[J].中国铁道科学,2022,43(5):102-110. 被引量：3
9高妍妍,缪祥华.基于自适应布谷鸟搜索的模糊聚类算法[J].化工自动化及仪表,2022,49(6):725-731.
10汪勇,李巧娜,艾学轶.基于两阶段搜索的密度聚类算法[J].计算机工程与设计,2023,44(1):188-193. 被引量：1

1宋凯,李秀霞,赵思喆.基于CTM模型与K-means算法融合的文本聚类研究[J].情报理论与实践,2017,40(11):135-138. 被引量：16
2黄衍,王应明,杨隆浩.基于SBM区间模型的决策单元相似度[J].控制与决策,2017,32(11):2090-2098. 被引量：3
3黄明吉,张倩.基于Spark的并行DBSCAN算法的设计与实现[J].计算机科学,2017,44(B11):524-529. 被引量：3
4罗力.对几何分布的统计特征的研究[J].长春理工大学学报（高教版）,2008(1):165-167.
5崔友昕.大样本推断理论在调整企业现金库存限额中的用应[J].武汉金融,1986(5):27-28.
6于小兵,卢逸群,王旭明,骆翔,蔡玫.基于CBR和前景理论的强台风灾害应急方案生成与动态调整[J].模糊系统与数学,2017,31(5):182-190. 被引量：3
7张继成,张路.数据挖掘技术在课堂教学评价中的应用[J].新校园（上旬刊）,2017,0(10):104-104.
8宋喜玉,郑娜娥,孙扬.多目标跟踪的分布式MIMO雷达最少阵元选取算法[J].系统工程与电子技术,2017,39(10):2228-2233. 被引量：6
9邹正兴,张强.区间值合作对策的广义区间Shapley值[J].运筹与管理,2017,26(10):1-9. 被引量：2
10卞霄.双层超薄铺装方法及工艺探究——基于古泊河大桥建设[J].工业技术创新,2017,4(5):54-58.

计算机科学

2017年第B11期

浏览历史

内容加载中请稍等...

基于区间数的多维不确定性数据UID-DBSCAN聚类算法被引量：3

参考文献7

二级参考文献144

共引文献1301

同被引文献28

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于区间数的多维不确定性数据UID-DBSCAN聚类算法 被引量：3

参考文献7

二级参考文献144

共引文献1301

同被引文献28

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于区间数的多维不确定性数据UID-DBSCAN聚类算法被引量：3