基于密度差分的自动聚类算法被引量：16

Automatic Clustering Algorithm Based on Density Difference

下载PDF

导出

摘要聚类作为无监督学习技术,已在实际中得到了广泛的应用.但是对于带有噪声的数据集,一些主流算法仍然存在着噪声去除不彻底和聚类结果不准确等问题.提出了一种基于密度差分的自动聚类算法(clustering based on density difference,简称CDD),实现了对含有噪声数据集的自动分类.所提算法根据噪声数据和有用数据密度的不同,实现了去噪声和数据的分类,并通过构建数据间的邻域,进一步实现了对有用数据间不同类别的划分.通过实验验证了所提算法的有效性. As an unsupervised learning technology,clustering has been widely used in practice.However,some mainstream algorithms still have problems such as incomplete noise removal and inaccurate clustering results for the datasets with noise.In this paper,an automatic clustering algorithm based on density difference（CDD）is proposed to realize automatic classification of the datasets containing the noise.The algorithm is based on the density difference between noise data and useful data to achieve removing noise and data classification.Moreover,the useful data are classified into different classes through the neighborhood construction procedure.Experimental results demonstrate that the CDD algorithm has high performance.

作者陈朝威常冬霞 CHEN Zhao-Wei;CHANG Dong-Xia(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China;Institute of Information Science, Beijing Jiaotong University, Beijing 100044, China)

机构地区北京交通大学计算机与信息技术学院北京交通大学信息科学研究所

出处《软件学报》 EI CSCD 北大核心 2018年第4期935-944,共10页 Journal of Software

基金国家自然科学基金(61532005)~~

关键词聚类数据挖掘离散点检测差分 CDD clustering data mining outliers detection difference CDD

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1060
2梁吉业,白亮,曹付元.基于新的距离度量的K-Modes聚类算法[J].计算机研究与发展,2010,47(10):1749-1755. 被引量：45

二级参考文献27

1李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：113
2陈宗海,文锋,聂建斌,吴晓曙.基于节点生长k-均值聚类算法的强化学习方法[J].计算机研究与发展,2006,43(4):661-666. 被引量：13
3Han Jiawei,Kamber M.Data Mining Concepts and Techniques[M].San Francisco:Morgan Kaufmann,2001.
4Brendan J F,Delbert D.Clustering by passing messages between data points[J].Science,2007,315(16):972-976.
5Zhang Jiangshe,Liang Yiuwing.Improved possibilistic c-means clustering algorithms[J].IEEE Trans on Fuzzy Systems,2004,12(2):209-217.
6Mac Q J.Some methods for classification and analysis of multivariate observation[C]//Proc of the 5th Berkley Symp on Mathematical Statistics and Probability.Berkley,California:University of California Press,1967:281-297.
7Huang Zhexue.Clustering large data sets with mixed numeric and categorical values[C]//Proc of PAKDD97.Singapore:World Scientific,1997:21-35.
8Huang Zhexue.Extensions to the K-means algorithm for clustering large data sets with categorical values[J].Data Mining and Knowledge Discovery,1998,2(3):283-304.
9Ng M K,Li Junjie,Huang Zhexue,et al.On the impact of dissimilarity measure in K-modes clustering algorithm[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2007,29(3):503-507.
10San O M,Huynh V N,Nakamori Y.An alternative extension of the K-means algorithm for clustering categorical data[J].Int Journal Application Mathematic and Computer Science,2004,14(2):241-247.

共引文献1097

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献108

1张青,王锡昌,刘源.GC-O法在食品风味分析中的应用[J].食品科学,2009,30(3):284-287. 被引量：53
2FAHIM A.M,SALEM A.M,TORKEY F.A,RAMADAN M.A.An efficient enhanced k-means clustering algorithm[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(10):1626-1633. 被引量：29
3贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：222
4刘敏娟,柴玉梅,张西芝.基于相似度的网格聚类算法[J].计算机工程与应用,2007,43(7):198-201. 被引量：12
5胡旺,李志蜀.一种更简化而高效的粒子群优化算法[J].软件学报,2007,18(4):861-868. 被引量：331
6文畅平.埃尔米特插值函数在公路平面线形设计中的应用[J].测绘科学,2007,32(3):149-150. 被引量：2
7金阳,左万利.一种基于动态近邻选择模型的聚类算法[J].计算机学报,2007,30(5):756-762. 被引量：18
8卢炎生,娄强.障碍空间里基于密度的快速聚类算法[J].小型微型计算机系统,2007,28(11):1976-1980. 被引量：4
9孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1060
10韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：99

引证文献16

1古山.先锋推出带DVD的新颖小型家庭影院[J].实用影音技术,2000(3):17-17.
2琚书存,程文杰,徐建鹏,徐祥,徐阳.基于密度峰和划分的快速聚类算法[J].计算机与现代化,2018(8):16-20. 被引量：3
3邵伦,周新志,赵成萍,张旭.基于多维网格空间的改进K-means聚类算法[J].计算机应用,2018,38(10):2850-2855. 被引量：15
4干佳俪,谭励,宁晓辉,王蓓,孙践知.基于密度最大值聚类的奶酪风味鉴别模型[J].中国乳品工业,2019,47(2):10-14. 被引量：1
5赵荣标.基于公共投资空间布局优化的云南农田水利建设[J].农村实用技术,2019,0(9):79-80.
6齐欣,靳雁霞,张晋瑞,程琦甫.大数据环境中简化粒子群算法的改进研究[J].微电子学与计算机,2020,37(2):25-29. 被引量：5
7靳雁霞,齐欣,张晋瑞,程琦甫.一种改进的简化均值粒子群K-means聚类算法[J].微电子学与计算机,2020,37(5):69-74. 被引量：11
8任昌鸿,安军.改进PSO结合DSA技术的无线传感器网络均衡密度聚类方法[J].计算机应用与软件,2020,37(8):122-129. 被引量：3
9方宗华,王文丰,董健华,章香,徐灯.基于埃尔米特插值法的DBSCAN算法研究[J].南昌工程学院学报,2020,39(4):80-84. 被引量：4
10马瑞强,宋宝燕,丁琳琳,王俊陆.面向时间序列事件的动态矩阵聚类方法[J].计算机科学与探索,2021,15(3):468-477. 被引量：1

二级引证文献49

1何立蜓.基于K-means聚类算法的防汛物资调配改进模型[J].人民黄河,2021,43(S02):272-275. 被引量：1
2张明宇,齐瑞锋,王强,刘峰.喷杆机械臂障碍物检测系统设计与性能测试[J].中国农业信息,2021,33(2):49-56. 被引量：2
3段桂芹,邹臣嵩,刘锋.基于优化初始聚类中心的K中心点算法[J].计算机与现代化,2019(4):1-5. 被引量：5
4富豪,邓立国.基于ALCIF描述逻辑的Web页面聚类[J].现代计算机,2019,25(12):41-45.
5吴广建,章剑林,袁丁.基于K-means的手肘法自动获取K值方法研究[J].软件,2019,40(5):167-170. 被引量：55
6毕曦文,纪明宇,吴鹏,方静,段仁翀,郭鹏鑫.个性化高校新闻分类推荐的应用研究[J].计算机应用与软件,2019,36(7):218-223. 被引量：10
7张苏宁,王月娟,吴水明,景栋盛.基于Krylov子空间方法的网络入侵数据聚类[J].计算机与现代化,2019,0(10):121-126. 被引量：5
8李永定.基于网格和密度的k-means聚类算法[J].洛阳理工学院学报（自然科学版）,2019,29(4):48-54. 被引量：1
9黄林,常健,杨帆,李忆,牛新征.基于改进k-means的电力信息系统异常检测方法[J].深圳大学学报（理工版）,2020,37(2):214-220. 被引量：20
10张海燕,李根源,辜建锐,林开荣.基于机器学习的入侵检测技术研究与实现[J].电脑知识与技术,2020,16(10):215-217.

1王威娜,王严东.基于自动聚类和自回归模型的时间序列预测[J].吉林化工学院学报,2017,34(11):86-89. 被引量：3
2彭真明,陈颖频,蒲恬,王雨青,何艳敏.基于稀疏表示及正则约束的图像去噪方法综述[J].数据采集与处理,2018,33(1):1-11. 被引量：20
3严晓杰,陈文祥,杨李星,刘斐.风电机组齿轮箱声发射信号的去噪方法研究[J].信息化研究,2017,43(5):35-37. 被引量：1
4万泽敏,张伟东.四旁树抽样调查总体指标按行政区域分解方法——以上海市嘉定区为例[J].华东森林经理,2018,32(1):80-82.
5毋斌.基于小波变换的心电信号阈值去噪[J].山西科技,2018,33(1):77-79. 被引量：4
6杨秀菊.面向互联网的隐私保护关键算法[J].长春工业大学学报,2018,39(1):80-84.
7姚晟,徐风,赵鹏,纪霞.基于自适应邻域空间粗糙集模型的直觉模糊熵特征选择[J].计算机研究与发展,2018,55(4):802-814. 被引量：13
8Shang Fu,Ying Zhang,Huiqun Liu,Danqing Yi,Bin Wang,Yong Jiang,Zhiquan Chen,Ning Qi.Influence of electric field on the quenched-in vacancy and solute clustering during early stage ageing of Al-Cu alloy[J].Journal of Materials Science & Technology,2018,34(2):335-343. 被引量：3
9杨澎.冷试台传感器校验详解[J].汽车实用技术,2018,44(6):162-165. 被引量：1
10刘俊坤,李燕萍,凌云志.基于AutoEncoder DBN-VQ的说话人识别系统[J].计算机技术与发展,2018,28(2):45-49. 被引量：2

软件学报

2018年第4期

浏览历史

内容加载中请稍等...

基于密度差分的自动聚类算法被引量：16

参考文献2

二级参考文献27

共引文献1097

同被引文献108

引证文献16

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

基于密度差分的自动聚类算法 被引量：16

参考文献2

二级参考文献27

共引文献1097

同被引文献108

引证文献16

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

基于密度差分的自动聚类算法被引量：16