基于信息熵的混合属性数据谱聚类算法被引量：12

Entropy-based spectral clustering algorithm for mixed type data

下载PDF

导出

摘要针对传统的聚类算法只能处理单属性的数据,不能很好地处理混合属性数据的聚类问题,以及目前大多数混合属性数据聚类算法对初始化敏感,不能处理任意形状的数据的问题,提出一种基于信息熵的混合属性数据谱聚类算法,用于处理混合类型数据。提出了一种新的相似性度量方式,利用谱聚类算法中的数值型数据构成的高斯核函数矩阵与新的基于信息熵的分类型数据构成的影响因子矩阵相结合代替了传统的相似度矩阵,新的相似度矩阵避免了数值属性与分类属性数据之间的转换和参数调整;把新的相似度矩阵运用到谱聚类算法中,以便于处理任意形状的数据,最终得出聚类结果。通过在UCI的数据集上的实验表明,该算法能有效地处理混合属性数据的聚类问题,且具有较高的稳定性以及良好的鲁棒性。 The problem that the traditional clustering algorithm can only deal with single attribute data and cannot handle the clustering problem of mixed type data very well. Most of the clustering algorithms for mixed type data currently have the problem of initializing sensitive and cannot handle the data of arbitrary shape. This paper proposed an entropy-based spectral clustering algorithm for mixed type data to deal with mixed type data. First, it proposed a new similarity measure, it used the numerical data in the spectral clustering algorithm to constitute a Gaussian kernel function of the matrix, and used the classification data to constitute an entropy-based the influence factor of the matrix. A new similarity matrix combined these two matrices. Instead of the traditional similarity matrix, it proposed the new similarity matrix avoid feature transformation and parameter adjustment between the numerical data and the classification data. Then, it applied the new similarity matrix to the spectral clustering algorithm so as to deal with the data of arbitrary shape, and finally got the clustering result. Experiments on UCI data sets show that this algorithm can effectively deal with the clustering problem of mixed attribute data, with high stability and good robustness.

作者姜智涵朱军周晓锋李帅 Jiang Zhihan;Zhu Jun;Zhou Xiaofeng;Li Shuai(Shenyang Institute of Automation,Chinese Academy of Sciences,Shenyang 110016,China;University of Chinese Academy of Sciences,Beijing 100049,China;Key Laboratory of Network Control System,Chinese Academy of Sciences,Shenyang 110016,China)

机构地区中国科学院沈阳自动化研究所中国科学院大学中国科学院网络化控制系统重点实验室

出处《计算机应用研究》 CSCD 北大核心 2019年第8期2256-2260,共5页 Application Research of Computers

基金工信部智能制造综合标准化与新模式应用项目(Y6L8283A01)

关键词混合属性数据谱聚类高斯核函数影响因子 mixed type data spectral clustering Gaussian kernel function influence factor

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1张涛,刘昶,周晓锋,李帅.基于真实核心点的密度聚类方法[J].计算机应用研究,2018,35(12):3564-3568. 被引量：4
2王日宏,崔兴梅,李永珺.自适应调整的布谷鸟搜索K-均值聚类算法[J].计算机应用研究,2018,35(12):3593-3597. 被引量：10
3张文倩,庄华亮,陈翔,何熊熊.基于竞争思想的分级聚类算法[J].信息与控制,2017,46(5):614-619. 被引量：3
4李桃迎,陈燕,张金松,张琳.一种面向分类属性数据的聚类融合算法研究[J].计算机应用研究,2011,28(5):1671-1673. 被引量：7
5陈晋音,何辉豪.基于密度和混合距离度量方法的混合属性数据聚类研究[J].控制理论与应用,2015,32(8):993-1002. 被引量：11
6乔晓明,潘晓英.基于稀疏图的鲁棒谱聚类算法[J].计算机应用研究,2018,35(6):1672-1675. 被引量：6
7马恒,丁世飞.一种基于混合数据相似性度量的谱聚类算法[J].小型微型计算机系统,2016,37(8):1746-1750. 被引量：3

二级参考文献80

1周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
2张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
3杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
4段敏,张锡恩.基于合并思想和竞争学习思想的聚类新算法[J].计算机工程与设计,2006,27(9):1656-1659. 被引量：3
5杨黎刚,苏宏业,张英,褚健.基于SOM聚类的数据挖掘方法及其应用研究[J].计算机工程与科学,2007,29(8):133-136. 被引量：32
6EVERITT B S, LANDAU S, LEESE M. Cluster analysis[M]. 4th ed. London: Arnold, 2001.
7JAIN A K, MURTY M N, FLYNN P J. Data clustering: a review [J]. ACM Computing Surveys, 1999,31 ( 3 ) :264-323.
8FRED A L. Finding consistent clusters in data partitions [ C ]//Proc of the 2nd International Workshop on Multiple Classifier Systems. Cambridge: Springer, 2001 : 309-318.
9STREHL A, GHOSH J. Cluster ensembles: a knowledge reuse frame-work for combining multiple partitions [ J ]. Journal of Machine Learning Research, 2003,3(3):583-617.
10HE Zeng-you, XU Xiao-fei, DENG Sheng-chun. A cluster ensemble method for clustering categorical data [ J ]. Information Fusion,2005, 6(2) :143-151.

共引文献37

1马海峰,刘宇熹.基于相关随机子空间的分类数据聚类集成[J].计算机应用研究,2013,30(4):1082-1084. 被引量：2
2史东宇,鲁广明,顾丽鸿,陈启超,李刚.基于数据聚类的电力系统在线小干扰稳定机组分群算法[J].华东电力,2013,41(11):2223-2228. 被引量：3
3李晓庆,唐昊,司加胜,苗刚中.面向混合属性数据集的改进半监督FCM聚类方法[J].自动化学报,2018,44(12):2259-2268. 被引量：8
4王昆,赵宇琛.K-Means算法在盾构掘进中的应用[J].建筑机械化,2019,40(1):36-40.
5孙浩军,李惊涛,张磊,张崇锐,肖婷.一种高维分类型数据的子空间聚类算法[J].汕头大学学报（自然科学版）,2014,29(3):51-59.
6孙浩军,闪光辉,高玉龙,袁婷,吴云霞.高维分类型数据加权子空间聚类算法[J].计算机工程与应用,2014,50(23):131-135. 被引量：2
7张宇献,彭辉灯,王建辉.基于异构值差度量的SOM混合属性数据聚类算法[J].仪器仪表学报,2016,37(11):2555-2562. 被引量：5
8邓峰.多跳网络中分类属性数据模糊聚类仿真[J].计算机仿真,2017,34(1):292-295. 被引量：12
9夏火松,龙瑾,李芳,贺婷婷.基于高频关键词的离群点监测与异类知识研究——从文献分析视角[J].情报杂志,2017,36(5):181-186. 被引量：3
10邹国锋,傅桂霞,高明亮,尹丽菊,王科俊.融合类别和结构信息的多尺度协同耦合度量学习方法[J].模式识别与人工智能,2017,30(6):499-508. 被引量：1

同被引文献135

1肖斌,王耘,乔延江.中药药性与功效的关系研究[J].中国中医药信息杂志,2011,18(1):31-33. 被引量：27
2王万良,胡禹.基于MapReduce的CTK加权聚类改进算法[J].微电子学与计算机,2018,35(12):105-109. 被引量：3
3李尧,王志海,孙艳歌,张伟.一种基于深度属性加权的数据流自适应集成分类算法[J].山东大学学报（工学版）,2018,48(6):44-55. 被引量：3
4潘淼鑫,林甲祥,陈崇成,叶晓燕.基于C-SOM和Spark的并行空间离群挖掘方法及应用[J].地球信息科学学报,2019,21(1):128-136. 被引量：4
5林倩瑜.云服务环境下的大数据多标签属性分类技术[J].微电子学与计算机,2019,36(2):101-104. 被引量：14
6王少英,兰晓然,刘丽英.基于非凸惩罚的SVM模型对科技型中小企业信用风险评估[J].数学的实践与认识,2019,49(3):307-312. 被引量：10
7王安庆.茵陈的现代研究进展[J].光明中医,2014,29(10):2207-2208. 被引量：11
8高月求.慢性乙型肝炎的中医药防治策略[J].临床肝胆病杂志,2015,31(1):35-37. 被引量：13
9夏棒,EMILION Richard,王惠文.Dirichlet混合样本的EM算法与动态聚类算法比较[J].北京航空航天大学学报,2019,45(9):1805-1811. 被引量：5
10Tingting FENG,Yuchun GUO,Yishuai CHEN.A novel user behavioral aggregation method based on synonym groups in online video systems[J].Science China(Information Sciences),2016,59(2):233-235. 被引量：2

引证文献12

1王红,陈功平.信息熵加权的协同聚类算法的改进与优化[J].宁夏师范学院学报,2020,41(1):59-65. 被引量：1
2谭令,孙梓宽,王庆国.基于中医传承辅助平台的现代中医药治疗慢性乙型肝炎用药规律分析[J].中西医结合肝病杂志,2020,30(6):484-488. 被引量：4
3柯行思,吴梦昭,李博,王云飞,周苏.基于改进熵权法的电力信用数据敏感度监控算法[J].电子设计工程,2020,28(24):66-69. 被引量：4
4周南.基于属性分类的工程数据线索特征挖掘方法研究[J].信息工程大学学报,2020,21(6):694-698.
5王舒梵,严涛,姜新盈.谱聚类欠取样下自编码网络不平衡数据挖掘[J].计算机系统应用,2021,30(10):331-335. 被引量：1
6曾维佳,秦放,李琳,徐鹏.基于信息熵的粗糙集属性应急数据去重挖掘算法研究[J].计算技术与自动化,2021,40(4):64-68. 被引量：4
7亓北林.基于信息熵预警模型的智能情报真伪识别系统设计[J].自动化与仪器仪表,2021(12):116-119. 被引量：1
8李洁,许青,张露露,王英明.基于网格耦合的混合属性大数据聚类算法研究[J].信息工程大学学报,2022,23(2):218-223. 被引量：1
9杨晓波,李颖,魏子睿.基于JSP技术的高压客户业扩报装系统[J].自动化技术与应用,2022,41(9):79-82.
10杨倩倩,王龙.无线传感网移动数据采集效果提升方法[J].传感技术学报,2022,35(8):1144-1149. 被引量：6

二级引证文献23

1王云海.丹栀逍遥散加减治疗慢性乙型肝炎的效果评价[J].中国医药指南,2021,19(7):116-117. 被引量：3
2张文.复方板蓝根颗粒联合恩替卡韦治疗学生慢性乙型肝炎临床观察[J].实用中医内科杂志,2021,35(8):102-104. 被引量：1
3应栋子,刘福斌,辛洁晴.基于物业状态画像的预付费电力客户辨识[J].智慧电力,2022,50(1):68-74. 被引量：1
4刘翠玲,胡聪,王鹏,洪德华,张庭曾.基于营销大数据的电力客户多维度信用评价模型研究[J].西南大学学报（自然科学版）,2022,44(6):198-208. 被引量：7
5何杰.自拟化肝解毒汤联合恩替卡韦治疗慢性乙肝的临床疗效观察[J].中国中医药科技,2022,29(4):652-654. 被引量：1
6李军.基于栅格价值地图的基站规划方法研究[J].电信工程技术与标准化,2022,35(9):67-73. 被引量：1
7于亮,钟宏伟,李海涛,陈海洋,杜欣然.基于数据挖掘的客户舆情预警监控系统设计[J].电子设计工程,2022,30(20):148-151. 被引量：3
8苏扬,胡恩良.一种新的平衡化谱聚类方法[J].云南师范大学学报（自然科学版）,2023,43(1):21-25.
9李瑞峰.计算机无线传感网数据传输研究[J].光源与照明,2023(1):90-92. 被引量：1
10裴康鹭.基于邻域相似性的多源异构大数据属性约减方法[J].信息与电脑,2023,35(3):19-21.

1陈绪,严金戈.混合类型数据的聚类算法综述[J].信息与电脑,2018,30(7):136-138.
2陆姣,吴林海,董汉芳,陈秀娟.k-modes聚类方法的改进与在可追溯猪肉消费偏好研究中的应用[J].系统管理学报,2019,28(4):752-762. 被引量：3
3宋以宁,刘文萍,宗世祥,骆有庆.基于超像素和超度量轮廓图的无人机图像分割算法[J].计算机辅助设计与图形学学报,2019,31(8):1294-1300. 被引量：8
4秦斌.火电厂气力除灰不畅的原因分析及解决对策[J].化工管理,2019(20):113-114.
5张成成.课堂提问在高中英语高效课堂中的重要性[J].青少年日记（教育教学研究）,2019,0(11):148-148.
6孙克俭.任意形状钢筋混凝土构件截面延性系数计算[J].建筑结构,2019,49(15):110-116. 被引量：1
7王京,曹志伟,马洪波,董俊平,张津,武玉瑞.抽真空过冷原因分析及应对[J].通信电源技术,2019,36(8):281-282.
8吴倩,李晓芹.PPP项目会计核算分析与处理建议[J].时代经贸,2019,0(25):31-33. 被引量：4
9崔良中,郭福亮,宋建新.基于Map/Reduce的朴素贝叶斯数据分类算法研究[J].海军工程大学学报,2019,31(4):7-10. 被引量：12
10灵台多措并举规范提升农民专业合作社[J].甘肃畜牧兽医,2019,0(6):80-80.

计算机应用研究

2019年第8期

浏览历史

内容加载中请稍等...

基于信息熵的混合属性数据谱聚类算法被引量：12

参考文献7

二级参考文献80

共引文献37

同被引文献135

引证文献12

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于信息熵的混合属性数据谱聚类算法 被引量：12

参考文献7

二级参考文献80

共引文献37

同被引文献135

引证文献12

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于信息熵的混合属性数据谱聚类算法被引量：12