一种基于信息熵的混合数据属性加权聚类算法被引量：42

An Attribute Weighted Clustering Algorithm for Mixed Data Based on Information Entropy

下载PDF

导出

摘要同时兼具数值型和分类型属性的混合数据在实际应用中普通存在,混合数据的聚类分析越来越受到广泛的关注.为解决高维混合数据聚类中属性加权问题,提出了一种基于信息熵的混合数据属性加权聚类算法,以提升模式发现的效果.工作主要包括:首先为了更加准确客观地度量对象与类之间的差异性,设计了针对混合数据的扩展欧氏距离;然后,在信息熵框架下利用类内信息熵和类间信息熵给出了聚类结果中类内抱团性及一个类与其余类分离度的统一度量机制,并基于此给出了一种属性重要性度量方法,进而设计了一种基于信息熵的属性加权混合数据聚类算法.在10个UCI数据集上的实验结果表明,提出的算法在4种聚类评价指标下优于传统的属性未加权聚类算法和已有的属性加权聚类算法,并通过统计显著性检验表明本文提出算法的聚类结果与已有算法聚类结果具有显著差异性. In real applications , mixed data sets with both numerical attributes and categorical attributes at the same time are more common . Recently , clustering analysis for mixed data has attracted more and more attention .In order to solve the problem of attribute weighting for high-dimensional mixed data ,this paper proposes an attribute weighted clustering algorithm for mixed data based on information entropy .The main work includes ：an extended Euclidean distance is defined for mixed data , which can be used to measure the difference between the objects and clusters more accurately and objectively . And a generalized mechanism is presented to uniformly assess the compactness and separation of clusters based on within-cluster entropy and between-cluster entropy . Then a measure of the importance of attributes is given based on this mechanism .Furthermore ,an attribute weighted clustering algorithm for mixed data based on information entropy is developed .The effectiveness of the proposed algorithm is demonstrated in comparison with the widely used state -of-the-art clustering algorithms for ten real life datasets from UCI .Finally ,statistical test is conducted to show the superiority of the results produced by the proposed algorithm .

作者赵兴旺梁吉业

机构地区山西大学计算机与信息技术学院计算智能与中文信息处理教育部重点实验室(山西大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2016年第5期1018-1028,共11页 Journal of Computer Research and Development

基金国家自然科学基金项目(61432011,U1435212,61402272) 国家“九七三”重点基础研究发展计划基金项目(2013CB329404) 山西省自然科学基金项目(2013021018-1)

关键词聚类分析混合数据属性加权信息熵相异性度量 clustering analysis mixed data attribute weighting information entropy dissimilarity measure

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1陈黎飞,郭躬德.属性加权的类属型数据非模聚类[J].软件学报,2013,24(11):2628-2641. 被引量：7
2梁吉业,白亮,曹付元.基于新的距离度量的K-Modes聚类算法[J].计算机研究与发展,2010,47(10):1749-1755. 被引量：45
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1060

二级参考文献30

1李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：113
2陈宗海,文锋,聂建斌,吴晓曙.基于节点生长k-均值聚类算法的强化学习方法[J].计算机研究与发展,2006,43(4):661-666. 被引量：13
3Han Jiawei,Kamber M.Data Mining Concepts and Techniques[M].San Francisco:Morgan Kaufmann,2001.
4Brendan J F,Delbert D.Clustering by passing messages between data points[J].Science,2007,315(16):972-976.
5Zhang Jiangshe,Liang Yiuwing.Improved possibilistic c-means clustering algorithms[J].IEEE Trans on Fuzzy Systems,2004,12(2):209-217.
6Mac Q J.Some methods for classification and analysis of multivariate observation[C]//Proc of the 5th Berkley Symp on Mathematical Statistics and Probability.Berkley,California:University of California Press,1967:281-297.
7Huang Zhexue.Clustering large data sets with mixed numeric and categorical values[C]//Proc of PAKDD97.Singapore:World Scientific,1997:21-35.
8Huang Zhexue.Extensions to the K-means algorithm for clustering large data sets with categorical values[J].Data Mining and Knowledge Discovery,1998,2(3):283-304.
9Ng M K,Li Junjie,Huang Zhexue,et al.On the impact of dissimilarity measure in K-modes clustering algorithm[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2007,29(3):503-507.
10San O M,Huynh V N,Nakamori Y.An alternative extension of the K-means algorithm for clustering categorical data[J].Int Journal Application Mathematic and Computer Science,2004,14(2):241-247.

共引文献1101

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献282

1程学旗.数据科学与计算智能[J].软件和集成电路,2021(5):28-29. 被引量：2
2胡健,朱海湾,毛伊敏.基于蚁群聚类的动态加权PPI网络复合物挖掘[J].计算机应用研究,2020,37(2):390-397. 被引量：2
3张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：18
4李建中,谢威,武铁梅.模糊综合评价在绿色能源评价中的应用研究[J].水电能源科学,2010,28(6):165-168. 被引量：8
5周胜,张希良.可再生能源综合评价体系探讨[J].环境保护,2004,32(10):48-51. 被引量：11
6周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
7高经纬,张培林,张英堂,任国全.某型柴油机磨损特点及油液光谱分析诊断研究[J].内燃机学报,2004,22(6):571-576. 被引量：17
8孙勇,景博.基于支持度的多传感器一致可靠性融合[J].传感技术学报,2005,18(3):537-539. 被引量：37
9张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
10杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24

引证文献42

1岳金柱,王德来.对易县“两山”划分和“四荒”拍卖的思考[J].河北林果研究,2000,15(1):20-23. 被引量：3
2梁吉业,钱宇华,李德玉,胡清华.面向大数据的粒计算理论与方法研究进展[J].大数据,2016,2(4):13-23. 被引量：16
3张晶,陈垚,范洪博,孙俊.基于信息物理融合系统执行器输出事件的价值评价调度策略[J].计算机应用,2017,37(6):1663-1669. 被引量：1
4孙林,刘弱南,张霄雨,孙印杰,宋黎明.一种基于粗糙均方残基的模糊双聚类方法[J].河南师范大学学报（自然科学版）,2017,45(5):93-100. 被引量：4
5李艳,张庆,田苏慧敏.改进的数据挖掘模糊聚类算法研究与分析[J].宁夏师范学院学报,2018,39(1):36-47. 被引量：2
6杨旭华,朱钦鹏,童长飞.基于Laplacian中心性的密度聚类算法[J].计算机科学,2018,45(1):292-296. 被引量：2
7李晔,陈奕延,张淑芬.基于密度峰值的混合型数据聚类算法设计[J].计算机应用,2018,38(2):483-490. 被引量：6
8张晶,陈垚,孙俊,范洪博.信息物理系统可调度性分析的执行时间优化方法[J].小型微型计算机系统,2018,39(9):1937-1943.
9李立莉.大数据环境下图书碎片化信息精确整合仿真[J].计算机仿真,2018,35(9):413-416. 被引量：2
10李顺勇,张苗苗.一种带权的混合数据聚类个数确定算法[J].计算机应用与软件,2019,36(1):284-290. 被引量：19

二级引证文献150

1景欣.大数据分析下足球射门旋转飞行轨迹点实时标定方法[J].周口师范学院学报,2020,37(2):121-124.
2李丽红,董红瑶,刘文杰,李宝霖,代琪.不完备数据集的邻域容差互信息选择集成分类算法[J].南京大学学报（自然科学版）,2024,60(1):106-117.
3凌敏,刘财辉.覆盖粗糙集的不确定性度量研究进展[J].模糊系统与数学,2023,37(1):100-108.
4翟富刚,李超,叶子,谭昌宇,陈誉.内置过滤器边界对小型化液压油箱内流场的影响[J].机械工程学报,2021,57(24):114-122.
5余宏亮,何梓睿,金媛.湖北省建筑业科技发展水平评价研究[J].工程经济,2022,32(3):70-80.
6李明,刘敏,陈胜利,耿存胜,黄茂业,李茜.赣榆县生态林业建设与可持续发展的思考[J].江苏林业科技,2010,37(1):52-55.
7金华英.对农业承包中不完善合同的探讨[J].科技创新与应用,2013,3(25):253-253.
8万明秀,叶安珊.基于粒计算的大数据处理技术探析[J].无线互联科技,2018,15(1):75-76. 被引量：4
9孙林,潘俊方,张霄雨,王伟,徐久成.一种基于邻域粗糙集的多标记专属特征选择方法[J].计算机科学,2018,45(1):173-178. 被引量：14
10岳兆新,廖亨利,陈彬彬.粒理论及其应用于水利大数据分析的展望[J].水利信息化,2018(1):18-22.

1陆林花.一种新的基于遗传算法的动态聚类算法[J].计算机仿真,2009,26(7):122-125. 被引量：5
2郭一鹏,梁吉业,赵兴旺.基于MapReduce的混合数据孤立点检测算法[J].小型微型计算机系统,2014,35(9):1961-1966. 被引量：3
3范阿琳,任树华.一种融合变异系数的k-mean聚类分析方法[J].计算机工程与应用,2012,48(35):114-117. 被引量：5
4常茜茜,张月琴.一种基于划分的混合数据聚类算法[J].计算机应用与软件,2014,31(6):154-157. 被引量：5
5陈新泉.一种基于MST的自适应优化相异性度量的半监督聚类方法[J].计算机工程与科学,2011,33(10):154-158. 被引量：1
6丁小梅,连斌忠.模糊控制技术在冶金工业中的应用[J].软件导刊,2009,8(10):86-87.
7曹科研,王国仁,韩东红,袁野,胡雅超,齐宝雷.障碍空间中不确定数据聚类算法[J].计算机科学与探索,2012,6(12):1087-1097. 被引量：11
8杨玉军,杨夷梅.MD5算法在Web系统中的安全性应用研究[J].电脑知识与技术,2009,5(1X):597-598. 被引量：5
9吴庆祈.自动化系统中的Y2K问题[J].自动化仪表,1999,20(1):1-3.
10吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21

计算机研究与发展

2016年第5期

浏览历史

内容加载中请稍等...

一种基于信息熵的混合数据属性加权聚类算法被引量：42

参考文献3

二级参考文献30

共引文献1101

同被引文献282

引证文献42

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

一种基于信息熵的混合数据属性加权聚类算法 被引量：42

参考文献3

二级参考文献30

共引文献1101

同被引文献282

引证文献42

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

一种基于信息熵的混合数据属性加权聚类算法被引量：42