一种面向非平衡数据的多簇IB算法被引量：2

Multi-clusters IB Algorithm for Imbalanced Data Set

下载PDF

导出

摘要信息瓶颈(Information Bottleneck,IB)方法在处理非平衡数据集时,倾向于将大簇中的数据对象划分到数据规模较小的小簇中,造成了聚类效果不理想的问题。针对该问题,提出了一种面向非平衡数据的多簇信息瓶颈算法(McIB)。McIB算法采用向下抽样方法来降低非平衡数据集的倾斜度,使用先划分再学习后合并的策略来优化IB算法处理非平衡数据的合并抽取过程。整个算法包含3步:首先根据分离标准来确定抽样比例参数;然后对数据进行初步的聚类,生成可信赖的多个簇;最后再利用簇之间的相似性对簇进行合并,组织多个簇代表每个实际的簇来得到最终的聚类结果。实验结果表明:所提算法能够有效地解决IB方法在非平衡数据集上的"均匀效应"问题;与其他聚类算法相比,McIB算法的性能更优。 When dealing with imbalanced data sets, the original IB method tends to produce clusters of relatively uni- form size,resulting in the problem of unsatisfactory clustering effect. To solve this problem, this paper proposesd a multi-clusters information bottleneck （McIB） algorithm. McIB algorithm tries to reduce the skewness of the data distri- butions by under-sampling method to divide the imbalanced data sets into multiple relatively uniform size clusters. Entire algorithm consists of three steps. First, a dividing measurement standard is proposed to determine the sampling ratio parameter. Second, McIB algorithm preliminary analyses the data to generate reliable multi-clusters. At last, McIB algo- rithm merges clusters into one bigger size cluster according to the similarity between clusters and organizes multiple clusters representing the actual cluster to obtain the final clustering results. Experimental results show that the McIB algorithm can effectively mine the pattern resided in imbalanced data sets. Compared with other common clustering al- gorithms, the performance of the McIB algorithm is better.

作者江鹏叶阳东娄铮铮

机构地区郑州大学信息工程学院

出处《计算机科学》 CSCD 北大核心 2016年第7期245-250,共6页 Computer Science

基金国家自然科学基金项目:多变量IB方法及算法的研究(61170223) 国家自然科学基金联合基金项目:可扩展迁移学习中跨媒体复杂问题自动映射研究(U1204610)资助

关键词聚类 IB算法非平衡数据多簇簇合并 Clustering, Information bottleneck method, Imbalanced data, Multi-clusters, Cluster merging

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1职为梅,郭华平,范明,叶阳东.非平衡数据集分类方法探讨[J].计算机科学,2012,39(B06):304-308. 被引量：9
2娄铮铮,杨晨,叶阳东.基于数据选择模型的IB算法[J].电子学报,2014,42(9):1839-1846. 被引量：2

二级参考文献48

1Tan Pang-ning, Steinbach M. Introduction to Data Mining(第2版)[M].范明,范宏建,译.北京:人民邮电出版社,2011:127-187.
2Sun Yan-min,Kamel M S,Wong A K C. Cost-sensitive boosting for classification of imbalanced data. Patter Recognition Society [J]. Published by Elsevier Ltd, 2007:3358-3378.
3He Hai-bo, Garcia E A. Learning from imbalanced Data [J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9):1263-1284.
4Visa S,Ralescu A. Issues in Mining imbalaneed Data Sets-A Review Paper[C]//Proc. of MidWest Artificial Intelligence and Cognitive Science Conference (MAICS'05). Dayon, 2005: 67-73.
5Batista G E A P A,Prati R C,Monard M C. A study of the Behavior of several methods for balancing machine learning training data [J]. SIGKDD Explorations Special Issue on Learning from Imbalaneed Datasets, 2004,6 (1) : 20-29.
6Japkowicz N, Stepen S. The class imbalance problem: a systematic study[J]. Intell. Data Anal. J. , 2002,6 (5): 429-450.
7Weiss G,Provost F. Learning when training data are costly: the effect of class distribution on tree induction[J]. J. Aritif. Intell. Res. ,2003,19:315-354.
8Joshi M V. Learning classifier models for predicting rare phenomena[D]. University of Minnesota, Twin Cites, MN, USA, 2002.
9Japkowiez N, Stephen S. The class imbalance problem: a systematic study[J]. Intell. Data Anal. J., 2002,6(5): 429-450.
10Japkowicz N. Concept-learning in the presence of between-class and within-elass imbalance[C] //Proceedings of the Fourteenth Conference of the Canadian Society for Computational Studies of Intelligenee. Ottawa,Canada,June 2001: 67-77.

共引文献9

1孙全尚.不平衡数据集分类方法研究[J].科教文汇,2013(27):92-93. 被引量：4
2耿立伟.移动互联网通信传输最优端口选择方法仿真[J].计算机仿真,2016,33(12):257-260.
3邹永潘,王儒敬,李伟.随机森林算法在小麦育种辅助评价中的应用[J].计算机系统应用,2017,26(12):181-185. 被引量：5
4朱龙珠,宫立华,刘鲲鹏,杨菁,赵强.基于随机森林算法的投诉预警模型优化方法[J].电力信息与通信技术,2018,16(8):60-65. 被引量：6
5梁师哲,梁京章,梁成国.优化PSO-BP算法及其在校园网安全日志分类上的应用[J].网络安全技术与应用,2018(9):57-59. 被引量：2
6徐剑波,陈军林.利用区域化探数据推断地质体空间分布[J].地质与勘探,2019,55(5):1214-1222. 被引量：3
7赵伟光,陈磊,陈军林.机器学习方法在矿产勘查中的应用[J].世界有色金属,2021,46(1):1-5.
8李耀华,赵承辉,周逸凡,秦玉贵.基于数据驱动的永磁同步电机深度神经网络控制[J].电机与控制学报,2022,26(1):115-125. 被引量：21
9李耀华,刘东梅,赵承辉,刘子焜,王孝宇,陈桂鑫.基于CNN的MPTC与DTC自适应切换的表贴式永磁同步电机控制策略[J].电机与控制应用,2022,49(5):8-13. 被引量：3

同被引文献33

1钱进,苗夺谦,张泽华,张志飞.MapReduce框架下并行知识约简算法模型研究[J].计算机科学与探索,2013,7(1):35-45. 被引量：17
2喻骁芒,罗光明,朱珍民,叶剑.分布式光纤传感器周界安防入侵信号的多目标识别[J].光电工程,2014,41(1):36-41. 被引量：27
3单宁,刘霞.高精度双波长光纤F-P传感系统正交特性研究[J].压电与声光,2014,36(1):35-37. 被引量：1
4史达,杨洋.一种面向多层次异构信息平台的数据访问链路识别算法[J].信息与控制,2014,43(1):14-18. 被引量：5
5赵姝,吕靖,张燕平,张以文.不完整数据集的信息熵集成分类算法[J].模式识别与人工智能,2014,27(3):193-198. 被引量：6
6吴晶,吴晗平,黄俊斌,顾宏灿.光纤光栅传感信号边缘滤波解调技术研究进展[J].光通信技术,2014,38(4):38-41. 被引量：6
7余有龙,谭玲,李茜,王贤虎.压电陶瓷发热对光纤光栅传感信号干涉解调的影响[J].光学学报,2014,34(5):43-47. 被引量：13
8谢鑫,吴慧娟,饶云江.一种基于光纤布喇格光栅振动传感器的光纤围栏入侵监测系统及其模式识别[J].光子学报,2014,43(5):26-31. 被引量：21
9王超.基于光纤布拉格光栅的微波光子信号处理[J].数据采集与处理,2014,29(6):859-873. 被引量：3
10霍玉丹,谷琼,蔡之华,袁磊.基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法[J].计算机应用,2015,35(1):121-124. 被引量：19

引证文献2

1徐新爱.非平衡光纤传感数据集类间数据重合的识别与分离算法[J].激光杂志,2018,39(11):120-125.
2高志宇,宋学坤,肖俊生,闫培玲,孙新娟.基于神经网络的大规模数据集离群点检测算法[J].沈阳工业大学学报,2022,44(4):420-425. 被引量：7

二级引证文献7

1石钰,姜林,周茉.基于神经网络的量测数据检测及修正系统研究应用[J].吉林电力,2022,50(4):37-40.
2谭印,苏雯洁.基于局部信息熵的计算机网络高维数据离群点检测系统[J].现代电子技术,2024,47(10):91-95. 被引量：1
3关亮亮,田国红.基于超声辅助的汽车微小零部件内部缺陷无损检测方法[J].沈阳工业大学学报,2024,46(3):324-330. 被引量：1
4生力军,陈施奇.决策树算法在船舶自主巡航数据消冗中的应用[J].舰船科学技术,2024,46(12):157-161.
5朱华,乔勇进,董国钢.基于CART决策树的分布式数据离群点检测算法[J].现代电子技术,2024,47(16):157-162.
6王彩霞,陶健,舒升.基于机器学习的聚类序列离群点数据挖掘算法[J].通化师范学院学报,2024,45(8):28-34.
7崔钰,张福华,高少鹏,童乃刚.基于多域特征提取的电力数据离群点检测研究[J].电子设计工程,2024,32(20):130-133.

1娄铮铮,杨晨,叶阳东.基于数据选择模型的IB算法[J].电子学报,2014,42(9):1839-1846. 被引量：2
2姬波,叶阳东.非共现数据两阶段加权IB算法[J].小型微型计算机系统,2012,33(10):2278-2282.
3夏利民,谭立球,钟洪.基于信息瓶颈算法的图像语义标注[J].模式识别与人工智能,2008,21(6):812-818. 被引量：6
4姬波,叶阳东,卢红星.一种基于赋权联合概率模型的聚类算法[J].数据采集与处理,2016,31(1):130-138.
5娄铮铮,叶阳东,刘瑞娜.基于IB方法的无冗余多视角聚类[J].计算机研究与发展,2013,50(9):1865-1875. 被引量：6
6娄铮铮,叶阳东.基于最大化交叉互信息的对称IB算法[J].计算机学报,2016,39(8):1515-1527. 被引量：3
7谭立球,夏利民,谷士文.基于信息瓶颈算法的图像分割[J].计算机工程,2008,34(18):215-216.
8张宝峰,赵静,朱均超.一种基于肤色的快速人脸检测算法[J].微型机与应用,2013,32(12):38-41. 被引量：2
9辛伯宇.基于查询的XML数据库设计[J].电脑开发与应用,2013,26(11):32-33.
10柏战华,吕强.基于WebService和OPC技术的综合监控系统[J].微计算机信息,2008,24(7):54-55. 被引量：7

计算机科学

2016年第7期

浏览历史

内容加载中请稍等...

一种面向非平衡数据的多簇IB算法被引量：2

参考文献2

二级参考文献48

共引文献9

同被引文献33

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种面向非平衡数据的多簇IB算法 被引量：2

参考文献2

二级参考文献48

共引文献9

同被引文献33

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种面向非平衡数据的多簇IB算法被引量：2