期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

面向非均衡数据的二进制排队搜索特征选择机制

Feature selection mechanism based on binary queue search for unbalanced data

下载PDF

导出

摘要非均衡数据(分类不均匀分布)和冗余特征的出现极大增加了数据准确分类的难度.以最优化学习算法的预测准确率为目标,结合合成少数过采样技术SMOTE,设计了一种针对非均衡数据的二进制排队搜索方法的包装式特征选择算法BQSA,利用PROMISE知识库中十四种软件故障预测数据集进行实验分析.测试了数据集过采样比例的影响,证实合成少数过采样对高度非均衡数据的分类预测具有正面影响,并得到了最佳过采样率;比较了BQSA与同类算法的性能,证实结合合成少数过采样技术的BQSA算法拥有更优的预测准确性,在分类敏感度、专一性以及曲线下面积AUC等指标上表现更佳. The unbalanced data(non-uniform distribution of classes)and the redundant features dramatically increased the difficulty of data accurate classification.Taking the prediction accuracy of the optimal learning algorithm as the goal,combined with the synthetic minority oversampling technology SMOTE,a wrapper feature selection algorithm BQSA was desigend for binary queue search method of unbalanced data.Using 14 kinds of software fault prediction in PROMISE knowledge base to conduct experimental analysis of datasets.The influence of the over-sampling ratio of the dataset is tested,and it is proved that the synthesis of a few over-sampling has a positive effect on the classification prediction of highly unbalanced data,and the optimal over-sampling rate is obtained.The performance of BQSA is compared with similar algorithms,and it is proved that the BQSA algorithm combined with synthetic minority oversampling has better prediction accuracy and better performance in classification sensitivity,specificity and AUC of area under the curve.

作者郭嘉 GUO Jia(School of Electronic Information Engineering,Zhengzhou Sisa University,Zhengzhou 451150,Henan,China)

机构地区郑州西亚斯学院电子信息工程学院

出处《微电子学与计算机》 2021年第8期45-52,共8页 Microelectronics & Computer

基金国家自然科学基金项目(62110817) 河南省高等学校重点科研项目(19B520028,19B520029)。

关键词特征选择非均衡数据排队搜索算法合成少数过采样学习算法 feature selection imbalanced data queuing search algorithm synthetic minority oversampling learning algorithm

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1邬开俊,鲁怀伟.采用并行协同进化遗传算法的文本特征选择[J].系统工程理论与实践,2012,32(10):2215-2220. 被引量：11
2李志鹏,李卫忠.基于可拓小生境量子粒子群算法的特征选择[J].数据分析与知识发现,2017,1(7):82-89. 被引量：4

二级参考文献21

1于晓义,孙树栋,褚崴.基于并行协同进化遗传算法的多协作车间计划调度[J].计算机集成制造系统,2008,14(5):991-1000. 被引量：26
2孙洋.粒子群算法的改进及其在文本分类上的应用[J].中央民族大学学报（自然科学版）,2008,17(3):57-62. 被引量：4
3李欢,焦建民.简化的粒子群优化快速KNN分类算法[J].计算机工程与应用,2008,44(32):57-59. 被引量：15
4林令娟,刘希玉.基于微粒群优化的快速K-近邻分类算法[J].山东科学,2009,22(1):13-16. 被引量：2
5XU Yan.A formal study of feature selection in text categorization[J].通讯和计算机（中英文版）,2009,6(4):32-41. 被引量：15
6朱颢东,钟勇.基于并行二进制免疫量子粒子群优化的特征选择方法[J].控制与决策,2010,25(1):53-58. 被引量：8
7张珂,黄永峰,李星.一种基于适应度和节点聚类的P2P拓扑建模方法[J].电子学报,2010,38(7):1634-1640. 被引量：5
8拓守恒.基于改进PSO的SVM文本分类研究[J].电脑开发与应用,2010,23(10):3-5. 被引量：3
9谭德坤.基于混沌微粒群算法的文本分类研究[J].计算机应用研究,2010,27(12):4464-4466. 被引量：2
10付强,王刚,王明宇,王锦江,李松.基于小生境遗传算法的制导雷达误差估计[J].空军工程大学学报（自然科学版）,2011,12(6):50-53. 被引量：6

共引文献11

1吴真松,张丹.粗糙集理论在旅游研究领域的应用及评析[J].旅游论坛,2014,7(4):17-21. 被引量：2
2常瑞花.基于组织协同进化的软件缺陷预测方法[J].火力与指挥控制,2015,40(7):126-130.
3李亚楠,郭海湘,刘晓,李诒靖.基于自适应差分演化的特征选择算法在石油储层识别中的应用[J].系统工程理论与实践,2015,35(11):2968-2979.
4王柏琳,李铁克,王海凤.安装时间和机器受限的订单接受与并行机调度[J].工程科学学报,2019,41(4):528-538. 被引量：3
5李岸达,何桢,何曙光.基于NSGA-Ⅱ的非平衡制造数据关键质量特性识别[J].系统工程理论与实践,2016,36(6):1472-1479. 被引量：8
6孔倩,王杜娟,王延章,JIN Yaochu,江彬.基于多目标神经网络的前列腺癌诊断方法[J].系统工程理论与实践,2018,38(2):532-544. 被引量：7
7温廷新,李洋子,孙静霜.基于改进的果蝇优化算法的文本特征选择优化模型[J].数据分析与知识发现,2018,2(5):59-69. 被引量：3
8谢莹,许荣斌.基于Harmonic函数的自动试题标注模型[J].韶关学院学报,2018,39(6):1-6.
9袁明锋,步中华,王强.融入混沌与对立学习机制的二进制粒子群特征选择算法[J].计算机应用与软件,2022,39(10):274-284. 被引量：3
10刘泓铄,王诗瑶,周灵鸽,张建锋.基于改进灰狼优化的文本聚类多阶段特征选择算法[J].计算机应用与软件,2023,40(3):316-324. 被引量：4

1武瑛,高萌瑶,张雪林.过采样技术下Shannon采样重构的任意慢收敛[J].工程数学学报,2021,38(4):513-521. 被引量：2
2王立梅,朱旭光,汪德嘉,张勇,邢春晓.基于深度学习的民事案件判决结果分类方法研究[J].计算机科学,2021,48(8):80-85. 被引量：8
3张彦晖,吕娜,刘鹏飞,陈卓.基于卷积注意力门控循环网络的加密流量分类方法[J].信号处理,2021,37(7):1180-1188. 被引量：8

微电子学与计算机

2021年第8期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部