自适应插值与特征压缩的小样本数据分类研究被引量：3

Adaptive Interpolation and Feature Compression for Small Sample Data Classification Study

下载PDF

导出

摘要大数据的类别不平衡与维度爆炸问题严重影响着算法的预测效率和分类精度。因此,提出了一种基于插值与特征压缩的大数据分类方法ASE-RFXT。改进ADASYN(adaptive synthetic sampling approach)的插值中心,减少了噪声的引入,改善了少数类样本的分布。改进ReliefF(特征权重法),并将它与集成算法XGDT(extreme gradient dart tree)结合对特征进行并行加权,减少了权重受异常值的影响,使得评估更加准确。利用特征之间的相关性过滤低权重冗余特征,以XGDT的分类精度为评价指标通过SFS(sequential forward selection)压缩特征。实验结果表明ASE-RFXT方法可以降低特征维度,节约训练时间,提高不平衡小样本数据的分类精度。 The problem of category imbalance and dimensional explosion in big data seriously affects the prediction efficiency and classification accuracy of algorithms.Therefore,a classification method ASE-RFXT based on interpolation and feature compression under big data is proposed.Firstly,the interpolation center of ADASYN(adaptive synthetic sampling approach)is improved to reduce the introduction of noise and improve the distribution of minority samples.Secondly,it improves ReliefF and combines with the integrated algorithm XGDT(extreme gradient dart tree)for parallel weighting of features,which reduces the influence of weights by outliers and makes the evaluation more accurate.Finally,it filters low weight redundant features by the correlation between the features,and compresses the features by SFS(sequential forward selection)with the classification accuracy of XGDT as the evaluation index.Experimental results show that the ASE-RFXT algorithm can reduce the feature dimensionality,save training time,and improve the accuracy of classification of unbalanced data.

作者孙永明杨进 SUN Yongming;YANG Jin(School of Science,University of Shanghai for Science and Technology,Shanghai 200093,China)

机构地区上海理工大学理学院

出处《计算机工程与应用》 CSCD 北大核心 2022年第1期106-112,共7页 Computer Engineering and Applications

基金国家教育部人文社科规划基金(16YJA630037) 上海市一流学科建设项目(S1201YLXK)。

关键词极限梯度提升特征选择自适应采样特征加权 extreme gradient boosting feature selection adaptive sampling feature weighted

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1张忠林,曹婷婷.基于重采样与特征选择的不均衡数据分类算法[J].小型微型计算机系统,2020,41(6):1327-1333. 被引量：16
2张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：21
3初蓓,李占山,张梦林,于海鸿.基于森林优化特征选择算法的改进研究[J].软件学报,2018,29(9):2547-2558. 被引量：18
4周传华,柳智才,丁敬安,周家亿.基于filter+wrapper模式的特征选择算法[J].计算机应用研究,2019,36(7):1975-1979. 被引量：20
5李校林,吴腾,郭有庆.融合邻域判别指数的混合式特征选择算法[J].小型微型计算机系统,2019,40(11):2285-2290. 被引量：3
6张爱武,董喆,康孝岩.基于XGBoost的机载激光雷达与高光谱影像结合的特征选择算法[J].中国激光,2019,46(4):142-150. 被引量：33
7王丰,王亚沙,王江涛,熊昊一,赵俊峰,张大庆.基于智能手机感知数据的心理压力评估方法[J].计算机研究与发展,2019,56(3):611-622. 被引量：12

二级参考文献38

1田艳琴,郭平,卢汉清.基于灰度共生矩阵的多波段遥感图像纹理特征的提取[J].计算机科学,2004,31(12):162-163. 被引量：30
2毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
3朱颢东,钟勇.基于改进的ID3信息增益的特征选择方法[J].计算机工程,2010,36(8):37-39. 被引量：8
4刘庆和,梁正友.一种基于信息增益的特征优化选择方法[J].计算机工程与应用,2011,47(12):130-132. 被引量：55
5程险峰,李军,李雄飞.一种基于欠采样的不平衡数据分类算法[J].计算机工程,2011,37(13):147-149. 被引量：21
6姚旭,王晓丹,张玉玺,权文.特征选择方法综述[J].控制与决策,2012,27(2):161-166. 被引量：207
7李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：63
8臧卓,林辉,杨敏华.ICA与PCA在高光谱数据降维分类中的对比研究[J].中南林业科技大学学报,2011,31(11):18-22. 被引量：21
9王光,邱云飞,史庆伟.集合CHI与IG的特征选择方法[J].计算机应用研究,2012,29(7):2454-2456. 被引量：22
10李静,杨玉倩,沈伟,李丹,周华.基于灰度共生矩阵的织物纹理研究[J].现代纺织技术,2013,21(3):12-16. 被引量：9

共引文献116

1王建义,蒋金元,任光荣,朱牧,华润龄,邓敏.鹳蟅合剂对实验性肝纤维化大鼠的疗效观察[J].江苏中医,2000,21(1):40-41. 被引量：2
2张国伦.难治性心力衰竭辨治举隅[J].甘肃中医学院学报,2000,17(1):39-40. 被引量：5
3许霖庆.高新技术在园艺上的应用（二）[J].花卉,2000(3):10-20.
4魏康园,何庆,徐钦帅.一种改进森林优化的K-means聚类算法[J].贵州大学学报（自然科学版）,2018,35(6):69-75. 被引量：8
5王建仁,马鑫,段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用,2019,55(8):27-33. 被引量：109
6吴清寿,刘长勇,林丽惠.融合序列后向选择与支持向量机的混合式特征选择算法[J].计算机系统应用,2019,28(7):174-179. 被引量：5
7曹杰.大数据审计中的特征工程[J].江苏商论,2019,0(9):31-34. 被引量：3
8杨长春,徐筱,宦娟,田迎春,经德林.基于随机森林的学生画像特征选择方法[J].计算机工程与设计,2019,40(10):2827-2834. 被引量：15
9赵生银,安如.基于特征挖掘的高光谱遥感图像识别研究[J].亚热带资源与环境学报,2019,14(3):87-94. 被引量：3
10刘孟迪,徐连诚,伊静,黄杰.基于信息共享的二次特征选择算法[J].计算机工程与设计,2019,40(9):2517-2522. 被引量：2

同被引文献43

1张宝童.数据融合可视化在线评估系统的设计与实现[J].科技视界,2013(8):12-14. 被引量：1
2李少华,杨奕飞,凌晓冬.航天测控系统多数据源融合评估方法[J].江苏科技大学学报（自然科学版）,2017,31(4):473-478. 被引量：7
3陈嘉圣,李泓波,罗正德,李泽钦,彭攀宇,黄梓琛.蚁群算法可视化软件的设计和实现[J].无线互联科技,2019,16(10):33-34. 被引量：2
4姚树春,刘正,张强.基于混合遗传算法与互信息分析的高维小样本特征选择[J].计算机应用与软件,2020,37(1):247-255. 被引量：6
5田浩楠,周晖.基于BSO-OS算法的两阶高维数据特征选择[J].计算机工程与设计,2020,41(3):695-700. 被引量：4
6曾海亮,林耀进,唐莉,王晨曦.利用特征扰动的高维小样本数据子空间学习[J].江苏科技大学学报（自然科学版）,2020,34(1):62-68. 被引量：2
7夏齐鸣,刘晓强.AI算法可视化辅助教学系统的设计和实现[J].电脑知识与技术,2020,16(14):41-43. 被引量：5
8陈旺虎,田真,张礼智,梁小燕,高雅琼.基于插值的高维稀疏数据离群点检测方法[J].计算机工程与科学,2020,42(6):966-972. 被引量：8
9张忠林,曹婷婷.基于重采样与特征选择的不均衡数据分类算法[J].小型微型计算机系统,2020,41(6):1327-1333. 被引量：16
10曾海亮,林耀进,王晨曦,陈祥焰.利用一致性分析的高维类别不平衡数据特征选择[J].小型微型计算机系统,2020,41(9):1946-1951. 被引量：4

引证文献3

1徐成桂,徐广顺.基于模糊数学理论的高维小样本数据特征分类系统[J].现代电子技术,2022,45(23):166-170. 被引量：1
2郭婉,侯睿,李彭伟.基于Web的数据融合流程可视化分析技术[J].指挥信息系统与技术,2023,14(2):81-86.
3刘梓健,陈超鸿.可编程逻辑器件间的大数据自适应跟踪系统设计[J].电子设计工程,2024,32(19):119-123.

二级引证文献1

1杨知玲.基于随机平衡采样的不确定大数据流在线分类算法[J].现代电子技术,2023,46(19):125-128.

1侯栋宸,季嘉泓,王建喜,孙永辉,王森,金洪洪.基于伪量测自适应插值策略的发电机动态状态估计[J].高电压技术,2021,47(7):2359-2366. 被引量：12
2刘金平,周嘉铭,刘先锋,唐朝晖,马天雨.基于聚类簇结构特性的自适应综合采样法在入侵检测中的应用[J].控制与决策,2021,36(8):1920-1928. 被引量：7
3刘小杰,郜广兰,任刚,狄文辉.高码率下帧间亚像素自适应插值[J].科技视界,2021(30):55-57.
4邢培银,刘晓非,田永鸿.面向数字视网膜的端边云协同启发式计算分配方法[J].人工智能,2021(5):115-128. 被引量：4
5魏忠诚,冯浩,张新秋,连彬.基于注意力机制的物理对抗样本检测方法研究[J].计算机应用研究,2022,39(1):254-258. 被引量：5
6赵小虎,葛曼玲,陈盛华,王磊,宋子博,谢冲,杨泽坤.静息态功能磁共振成像的脑网络特征融合在机器学习识别自闭症中应用[J].磁共振成像,2021,12(12):55-61. 被引量：3
7Bolun Chen,Guochang Zhu,Min Ji,Yongtao Yu,Jianyang Zhao,Wei Liu.Air Quality Prediction Based on Kohonen Clustering and ReliefF Feature Selection[J].Computers, Materials & Continua,2020(8):1039-1049.
8Ejay Nsugbe,Oluwarotimi Williams Samuel,Mojisola Grace Asogbon,Guanglin Li.Phantom motion intent decoding for transhumeral prosthesis control with fused neuromuscular and brain wave signals[J].IET Cyber-Systems and Robotics,2021,3(1):77-88. 被引量：3

计算机工程与应用

2022年第1期

浏览历史

内容加载中请稍等...

自适应插值与特征压缩的小样本数据分类研究被引量：3

参考文献7

二级参考文献38

共引文献116

同被引文献43

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

自适应插值与特征压缩的小样本数据分类研究 被引量：3

参考文献7

二级参考文献38

共引文献116

同被引文献43

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

自适应插值与特征压缩的小样本数据分类研究被引量：3