基于最大信息系数和迭代式XGBoost的混合特征选择方法被引量：2

HYBRID FEATURE SELECTION METHOD BASED ON MAXIMUM INFORMATION COEFFICIENT AND ITERATIVE XGBOOST

下载PDF

导出

摘要中医药物质基础实验数据往往呈现特征维数较高、样本较少的特点,且该数据还存在较多的无关信息和冗余信息,给深入挖掘中医药物质信息带来了挑战。提出基于最大信息系数和迭代式XGBoost的混合特征选择方法,利用最大信息系数度量每维特征与目标变量间的相关性,并且按照某种评价准则实现无关特征的过滤和候选特征子集的获取;将候选子集进行排序与划分,依次采用XGBoost方法迭代剔除冗余特征,从而得到有效特征子集。实验结果表明,该方法能够选出数量较少且解释性较强的特征,且对中医药物质基础实验数据有较好的适应性。 Traditional Chinese medicine(TCM) basic experiments data often show the characteristics of higher feature dimensions and fewer samples, and the data still has more irrelevant information and redundancy, which has brought challenges to digging deeper into the information of Chinese medicine substances. This paper proposes a hybrid feature selection method based on maximum information coefficient and iterative XGBoost. This method used the maximum information coefficient to measure the correlation between each dimension feature and the target variable, implemented filtering for irrelevant features according to some evaluation criteria and obtained feature subsets. The candidate subsets were sorted and divided, and the XGBoost method was used to iteratively remove redundant features in order to obtain effective feature subsets. The experimental results show that the new method can select a small number of features with strong interpretation, and it has good adaptability to the experimental data of the basic materials of TCM.

作者熊玲珠邱伟涵罗计根李科定 Xiong Lingzhu;Qiu Weihan;Luo Jigen;Li Keding(College of Computer Science,Jiangxi University of Chinese Medicine,Nanchang 330004,Jiangxi,China;South China Normal University,Guangzhou 510631,Guangdong,China;Xiamen Xian Yue Hospital,Xiamen 361012,Fujian,China)

机构地区江西中医药大学计算机学院华南师范大学厦门仙岳医院

出处《计算机应用与软件》北大核心 2023年第1期280-286,305,共8页 Computer Applications and Software

基金国家自然科学基金项目(61363042,61562045,61762051) 江西省重点研发计划重点项目(20171ACE50021) 江西省科技厅科学技术研究项目(GJJ190683) 江西省研究生创新专项资金项目(YC2018-S281)。

关键词高维小样本特征选择 MIC 迭代式XGBoost 中医药信息 High dimensional small sample Feature selection MIC Iterative XGBoost TCM information

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献9

1孙广路,宋智超,刘金来,朱素霞,何勇军.基于最大信息系数和近似马尔科夫毯的特征选择方法[J].自动化学报,2017,43(5):795-805. 被引量：47
2胡敏杰,郑荔平,唐莉,林耀进.联合谱聚类与邻域互信息的特征选择算法[J].模式识别与人工智能,2017,30(12):1121-1129. 被引量：12
3叶明全,高凌云,伍长荣,万春圆.基于对称不确定性和SVM递归特征消除的信息基因选择方法[J].模式识别与人工智能,2017,30(5):429-438. 被引量：14
4孙刚,张靖.面向高维微阵列数据的混合特征选择算法[J].小型微型计算机系统,2015,36(6):1209-1213. 被引量：5
5彭瑶,祖辰,张道强.基于超图的多模态特征选择算法及其应用[J].计算机科学与探索,2018,12(1):112-119. 被引量：8
6周红标,乔俊飞.基于高维k-近邻互信息的特征选择方法[J].智能系统学报,2017,12(5):595-600. 被引量：13
7王翔,胡学钢.高维小样本分类问题中特征选择研究综述[J].计算机应用,2017,37(9):2433-2438. 被引量：33
8黄铉.特征降维技术的研究与进展[J].计算机科学,2018,45(B06):16-21. 被引量：24
9邓雪,江璐瑶,孙全德.多元统计分析方法的理论研究及应用分析[J].数学的实践与认识,2016,46(4):190-197. 被引量：19

二级参考文献53

1李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J].计算机学报,2006,29(2):324-330. 被引量：45
2毛勇,皮道映,刘育明,孙优贤.Accelerated Recursive Feature Elimination Based on Support Vector Machine for Key Variable Identification[J].Chinese Journal of Chemical Engineering,2006,14(1):65-72. 被引量：4
3RICHARDAJ,WICHERNDW.实用多元统计分析[M].陆璇,译.北京:清华大学出版社,2008.
4崔自峰,徐宝文,张卫丰,徐峻岭.一种近似Markov Blanket最优特征选择算法[J].计算机学报,2007,30(12):2074-2081. 被引量：15
5Kim Y S, Street W N, Menczer F. Data mining: opportunities and challenges[M] . Hershey: Idea Group Publishing ,2003.
6Saeys Y, Inza I, Larrafiaga P. A review of feature selection techniques in bioinformatics[J]. Bioinfonuatics,2007 ,23(19) :2507-2517.
7Wang Y H,Makedon F S,FordJ C. PearlmanJ. HykGenej a hybrid approach for selecting marker genes for phenotype classification u?sing microarray gene expression data[J]. Bioinformatics, 2005,21 (8) : 1530-1537.
8Golub T R, Slonim D K, Tamayo P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J]. Science, 1999 ,286(5439) :531-537.
9Robnik Sikonja M, Kononenko I. Theoretical and empirical analysis of ReliefF and RreliefF[J]. Machine Learning ,2003,53 (1-2) :23- 69.
10Hanczar B, Courtine M, Benis A, et al. Improving classification of microarray data using prototype-based feature selection[J] . ACM SIGKDD Explorations Newsletter ,2003,5 (2) :23-30.

共引文献160

1Yanji Sun,Yanqiu Pan,Zhongliang Zhou,Xin Li.Fuzzy comprehensive assessment of running condition for a large-scale centrifugal compressor set[J].Chinese Journal of Chemical Engineering,2019,27(12):2979-2988. 被引量：5
2郑睿程,顾洁,金之俭,彭虹桥,蔡珑.数据驱动与预测误差驱动融合的短期负荷预测输入变量选择方法研究[J].中国电机工程学报,2020,40(2):487-500. 被引量：37
3周金浛,于劲松,宋悦,梁思远.基于耦合自适应距离的高维异常检测算法[J].仪器仪表学报,2022,43(8):182-192.
4刘辉,曾鹏飞,巫乔顺,陈甫刚.基于改进遗传算法的转炉炼钢过程数据特征选择[J].仪器仪表学报,2019,40(12):185-195. 被引量：15
5王红霞,温绍洁.基于聚类和奇异值分解的协同过滤推荐算法[J].计算机应用研究,2020,37(S02):369-371. 被引量：1
6张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：20
7张伟,池宏,林志宏.大数据背景下基于过滤式-包裹式方法的高危人员风险预警[J].科技促进发展,2018,14(8):742-749.
8王铎.浅析多元统计分析及相关应用[J].中国经贸,2016,0(23):266-266. 被引量：1
9田梓君,崔新于.基于数据处理的肿瘤基因选择系统[J].无线互联科技,2017,14(8):35-36.
10陈欢.海上油田电潜泵耗电量影响因素综合评价方法[J].重庆科技学院学报（自然科学版）,2017,19(6):108-112. 被引量：5

同被引文献21

1孟亮,孟京.我国跨境电商企业海外仓模式选择分析——基于消费品出口贸易视角[J].中国流通经济,2017,31(6):37-44. 被引量：59
2郑宇翔,陈德慧,孙宇,姜雨含.我国跨境电商海外仓发展中存在的问题及对策研究[J].商业经济,2019(1):80-81. 被引量：9
3王斌,杨抒,贾清,赵毅,王业.ARIMA模型在电商平台新疆灰枣订单预测中的应用研究[J].福建电脑,2019,35(11):5-8. 被引量：6
4孟杭,黄细霞,涂修建.基于时间序列和Xgboost的钢卷仓储吞吐量预测[J].计算机应用,2019,39(S02):24-28. 被引量：9
5王丽红.基于BP-AdaBoost的电商短期销量预测模型[J].计算机系统应用,2021,30(2):260-264. 被引量：7
6田秋红,廖文琪,欧阳汉.基于XGBoost的大宗商品价格预测[J].企业科技与发展,2021(4):150-151. 被引量：2
7刘江,许康智,蔡伯根,郭忠斌,王剑.基于XGBoost的列控车载设备故障预测方法[J].北京交通大学学报,2021,45(4):95-106. 被引量：9
8黄国兴,曹先怀,钱晓飞.一种基于随机森林的备件预测模型研究[J].运筹与管理,2021,30(10):165-168. 被引量：7
9孙桐,徐斌,贾航.基于Bayes-BP算法的跨境电商平台采购量预测[J].计算机应用与软件,2021,38(12):91-96. 被引量：5
10罗妍,王枞,叶文玲.基于XGBoost和SHAP的急性肾损伤可解释预测模型[J].电子与信息学报,2022,44(1):27-38. 被引量：14

引证文献2

1李融.基于XGBoost算法的跨境电商备货预测研究[J].太原城市职业技术学院学报,2024(1):29-31.
2张凌翱.基于XGBoost和蚁群算法的特征选择方法[J].计算机科学与应用,2023,13(4):883-889.

1包瑞杰.中医"从咽论治"治疗IgA肾病的效果[J].黑龙江中医药,2022,51(3):79-81.
2刘贺,郭黎,李豪,张婉晨,白翔天.面实体匹配的集成学习CatBoost方法[J].地球信息科学学报,2022,24(11):2198-2211. 被引量：1
3本刊编辑部.本刊对来稿中关键词的有关要求[J].中华肿瘤杂志,2022,44(12):1351-1351.
4《中国中医药信息杂志》投稿指南[J].中国中医药信息杂志,2023,30(1).
5《中医药信息》稿约(2023年版)[J].中医药信息,2023,40(1).
6尚成英,何霞霞.高职医学生中医药健康文化素养调查研究[J].卫生职业教育,2023,41(3):114-116.
7《中国社区医师》杂志编排规范关键词著录标准[J].中国社区医师,2022,38(33):45-45.
8虞娟.基于混洗差分的Web查询大数据隐私保护方法[J].黑龙江工业学院学报（综合版）,2022,22(12):64-69. 被引量：2
9《中外医药研究》杂志编排规范关键词著录标准[J].中外医药研究,2022,1(10):86-86.
10饶臻,郑明.基于改进贝叶斯方法的基因调控网络构建[J].广西大学学报（自然科学版）,2022,47(6):1599-1610.

计算机应用与软件

2023年第1期

浏览历史

内容加载中请稍等...

基于最大信息系数和迭代式XGBoost的混合特征选择方法被引量：2

参考文献9

二级参考文献53

共引文献160

同被引文献21

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于最大信息系数和迭代式XGBoost的混合特征选择方法 被引量：2

参考文献9

二级参考文献53

共引文献160

同被引文献21

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于最大信息系数和迭代式XGBoost的混合特征选择方法被引量：2