随机森林针对小样本数据类权重设置被引量：19

Setting of class weights in random forest for small-sample data

下载PDF

导出

摘要随机森林已经被证明是一种高效的分类与特征选择方法。尽管参数的设置对结果影响较小,但合适的参数可以使分类器得到理想的效果。主要针对癌症研究中小样本不均衡数据的分类和特征选择问题,研究了随机森林中类权重的设置。为了比较在不同的类权重下特征选择的效果,同时使用支持向量机(Support Vector Machine,SVM)方法。最终结果显示最优的类权重是不确定的。最后总结出几条规律指导研究者选择合适的权重使分类和特征选择效果得到改善。 Random forest has been proved to be an efficient algorithm for classification and feature selection in bioinformatics.Although the effect of parameter setting on results is very limited,a group of appropriate parameters can generate excellent performance.This paper focuses on the setting of class weights in random forest to deal with classification and feature selection prob- lems of unbalanced small-sample data and determines the optimal class weight.In order to compare the performance of feature selection with different weights,SVM is applied in the paper.The results show that optimal class weight is variable and cannot form a standard.However,people can find some weights with which not only classification but also feature selection can get better performance.

作者李建更高志坤

机构地区北京工业大学人工智能与机器人研究所

出处《计算机工程与应用》 CSCD 北大核心 2009年第26期131-134,共4页 Computer Engineering and Applications

基金国家自然科学基金No.60234020 北京市自然科学基金No.4092021 北京市教育委员会科技计划项目No.JC002011200903~~

关键词随机森林类权重小样本支持向量机特征选择 random forest class weight small-sample Support Vector Machine（SVM ） feature selection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1Breiman L.Random forest[J].Machine Learning,2001,45 : 5-32.
2Stolfo S .J Fan D W S,Lee W,et al.Credit card fraud detection using meta-learning:Issues~nd initial resuhs[C]//AAAI-97 Wrokshop on AI Methods in Fraud and Risk Mangement,1997.
3Pednanlt E P D,Rosen B K,Apte C.Handling imbalanced data sets in insurance risk modeling,Technical Report RC-21731[R].IBM Research Report, 2000-03.
4Batista G E A P A,Bazzan A L C.Balancing training data for automated annotation of keywords:A case study[C]//Proe of the Second Brazilian Workshop on Bioinformaties,SBC,2003.
5Kubar M,Matwin S.Addressing the course of imbalanced training sets:One-sided selection[C]//Proceedings of 14th International Conference in Machine Learning,San Francisco,CA,1997:179-186.
6Breiman L,Freidman J.Classification and regression trees [M].[S.l.]: Wadsworth, 1984.
7张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
8Liu X Y,Wu J.Exploratory under-sampling for class-imbalance learning[C]//Proceedings of the 6th IEEE International Conference on Data Mining(ICDM'06),Hong Kong,China,2006.
9Chawla N V,Bowyer K W.SMOTE:Synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16: 321-357.
10Chen C,Liaw A,Breiman L.Using random forest to learn imbalanced data,Technical Report 666[R].Statistics Department,University of California at Berkeley, 2003.

二级参考文献2

1Hull D A.Improving text retrieval for the routing problem using latent semantic indexing[].Proceedings of the th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.1994
2Sebastiani F.Machine learning in automated text categorization[].ACM Computing Surveys.2002

共引文献25

1赵小明,孙晓璇,李攀,胡绍波.基于决策树分类算法的平行志愿填报及研究[J].思想战线,2010,36(S1):348-351. 被引量：2
2周荃,王崇骏,王王君,陈世福.PC4.5:用于不均衡数据集的C4.5改进算法[J].计算机辅助工程,2006,15(3):23-26. 被引量：2
3周立兵,柳景超.贝叶斯理论在垃圾邮件过滤中的应用分析[J].网络安全技术与应用,2006(11):68-69. 被引量：1
4岳训,迟忠先,葛平俱,莫宏伟,郝艳友.基于网络社区结构的训练集非均衡程度度量方法[J].小型微型计算机系统,2007,28(8):1427-1433.
5赵凤英,王崇骏,陈世福.用于不均衡数据集的挖掘方法[J].计算机科学,2007,34(9):139-141. 被引量：5
6李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：103
7李艳玲,戴冠中,余梅.基于反馈信息的特征权重调整方法[J].计算机工程,2009,35(2):206-207. 被引量：3
8欧阳勇,马忠宝.一种动态调整训练集的中文文本分类系统[J].湖北工业大学学报,2009,24(5):57-60.
9白凤凤.基于不平衡数据集的文本分类技术研究[J].电脑编程技巧与维护,2010(6):21-22. 被引量：1
10栾盛磊.决策树算法在未成年人犯罪成因中的应用研究[J].山东行政学院山东省经济管理干部学院学报,2010(4):142-145.

同被引文献236

1窦慧洋,毛际翔,付峰.基于MR大数据的LTE网络质量虚拟测试方法[J].信息通信,2019,32(11):232-236. 被引量：1
2杨春燕,王静爱,苏筠,王志强.农业旱灾脆弱性评价——以北方农牧交错带兴和县为例[J].自然灾害学报,2005,14(6):88-93. 被引量：31
3贺方杰,关宏志,韩艳.核心-边缘理论在城市旅游公路网布局规划中的应用[J].交通信息与安全,2013,31(4):89-95. 被引量：6
4林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
5刘长云,丁艳,王永芹,季加芬,陈景武.非综合征性唇腭裂高危因素与发病预测模型研究[J].中国实用口腔科杂志,2009,2(8):465-468. 被引量：1
6李建军,辛景树,张会民,段建军,任意,孙楠,徐明岗.长江中下游粮食主产区25年来稻田土壤养分演变特征[J].植物营养与肥料学报,2015,21(1):92-103. 被引量：47
7栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96. 被引量：110
8董观志,杨凤影.旅游景区游客满意度测评体系研究[J].旅游学刊,2005,20(1):27-30. 被引量：338
9徐贵华,王忆勤,李福凤.计算机技术在中医舌象客观化研究中的应用进展[J].上海中医药大学学报,2005,19(2):56-59. 被引量：14
10万克江,薛绪掌,王志敏,高志远,马智宏.土壤水分状况对小麦苗期生长及生理特性的影响[J].干旱区资源与环境,2005,19(5):169-173. 被引量：12

引证文献19

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323. 被引量：2
2李军华,吴炜,何艳,姚金铸,吴晓红,邓波.近红外光谱对天然岩石中矿物成分含量测定的研究[J].光谱学与光谱分析,2013,33(1):85-88. 被引量：21
3黄衍,查伟雄.随机森林与支持向量机分类性能比较[J].软件,2012,33(6):107-110. 被引量：69
4郭丽娟,倪子伟,江弋,邹权.集成降采样不平衡数据分类方法研究[J].计算机科学与探索,2013,7(7):630-638. 被引量：3
5郭天楚,吴晓雨,杨磊,黄向生.基于改进的随机森林的人体部件识别[J].中国传媒大学学报（自然科学版）,2014,21(5):32-38. 被引量：1
6林棋,张宏,李千目.一种基于MA-LSSVM的封装式特征选择算法[J].南京理工大学学报,2016,40(1):10-16. 被引量：7
7胡小生,温菊屏,钟勇.动态平衡采样的不平衡数据集成分类方法[J].智能系统学报,2016,11(2):257-263. 被引量：13
8阚红星,张璐瑶,董昌武.一种2型糖尿病中医证型的舌图像识别方法[J].中国生物医学工程学报,2016,35(6):658-664. 被引量：30
9宫振华,王嘉宁,苏翀.一种加权的深度森林算法[J].计算机应用与软件,2019,36(2):274-278. 被引量：14
10侯慧,耿浩,肖祥,黄勇,吴昊,李显强,于士文.台风灾害下用户停电区域预测及评估[J].电网技术,2019,43(6):1948-1954. 被引量：19

二级引证文献197

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323. 被引量：2
2吴平,燕海霞,徐琎,王忆勤.以图示象——舌象图发展溯源及其在国际标准中的价值[J].世界科学技术-中医药现代化,2023(6):2217-2222.
3田之魁,王东军,李生启,关媛媛,孙璇,朱青青,王泓午.一种糖尿病足Wagner分级的舌图像识别方法[J].世界科学技术-中医药现代化,2023,25(4):1442-1446. 被引量：2
4潘思行,林育,周苏娟,黄展鹏.基于神经网络和支持向量机的中医体质辨识模型研究[J].世界科学技术-中医药现代化,2020,22(4):1341-1347. 被引量：13
5付旭东,王金艳,李龙燕,陈金车,苏士翔,常伟,王明.基于随机森林算法的风场预报[J].兰州大学学报（自然科学版）,2021,57(4):503-509. 被引量：6
6滕军放,连亚军,陈叶柔.尼立苏和尼莫通治疗脑梗塞的疗效比较[J].中国新药杂志,2000,9(2):111-112.
7陈满英,冯艳,刘付建,陈纪文,沈宏林.近红外水性墙面涂料常用乳液类型鉴定研究[J].广州化工,2013,41(20):99-101. 被引量：1
8蒋雪松,陆辉山,张林,闫宏伟,高强,王福杰.基于近红外光谱对老陈醋的pH值和可溶性固形物定量与定性的检测研究[J].红外技术,2013,35(11):737-740. 被引量：3
9张林,陆辉山,闫宏伟,高强,王福杰,宋海燕.煤粉发热量近红外光谱检测的预处理方法研究[J].光谱学与光谱分析,2013,33(12):3212-3215. 被引量：8
10吴志春,郭福生,刘林清,姜勇彪.相山铀矿田碎斑熔岩岩石光谱与磁化率关系[J].光谱学与光谱分析,2013,33(12):3282-3285. 被引量：3

1陈景年,黄厚宽,田凤占,瞿有利.一种用于贝叶斯分类器的文本特征选择方法[J].计算机工程与应用,2008,44(13):24-26. 被引量：6
2周绍磊,廖剑,史贤俊.基于Fisher准则和最大熵原理的SVM核参数选择方法[J].控制与决策,2014,29(11):1991-1996. 被引量：15
3未来的网络应用潮流[J].中国教育网络,2008(7):24-25.
4袁琴琴,吕林涛.基于改进蚁群算法与遗传算法组合的网络入侵检测[J].重庆邮电大学学报（自然科学版）,2017,29(1):84-89. 被引量：31
5王行恒,曹军,邓学,刘垚,高适.基于循环迭代算法改进的TFIDF方法及应用[J].计算机应用与软件,2012,29(11):305-308. 被引量：2
6吴捷,唐红锁.基于离散小波—奇异值分解的多水印嵌入算法[J].计算机系统应用,2015,24(8):181-185. 被引量：1
7赵军阳,张志利.基于模糊粗糙集信息熵的蚁群特征选择方法[J].计算机应用,2009,29(1):109-111. 被引量：11
8冯林,李聪,沈莉.基于邻域粗糙集与量子遗传算法的人脸表情特征选择方法[J].合肥工业大学学报（自然科学版）,2013,36(1):39-42. 被引量：4
9Kohji Ohbayashi,D.Choi.利用下一代医学成像技术及PXI模块化仪器系统与NI LabVIEW进行进展性癌症研究[J].电子技术应用,2008,34(11):20-20.
10陈运迪.分形理论:大自然的几何学[J].计算机教育,2004(7):39-40. 被引量：6

计算机工程与应用

2009年第26期

浏览历史

内容加载中请稍等...

随机森林针对小样本数据类权重设置被引量：19

参考文献14

二级参考文献2

共引文献25

同被引文献236

引证文献19

二级引证文献197

相关作者

相关机构

相关主题

浏览历史

随机森林针对小样本数据类权重设置 被引量：19

参考文献14

二级参考文献2

共引文献25

同被引文献236

引证文献19

二级引证文献197

相关作者

相关机构

相关主题

浏览历史

随机森林针对小样本数据类权重设置被引量：19