改进随机森林算法在Android恶意软件检测中的应用被引量：3

Application of Improved Random Forest Algorithm in Android Malware Detection

下载PDF

导出

摘要 Random Forest作为一种常见的机器学习算法,不仅具备较高的分类回归性能,而且快速高效.传统的Random Forest算法并未在决策树的生成和选择上做深入研究,在本文中笔者提出一种降序去冗的寻优方式对机器学习中监督学习算法Random Forest进行改进,在保证准确率的同时减少随机森林的冗余度,并应用于Android系统的恶意软件检测.经过五折交叉验证法验证,改进的Random Forest算法能够在较低的冗余度下保证较高的准确率,同时改进的算法准确率在与同条件下的原算法的准确率以及OOB模型下的准确率相差在1%以内,在与单模型分类算法KNN和集成式学习算法Adaboost M1的对比试验中改进的Random Forest算法要优于以上两者. As a common machine learning algorithm, Random Forest not only has high classification and regression performance, but also fast and efficient. In this paper, the authors attempt to use a method called descending remove redundancy to improve the supervised learning random forest algorithm, and improved algorithm can reduce the redundancy while guaranteeing the accuracy, thus applied to malware detection in Android system. Five-fold cross validation method was used in the experiment, and the experimental data show that the improved random forest algorithm can guarantee the higher accuracy at the lowest redundancy,the error among the accuracy of the improved algorithm, the original algorithm and the OOB model under the same conditions are less than 1%, compared with the single model classification algorithm KNN and the ensemble learning algorithm Adaboost M1, the improved algorithm is better.

作者吴非吴向前陈晓燕

机构地区新疆大学信息科学与工程学院新疆大学资源与环境科学学院

出处《新疆大学学报（自然科学版）》 CAS 北大核心 2017年第3期322-327,共6页 Journal of Xinjiang University(Natural Science Edition)

基金国家自然科学基金(61303231)

关键词 RANDOM FOREST ANDROID 降序去冗寻优 Random Forest Android descending remove redundancy optimizing

分类号 TP316 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1苗煜飞,张霄宏.决策树C4.5算法的优化与应用[J].计算机工程与应用,2015,51(13):255-258. 被引量：32
2杨柳,王钰.泛化误差的各种交叉验证估计方法综述[J].计算机应用研究,2015,32(5):1287-1290. 被引量：65
3于光帅,于宪伟.一种改进的自适应遗传算法[J].数学的实践与认识,2015,45(19):259-264. 被引量：18
4王超学,张涛,马春森.面向不平衡数据集的改进型SMOTE算法[J].计算机科学与探索,2014,8(6):727-734. 被引量：23

二级参考文献56

1王莉.自适应遗传算法在PID控制器设计中的应用[J].西安科技大学学报,2005,25(1):93-95. 被引量：4
2鲍文胜,刘晓刚.基于自适应遗传算法的RBF神经网络优化算法[J].山东师范大学学报（自然科学版）,2007,22(3):37-39. 被引量：13
3VapnikVN.统计学习理论的本质[M].北京：清华大学出版社,2000..
4周明,孙树栋.遗传算法原理及应用[M].北京:国防工业出版社,2001.
5HASTIE T,TIBSHRANI R,FRIEDMAN J. The elements of statistical learning:data mining,inference,and prediction[M].New York:Springer,2001.
6WASSEMAN L. Bayesian model selection and model averaging[J].Journal of Mathematical Psychology,2000,44(1):92-107.
7SPIEGELHALTER D J,BES N G,CARLIN B P,et al. Bayesian measures of model complexity and fit[J].Statistical Methodology,2002,64(4):583-639.
8KADANE J B,LAZAR N A. Methods and criteria for model selection[J].Journal of the American Statistical Association,2004,99(465):279-290.
9FRONMONT M. Model selection by bootstrap penalization for classification[J].Machine Learning,2007,66(2-3):165-207.
10BENGIO Y,GRANDVALET Y. No unbiased estimator of variance of K-fold cross validation[J].Machine Learning,2004,5:1089-1105.

共引文献134

1陈学雷.基于改进遗传算法的矿井风网特征图优化研究[J].工矿自动化,2023,49(S02):71-74.
2李树甫,张大巧,苗磊.面向对地打击火力分配优化的遗传算法参数自适应取值方法[J].火箭军工程大学学报,2020(4):20-24.
3李文娟,赵放,郦敏杰,陈列,彭霞云.基于数值预报和随机森林算法的强对流天气分类预报技术[J].气象,2018,44(12):1555-1564. 被引量：34
4赵妍,崔浩瀚,荣子超.次同步振荡在线监测的同步提取变换和朴素贝叶斯方法[J].电力系统自动化,2019,43(3):187-192. 被引量：27
5余胜男,陈元芳,顾圣华,康有,贺冉冉.随机森林在降水量长期预报中的应用[J].南水北调与水利科技,2016,14(1):78-83. 被引量：20
6王秀美,牟少敏,时爱菊,浩庆波.局部支持向量回归在小麦蚜虫预测中的研究与应用[J].山东农业大学学报（自然科学版）,2016,47(1):52-56. 被引量：6
7宋康明,谭志祥,邓喀中,魏飞,王智福.利用随机森林回归模型预计水平移动系数[J].金属矿山,2016,45(6):180-184. 被引量：6
8陈弓.基于不平衡算法的恶意网络行为检测分析[J].信息技术与信息化,2016(8):121-125.
9姚程宽,光峰,卢灿举,曹立勇,詹喆.数据挖掘经典算法研究[J].广州航海学院学报,2016,24(3):47-49.
10王诗琦,赵书敏,耿江东,杨非,蒋忠进.变长增量型极限学习机及其泛化性能研究[J].计算机应用研究,2016,33(12):3696-3699. 被引量：3

同被引文献24

1张金峰,张武军.运用目标计算法对决定短跑成绩相关因素的计算与分析[J].西安体育学院学报,2004,21(S1):48-54. 被引量：1
2陈及治.从体质测试资料分析影响男生短跑成绩的因素[J].上海体育学院学报,1990,14(2):62-65. 被引量：6
3张仲华.短跑摆臂技术初探[J].上海体育学院学报,1983,7(3):31-32. 被引量：6
4陈杰,巢晓春.骨盆运动在短跑教学中的作用[J].南京体育学院学报（社会科学版）,1998,0(1):60-63. 被引量：2
5洪燕珠,周昌乐,张志枫,许家佗.基于随机森林法的慢性疲劳证候要素特征症状的选择[J].中医杂志,2010,51(7):634-638. 被引量：15
6王东阳,谢奇,史兵,郭斌.基于地理信息系统的青年男子短跑成绩与地理因素相关分析与评价——以陕西省为例[J].陕西师范大学学报（自然科学版）,2011,39(5):104-108. 被引量：2
7季成叶,廖文科,邢文华,于道中,张芯.中国11省市大学生皮褶厚度测定与体成分分析[J].体育科学,2000,20(2):60-64. 被引量：37
8郑礼雄,李青山,李素科,袁春阳.基于域名信息的钓鱼URL探测[J].计算机工程,2012,38(10):108-110. 被引量：9
9陈伟民,赵广才,彭鑫,胡颖,蔡绮君.ACTN3-C1747T、ACE-I/D基因多态性在运动员选才中的应用研究[J].医学综述,2013,19(9):1679-1681. 被引量：3
10刘宏,王永兴,许燕.云南省大学生体质健康与短跑的关系[J].中国学校卫生,2013,34(8):955-957. 被引量：1

引证文献3

1王斌,冯向萍,王业,杨抒,赵毅.基于数据挖掘的学业预警模型构建[J].新疆大学学报（自然科学版）,2020,37(2):183-189. 被引量：5
2胡文萍,林兢,张辉国.新疆伊犁青少年短跑成绩影响因素研究[J].新疆大学学报（自然科学版）（中英文）,2021,38(4):425-430.
3王欢欢,田生伟,禹龙,彭咏芳,裴新军.基于Bi-IndRNN的恶意URL分析与检测[J].新疆大学学报（自然科学版）,2019,36(2):174-181. 被引量：1

二级引证文献6

1陆爱武.数据挖掘的高校实验室管理水平评价模型[J].现代电子技术,2021,44(11):130-134. 被引量：1
2潘翔,郭璇,吴文辉,肖治庭.基于RF-Apriori混合算法的关键涉恐特征关联规则挖掘[J].火力与指挥控制,2022,47(7):89-96. 被引量：4
3崔佳杉,年梅,张俊.基于XGBoost算法的学业成绩预警模型研究[J].计算机与数字工程,2022,50(8):1637-1640. 被引量：1
4赵世雄,韩斌,张紫妍.基于CNN-XGBoost的恶意URL检测[J].软件导刊,2023,22(5):150-157.
5徐勇.数字化课程混合式教学预警的影响因素分析[J].湖北经济学院学报（人文社会科学版）,2023,20(10):138-140.
6郭召,张子涵,刘艺.高校学生全画像学业成绩预警模型分析[J].计算机应用文摘,2024,40(3):16-19.

1张小霞.一种基于XML与关系数据库的映射算法[J].计算机与数字工程,2011,39(2):52-56. 被引量：1
2廖周宇.基于Lab色彩模型的FCM图像分割研究[J].软件导刊,2017,16(5):183-185. 被引量：6
3卢光跃,董静怡,岳赟,刘迪.基于主成分分析和分类回归树的客户欠费预测[J].西安邮电大学学报,2017,22(3):29-33. 被引量：5
4李锋,万小强.基于关联矩阵的短信自动分类[J].计算机科学,2017,44(S1):428-432.
5Hong-Ge Ren,Wei-Min Liu,Tao Shi,Fu-Jin Li.Compressive Tracking Based on Online Hough Forest[J].International Journal of Automation and computing,2017,14(4):396-406. 被引量：2
6江红豆,李敬文,曹道通,江世明.随机图的邻点可区别VI-均匀全染色算法[J].计算机工程与应用,2017,53(15):41-46.
7吴及.语音输入法为何这么准?[J].科学世界,2017,0(6):100-105.
8师泽源,赵俭辉,张文昱,胡勇,武小平.基于扩展场强模型的稀疏AQI空间插值新算法[J].武汉大学学报（信息科学版）,2017,42(7):968-974. 被引量：3
9独立平台,速度更快,操作更简单:TwinCAT HMI[J].国内外机电一体化技术,2017,0(3):31-33.
10吴汶泰,詹璨铭.基于Zynq的AXI总线数据传输软件优化[J].通信技术,2017,50(7):1576-1580. 被引量：17

新疆大学学报（自然科学版）

2017年第3期

浏览历史

内容加载中请稍等...

改进随机森林算法在Android恶意软件检测中的应用被引量：3

参考文献4

二级参考文献56

共引文献134

同被引文献24

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

改进随机森林算法在Android恶意软件检测中的应用 被引量：3

参考文献4

二级参考文献56

共引文献134

同被引文献24

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

改进随机森林算法在Android恶意软件检测中的应用被引量：3