-
题名基于集成学习算法的恶意软件感染二分类预测
被引量:3
- 1
-
-
作者
张银杰
揣锦华
翟晓惠
-
机构
长安大学信息工程学院
-
出处
《计算机技术与发展》
2021年第5期15-20,共6页
-
基金
国家重点研发计划“综合交通运输与智能交通”专项(2018YFB1600200)。
-
文摘
对随机森林和LightGBM两种集成学习算法在恶意软件感染二分类预测中的应用进行了研究。针对恶意软件感染预测数据集,通过预处理修正异常值,选择合适的编码方式处理数据集中不同类型的数据;进行特征工程处理,包括原始特征的构建并对部分特征进行拆分,构建时间戳特征以补充缺失的时间信息;使用基于Bagging集成的随机森林算法得到特征重要性分数,并按照从高到低的顺序排列以发现对预测恶意软件感染影响较大的因素;根据重要性分数划分出含有不同特征的数据集,分别选择随机森林和基于Boosting集成的LightGBM算法建立预测模型,根据随机森林的AUC值变化评估出最合适的特征集以实现降维过程;选择传统决策树与集成学习算法比较五折交叉验证结果。实验结果表明:集成学习算法在预测过程中能够确定合适的特征数量,且预测性能明显高于传统决策树算法。
-
关键词
集成学习
恶意软件感染
二分类预测
随机森林
LightGBM
特征工程
-
Keywords
integrated learning
malware infection
binary prediction
random forest
LightGBM
feature engineering
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名高斯判别模型对人类心脏疾病的预测分析
- 2
-
-
作者
沈金辉
-
机构
云南财经大学
-
出处
《统计学与应用》
2021年第5期787-793,共7页
-
文摘
随着现代化生活方式普及,大部分劳动者利用个人电脑进行办公,长时间坐着办公减少了必要的身体锻炼容易引发心脏疾病。本文从个人身体信息出发,利用分类预测模型建立对个人心脏疾病的预警机制。对于个体的年龄、性别、胸痛类型、静息血压等分类数值以及胆固醇含量、静息血压、最大心率等连续型数值进行描述性统计分析。区别逻辑回归等判别式学习算法,另辟蹊径。从贝叶斯先验角度出发引入了生成模型中推导严谨的高斯判别模型。
-
关键词
二分类预测
生成算法
高斯判别分析
心脏疾病
混淆矩阵
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于机器学习的机械设备故障预测
被引量:1
- 3
-
-
作者
聂亚珍
崔俊
-
机构
湖北师范大学经济管理与法学院
-
出处
《湖北师范大学学报(自然科学版)》
2023年第3期24-30,共7页
-
文摘
在实际生产中,根据机械设备的使用情况,提前预测潜在的故障风险,精准地进行检修维护,维持机械设备稳定运转,不但能够确保整体工业环境运行具备稳定性,也能切实帮助企业提高经济效益。通过机器学习算法对工业机械设备的使用情况数据进行建模,旨在对工业设备故障进行预测。具体研究内容如下:1)采用ADASYN算法进行不平衡过采样学习,解决样本不平衡的问题;2)用LightGBM算法的输出的feature importance结合相关性分析对特征进行筛选,选择合适的指标用于机械设备故障的预测;3)采用LightGBM算法来判别机械设备是否发生故障;4)采用决策树算法模型用于判别机械设备发生故障的具体类别,并通过对决策树模型的可视化研究来探究每类故障的主要成因,找出与其相关的特征属性,进行量化分析,挖掘可能存在的模式/规则。
-
关键词
二分类预测
多分类预测
样本不平衡处理
数据挖掘
-
Keywords
Bi-classification prediction
multi-class prediction
unbalanced sample processing
data mining
-
分类号
TH17
[机械工程—机械制造及自动化]
-