勒索病毒、僵尸网络等恶意软件在互联网日益泛滥,已成为威胁网络安全运行的重要因素。域名作为恶意软件与命令和控制(Command and Control,C&C)服务器的主要通信方式,是检测和防范的重要途径。但域名生成算法(Domain Generation Alg...勒索病毒、僵尸网络等恶意软件在互联网日益泛滥,已成为威胁网络安全运行的重要因素。域名作为恶意软件与命令和控制(Command and Control,C&C)服务器的主要通信方式,是检测和防范的重要途径。但域名生成算法(Domain Generation Algorithm,DGA)的不断改进发展,给传统的基于威胁情报的检测方式带来了巨大挑战,而机器学习技术逐渐成为应对DGA域名的主要途径。梯度提升树算法作为机器学习中重要的分类算法,能够适应DGA域名检测场景。基于XGBoost框架,采用开放域名数据作为样本集,研究了基于梯度提升树算法的DGA域名检测方法,并通过域名向量转换、检测模型训练、参数调优,实现了一个高效的DGA域名检测模型。展开更多
面向高维复杂的电力量测数据,现有攻击定位检测方法存在定位精度差的问题。为此该文提出一种基于最大信息系数-双层置信极端梯度提升树的电网虚假数据注入攻击定位检测方法。所提方法引入最大信息系数对量测数据进行特征选择,能够非线...面向高维复杂的电力量测数据,现有攻击定位检测方法存在定位精度差的问题。为此该文提出一种基于最大信息系数-双层置信极端梯度提升树的电网虚假数据注入攻击定位检测方法。所提方法引入最大信息系数对量测数据进行特征选择,能够非线性地衡量数据特征之间的关联性,且公平地根据一个特征变量中包含另一个特征变量的信息量来去除冗余特征,有效解决虚假数据注入攻击定位检测方法普遍面临的量测数据高维冗余问题;同时提出一种具有正反馈信息传递作用的双层置信极端梯度提升树来对各节点状态进行分类,通过结合电网拓扑关系学习标签相关性,从而有选择性地利用前序标签有效预测信息,来减少后续分类器学习到的前序标签预测信息中包含的错误,最终实现对受攻击位置的精确定位。在IEEE-14、IEEE-57节点系统上进行大量仿真,算例结果验证了所提方法的有效性,且相较于其他方法具有更高的准确率、精度、召回率、F1值和AUC(area under curve)值。展开更多
为改善极端梯度提升(extreme gradient boosting,XGBoost)集成算法的信贷风险预测准确率,提出了一种改进的麻雀算法(improved sparrow search algorithm based on golden sine search,Cauchy mutation and oppositionbased learning,GCO...为改善极端梯度提升(extreme gradient boosting,XGBoost)集成算法的信贷风险预测准确率,提出了一种改进的麻雀算法(improved sparrow search algorithm based on golden sine search,Cauchy mutation and oppositionbased learning,GCOSSA)来优化XGBoost参数。采用黄金正弦搜索策略来更新发现者位置,既增强全局搜索能力又增强局部搜索能力;在算法中引入反向学习策略和柯西变异进行扰动来扩大搜索领域改善陷入局部最优,同时使用贪婪规则确定最优解;将改进的算法用6个基准函数进行测试,并对SSA和GCOSSA进行对比,评估GCOSSA寻优性能;用GCOSSA优化XGBoost参数。在数据集上测试,并与网格搜索寻优、SSA及其混合正余弦改进算法(improved sparrow search algorithm based on sine and cosine,ISSA)方法进行对比。结果表明改进后的GCOSSA优化XGBoost参数,在信贷风险预测中准确率更高。展开更多
文摘勒索病毒、僵尸网络等恶意软件在互联网日益泛滥,已成为威胁网络安全运行的重要因素。域名作为恶意软件与命令和控制(Command and Control,C&C)服务器的主要通信方式,是检测和防范的重要途径。但域名生成算法(Domain Generation Algorithm,DGA)的不断改进发展,给传统的基于威胁情报的检测方式带来了巨大挑战,而机器学习技术逐渐成为应对DGA域名的主要途径。梯度提升树算法作为机器学习中重要的分类算法,能够适应DGA域名检测场景。基于XGBoost框架,采用开放域名数据作为样本集,研究了基于梯度提升树算法的DGA域名检测方法,并通过域名向量转换、检测模型训练、参数调优,实现了一个高效的DGA域名检测模型。
文摘面向高维复杂的电力量测数据,现有攻击定位检测方法存在定位精度差的问题。为此该文提出一种基于最大信息系数-双层置信极端梯度提升树的电网虚假数据注入攻击定位检测方法。所提方法引入最大信息系数对量测数据进行特征选择,能够非线性地衡量数据特征之间的关联性,且公平地根据一个特征变量中包含另一个特征变量的信息量来去除冗余特征,有效解决虚假数据注入攻击定位检测方法普遍面临的量测数据高维冗余问题;同时提出一种具有正反馈信息传递作用的双层置信极端梯度提升树来对各节点状态进行分类,通过结合电网拓扑关系学习标签相关性,从而有选择性地利用前序标签有效预测信息,来减少后续分类器学习到的前序标签预测信息中包含的错误,最终实现对受攻击位置的精确定位。在IEEE-14、IEEE-57节点系统上进行大量仿真,算例结果验证了所提方法的有效性,且相较于其他方法具有更高的准确率、精度、召回率、F1值和AUC(area under curve)值。
文摘小时天然气负荷预测受外部特征因素与预测方法的影响,为提高其预测精度并解决其他深度学习类模型或组合模型可解释性差、训练时间过长的问题,在引入“小时影响度”这一新特征因素的同时提出一种基于极端梯度提升树(extreme gradient boosting tress,XGBoost)模型与可解释性神经网络模型NBEATSx组合预测的方法;以XGBoost模型作为特征筛选器对特征集数据进行筛选,再将筛选降维后的数据集输入到NBEATSx中训练,提高NBEATSx的训练速度与预测精度;将负荷数据与特征数据经STL(seasonal and trend decomposition using Loess)算法分解为趋势分量、季节分量与残差分量,再分别输入到XGBoost中进行预测,减弱原始数据中的噪音影响;将优化后的NBEATSx与XGBoost模型通过方差倒数法进行组合,得出STL-XGBoost-NBEATSx组合模型的预测结果。结果表明:“小时影响度”这一新特征是小时负荷预测的重要影响因素,STL-XGBoost-NBEATSx模型训练速度有所提高,具有良好的可解释性与更高的预测准确性,模型预测结果的平均绝对百分比误差、均方误差、平均绝对误差分别比其余单一模型平均降低54.20%、63.97%、49.72%,比其余组合模型平均降低24.85%、34.39%、23.41%,模型的决定系数为0.935,能够很好地拟合观测数据。
文摘为改善极端梯度提升(extreme gradient boosting,XGBoost)集成算法的信贷风险预测准确率,提出了一种改进的麻雀算法(improved sparrow search algorithm based on golden sine search,Cauchy mutation and oppositionbased learning,GCOSSA)来优化XGBoost参数。采用黄金正弦搜索策略来更新发现者位置,既增强全局搜索能力又增强局部搜索能力;在算法中引入反向学习策略和柯西变异进行扰动来扩大搜索领域改善陷入局部最优,同时使用贪婪规则确定最优解;将改进的算法用6个基准函数进行测试,并对SSA和GCOSSA进行对比,评估GCOSSA寻优性能;用GCOSSA优化XGBoost参数。在数据集上测试,并与网格搜索寻优、SSA及其混合正余弦改进算法(improved sparrow search algorithm based on sine and cosine,ISSA)方法进行对比。结果表明改进后的GCOSSA优化XGBoost参数,在信贷风险预测中准确率更高。