针对大数据环境下随机森林算法存在冗余与不相关特征过多、特征子空间信息含量不足以及并行化效率低等问题,提出了结合增益率与堆叠自编码器的并行随机森林算法PRFGRSAE(parallel random forest algorithm combining gain ratio and sta...针对大数据环境下随机森林算法存在冗余与不相关特征过多、特征子空间信息含量不足以及并行化效率低等问题,提出了结合增益率与堆叠自编码器的并行随机森林算法PRFGRSAE(parallel random forest algorithm combining gain ratio and stacked auto encoders)。首先,提出了结合非线性归一化增益率和堆叠自编码器的降维策略DRNGRSAE(dimension reduction combining nonlinear normalization gain ratio and stacked auto encoders),通过过滤特征集中的冗余和不相关特征,并利用堆叠自编码器提取特征,有效减少了冗余以及不相关特征数;其次,提出了结合拉丁超立方抽样与归一化相关度的子空间选择策略SSLF(subspace selection strategy combining Latin hypercube sampling and feature class correlation),通过对特征集进行多层划分抽样,形成空间表达度较高的特征子空间,有效保证了特征子空间的信息含量;最后,提出结合可变动作学习自动机的reducer分配策略DSVLA(distribution strategy based on variable-action learning automata),使每个数据簇均匀分配到reducer进行处理,有效提高了并行化效率。实验结果表明,PRFGRSAE算法的加速比与准确度较IMRF、KSMRF和GAPRF算法都有显著提升,因此该算法应用于大数据处理,特别对包含较多特征的数据集有更高的精准度和并行效率。展开更多
循环冷却水系统中冷却供给量与工艺介质冷却需求量之间往往存在"大马拉小车"的现象,造成大量的冷却资源浪费.为了匹配冷却需求量与供给量,提高循环冷却水系统能源利用率,给出一种基于多工艺介质温度目标循环冷却水最小压差控...循环冷却水系统中冷却供给量与工艺介质冷却需求量之间往往存在"大马拉小车"的现象,造成大量的冷却资源浪费.为了匹配冷却需求量与供给量,提高循环冷却水系统能源利用率,给出一种基于多工艺介质温度目标循环冷却水最小压差控制系统,并将深度学习引入工艺介质温度预测研究中,提出一种基于改进堆叠自动编码器(improved stacked auto encoders,ISAE)的工艺介质温度预测方法.首先,对工业现场数据进行清洗;然后,将多个自动编码器堆叠,构建深度学习网络结构,采用"逐层贪婪无监督预训练-参数微调"方法训练网络参数,并基于均方根反向传播(root mean square back propagation,RMSProp)优化方法对网络参数进行微调,减小陷入局部最优的概率;最后,利用某化工厂历史运行数据进行测试,与浅层神经网络、未改进的SAE方法进行比较,所得结果表明,所提出的ISAE方法的预测准确性高,预测的工艺介质温度平均百分比误差仅为0.85%,且泛化能力优于未改进的SAE算法.展开更多
为了解决传统方法因数据不平衡及特征冗余而导致检测准确率不高的问题,提出了一种结合SMOTE(synthetic minority over-sampling technique)算法采样的SDAE-LSTM(stacked deep auto-encoder-long short term memory)入侵检测模型。首先,...为了解决传统方法因数据不平衡及特征冗余而导致检测准确率不高的问题,提出了一种结合SMOTE(synthetic minority over-sampling technique)算法采样的SDAE-LSTM(stacked deep auto-encoder-long short term memory)入侵检测模型。首先,针对数据不平衡问题,采用SMOTE算法在少数类样本点之间随机插入样本增加其数量,达到类间平衡的目的。其次,针对特征冗余问题,利用堆叠式深度自编码器(stacked deep auto-encoder,SDAE)进行降维,实现数据的深度特征提取。最后,基于长短期记忆(long short term memory,LSTM)神经网络,精准捕获网络入侵特征,准确地实现入侵检测。通过在UNSW-NB15数据集上的大量实验,有效证明了本文模型与其他模型相比有着更好的入侵检测效果。展开更多
文摘针对大数据环境下随机森林算法存在冗余与不相关特征过多、特征子空间信息含量不足以及并行化效率低等问题,提出了结合增益率与堆叠自编码器的并行随机森林算法PRFGRSAE(parallel random forest algorithm combining gain ratio and stacked auto encoders)。首先,提出了结合非线性归一化增益率和堆叠自编码器的降维策略DRNGRSAE(dimension reduction combining nonlinear normalization gain ratio and stacked auto encoders),通过过滤特征集中的冗余和不相关特征,并利用堆叠自编码器提取特征,有效减少了冗余以及不相关特征数;其次,提出了结合拉丁超立方抽样与归一化相关度的子空间选择策略SSLF(subspace selection strategy combining Latin hypercube sampling and feature class correlation),通过对特征集进行多层划分抽样,形成空间表达度较高的特征子空间,有效保证了特征子空间的信息含量;最后,提出结合可变动作学习自动机的reducer分配策略DSVLA(distribution strategy based on variable-action learning automata),使每个数据簇均匀分配到reducer进行处理,有效提高了并行化效率。实验结果表明,PRFGRSAE算法的加速比与准确度较IMRF、KSMRF和GAPRF算法都有显著提升,因此该算法应用于大数据处理,特别对包含较多特征的数据集有更高的精准度和并行效率。
文摘循环冷却水系统中冷却供给量与工艺介质冷却需求量之间往往存在"大马拉小车"的现象,造成大量的冷却资源浪费.为了匹配冷却需求量与供给量,提高循环冷却水系统能源利用率,给出一种基于多工艺介质温度目标循环冷却水最小压差控制系统,并将深度学习引入工艺介质温度预测研究中,提出一种基于改进堆叠自动编码器(improved stacked auto encoders,ISAE)的工艺介质温度预测方法.首先,对工业现场数据进行清洗;然后,将多个自动编码器堆叠,构建深度学习网络结构,采用"逐层贪婪无监督预训练-参数微调"方法训练网络参数,并基于均方根反向传播(root mean square back propagation,RMSProp)优化方法对网络参数进行微调,减小陷入局部最优的概率;最后,利用某化工厂历史运行数据进行测试,与浅层神经网络、未改进的SAE方法进行比较,所得结果表明,所提出的ISAE方法的预测准确性高,预测的工艺介质温度平均百分比误差仅为0.85%,且泛化能力优于未改进的SAE算法.
文摘为了解决传统方法因数据不平衡及特征冗余而导致检测准确率不高的问题,提出了一种结合SMOTE(synthetic minority over-sampling technique)算法采样的SDAE-LSTM(stacked deep auto-encoder-long short term memory)入侵检测模型。首先,针对数据不平衡问题,采用SMOTE算法在少数类样本点之间随机插入样本增加其数量,达到类间平衡的目的。其次,针对特征冗余问题,利用堆叠式深度自编码器(stacked deep auto-encoder,SDAE)进行降维,实现数据的深度特征提取。最后,基于长短期记忆(long short term memory,LSTM)神经网络,精准捕获网络入侵特征,准确地实现入侵检测。通过在UNSW-NB15数据集上的大量实验,有效证明了本文模型与其他模型相比有着更好的入侵检测效果。