针对大数据环境下随机森林算法存在冗余与不相关特征过多、特征子空间信息含量不足以及并行化效率低等问题,提出了结合增益率与堆叠自编码器的并行随机森林算法PRFGRSAE(parallel random forest algorithm combining gain ratio and sta...针对大数据环境下随机森林算法存在冗余与不相关特征过多、特征子空间信息含量不足以及并行化效率低等问题,提出了结合增益率与堆叠自编码器的并行随机森林算法PRFGRSAE(parallel random forest algorithm combining gain ratio and stacked auto encoders)。首先,提出了结合非线性归一化增益率和堆叠自编码器的降维策略DRNGRSAE(dimension reduction combining nonlinear normalization gain ratio and stacked auto encoders),通过过滤特征集中的冗余和不相关特征,并利用堆叠自编码器提取特征,有效减少了冗余以及不相关特征数;其次,提出了结合拉丁超立方抽样与归一化相关度的子空间选择策略SSLF(subspace selection strategy combining Latin hypercube sampling and feature class correlation),通过对特征集进行多层划分抽样,形成空间表达度较高的特征子空间,有效保证了特征子空间的信息含量;最后,提出结合可变动作学习自动机的reducer分配策略DSVLA(distribution strategy based on variable-action learning automata),使每个数据簇均匀分配到reducer进行处理,有效提高了并行化效率。实验结果表明,PRFGRSAE算法的加速比与准确度较IMRF、KSMRF和GAPRF算法都有显著提升,因此该算法应用于大数据处理,特别对包含较多特征的数据集有更高的精准度和并行效率。展开更多
文摘针对大数据环境下随机森林算法存在冗余与不相关特征过多、特征子空间信息含量不足以及并行化效率低等问题,提出了结合增益率与堆叠自编码器的并行随机森林算法PRFGRSAE(parallel random forest algorithm combining gain ratio and stacked auto encoders)。首先,提出了结合非线性归一化增益率和堆叠自编码器的降维策略DRNGRSAE(dimension reduction combining nonlinear normalization gain ratio and stacked auto encoders),通过过滤特征集中的冗余和不相关特征,并利用堆叠自编码器提取特征,有效减少了冗余以及不相关特征数;其次,提出了结合拉丁超立方抽样与归一化相关度的子空间选择策略SSLF(subspace selection strategy combining Latin hypercube sampling and feature class correlation),通过对特征集进行多层划分抽样,形成空间表达度较高的特征子空间,有效保证了特征子空间的信息含量;最后,提出结合可变动作学习自动机的reducer分配策略DSVLA(distribution strategy based on variable-action learning automata),使每个数据簇均匀分配到reducer进行处理,有效提高了并行化效率。实验结果表明,PRFGRSAE算法的加速比与准确度较IMRF、KSMRF和GAPRF算法都有显著提升,因此该算法应用于大数据处理,特别对包含较多特征的数据集有更高的精准度和并行效率。
文摘针对K均值(K-means)算法对形状特征复杂的图像数据集分类效果差,不能更好地对堆叠胶囊自编码器算法提取的图像特征进行分类的问题,提出基于支持向量机的流形正则堆叠胶囊自编码器(support vector machine-stacked capsule autoencoder based on manifold regularization,SVM-MRSCAE)优化算法。针对不同编码类型,对部件胶囊自编码器采用线性自编码器、卷积自编码器和基于自注意力机制的卷积自编码器进行对比,确定表现优异的编码类型;采用基于不同核函数的支持向量机对图像数据集进行分类,通过对不同核函数进行对比实验,获得更精确的分类结果。在加入不同噪声类型的MNIST和Fashion MNIST数据集上进行实验,发现相比于流形正则堆叠胶囊自编码器结构,SVM-MRSCAE模型分类准确率分别提高了0.0099和0.2026,说明该模型获得了更好的分类精度。