针对数据集标签缺失且类别分布极不平衡的信用卡欺诈检测问题,提出一种基于动态集成选择算法的信用卡审批异常检测模型DES-HBOS(Dynamic Ensemble Selection based on Histogram-based Outlier Score)。首先,利用无监督异常检测算法构...针对数据集标签缺失且类别分布极不平衡的信用卡欺诈检测问题,提出一种基于动态集成选择算法的信用卡审批异常检测模型DES-HBOS(Dynamic Ensemble Selection based on Histogram-based Outlier Score)。首先,利用无监督异常检测算法构造训练集客户的伪标签;然后,确定待测客户能力区域,根据Pearson相关系数评估分类器性能;最后,选择一组较优的分类器对待测客户进行集成。在真实信用卡客户数据集上的实验表明,与其他6种经典异常检测模型相比,DES-HBOS的Recall更高,能将更多欺诈客户识别出来。在4个不平衡数据集上进行对比实验,实验结果表明与HBOS相比,DES-HBOS检测异常能力更强。展开更多
针对基于约束得分的特征选择容易受成对约束的组成和基数影响的问题,提出了一种基于约束得分的动态集成选择算法(dynamic ensemble selection based on bagging constraint score,BCS-DES)。该算法将bagging约束得分(bagging constraint...针对基于约束得分的特征选择容易受成对约束的组成和基数影响的问题,提出了一种基于约束得分的动态集成选择算法(dynamic ensemble selection based on bagging constraint score,BCS-DES)。该算法将bagging约束得分(bagging constraint score,BCS)引入动态集成选择算法,通过将样本空间划分为不同的区域,使用多种群并行遗传算法为不同测试样本选择局部最优的分类集成,达到提高分类精度的目的。在UCI实验数据集上进行的实验表明,BCS-DES算法较现有的特征选择算法受成对约束组成和基数影响更小,效果更好。展开更多
针对传统方法提取文本特征向量存在语义缺失,以及有些文本情感识别任务涉及多分类问题,提出一种新的基于BERT(bidirectional encoder representations from transformers)和动态集成选择的多分类文本情感识别策略。首先,采用BERT对文本...针对传统方法提取文本特征向量存在语义缺失,以及有些文本情感识别任务涉及多分类问题,提出一种新的基于BERT(bidirectional encoder representations from transformers)和动态集成选择的多分类文本情感识别策略。首先,采用BERT对文本进行向量化处理,针对多分类文本情感识别任务采用OVO分解策略拆分成多个二分类子任务;其次,针对每个子任务采用动态集成选择策略构建分类器集成模型;最后,基于聚合策略获得最终的预测结果。采用公开的影评数据集对所提出的方法进行实证分析。结果表明:(1)相较于传统的TF-IDF与Word2Vec方法,基于BERT模型的词向量化处理有助于提高文本情感识别精度;(2)针对多分类情感识别任务中的每个子问题,采用动态集成选择策略可以有效提高识别效果;(3)本文建立的预测模型性能比其他现有情感识别模型具有显著优势。展开更多
随着网络规模的不断扩大以及复杂程度的不断增加,网络中拒绝服务(Denial of Service,DoS)攻击和分布式拒绝服务(Distributed Denial of Service,DDoS)攻击的发生频率越来越高。一般方法很难同时保证检测的实时性和准确性。针对上述问题...随着网络规模的不断扩大以及复杂程度的不断增加,网络中拒绝服务(Denial of Service,DoS)攻击和分布式拒绝服务(Distributed Denial of Service,DDoS)攻击的发生频率越来越高。一般方法很难同时保证检测的实时性和准确性。针对上述问题,对网络流量中的DoS和DDoS攻击流量进行分析,提出了一种将过滤法和嵌入法结合的集成特征选择算法。首先使用过滤法中的相关系数法进行特征排序,按一定比例抽取特征序列组成特征子集。随后通过嵌入法中的随机森林算法对特征子集进行二次特征选择。最后通过决策树和随机森林分类器验证所提算法的分类准确率与分类效率。实验结果表明,与单一嵌入法相比,运用集成特征选择算法后,各项评价指标平均提升6%。与单一过滤法相比,仅需其特征总量的1/6即可达到同样效果。展开更多
文摘针对数据集标签缺失且类别分布极不平衡的信用卡欺诈检测问题,提出一种基于动态集成选择算法的信用卡审批异常检测模型DES-HBOS(Dynamic Ensemble Selection based on Histogram-based Outlier Score)。首先,利用无监督异常检测算法构造训练集客户的伪标签;然后,确定待测客户能力区域,根据Pearson相关系数评估分类器性能;最后,选择一组较优的分类器对待测客户进行集成。在真实信用卡客户数据集上的实验表明,与其他6种经典异常检测模型相比,DES-HBOS的Recall更高,能将更多欺诈客户识别出来。在4个不平衡数据集上进行对比实验,实验结果表明与HBOS相比,DES-HBOS检测异常能力更强。
文摘针对基于约束得分的特征选择容易受成对约束的组成和基数影响的问题,提出了一种基于约束得分的动态集成选择算法(dynamic ensemble selection based on bagging constraint score,BCS-DES)。该算法将bagging约束得分(bagging constraint score,BCS)引入动态集成选择算法,通过将样本空间划分为不同的区域,使用多种群并行遗传算法为不同测试样本选择局部最优的分类集成,达到提高分类精度的目的。在UCI实验数据集上进行的实验表明,BCS-DES算法较现有的特征选择算法受成对约束组成和基数影响更小,效果更好。
文摘针对传统方法提取文本特征向量存在语义缺失,以及有些文本情感识别任务涉及多分类问题,提出一种新的基于BERT(bidirectional encoder representations from transformers)和动态集成选择的多分类文本情感识别策略。首先,采用BERT对文本进行向量化处理,针对多分类文本情感识别任务采用OVO分解策略拆分成多个二分类子任务;其次,针对每个子任务采用动态集成选择策略构建分类器集成模型;最后,基于聚合策略获得最终的预测结果。采用公开的影评数据集对所提出的方法进行实证分析。结果表明:(1)相较于传统的TF-IDF与Word2Vec方法,基于BERT模型的词向量化处理有助于提高文本情感识别精度;(2)针对多分类情感识别任务中的每个子问题,采用动态集成选择策略可以有效提高识别效果;(3)本文建立的预测模型性能比其他现有情感识别模型具有显著优势。
文摘随着网络规模的不断扩大以及复杂程度的不断增加,网络中拒绝服务(Denial of Service,DoS)攻击和分布式拒绝服务(Distributed Denial of Service,DDoS)攻击的发生频率越来越高。一般方法很难同时保证检测的实时性和准确性。针对上述问题,对网络流量中的DoS和DDoS攻击流量进行分析,提出了一种将过滤法和嵌入法结合的集成特征选择算法。首先使用过滤法中的相关系数法进行特征排序,按一定比例抽取特征序列组成特征子集。随后通过嵌入法中的随机森林算法对特征子集进行二次特征选择。最后通过决策树和随机森林分类器验证所提算法的分类准确率与分类效率。实验结果表明,与单一嵌入法相比,运用集成特征选择算法后,各项评价指标平均提升6%。与单一过滤法相比,仅需其特征总量的1/6即可达到同样效果。