目前结合机器学习、文本分类的过滤方法成为研究热点。而这些过滤方法在邮件过滤时存在使用训练集数据量和表征数据的特征向量维数过多,引发"维灾难"和较大的运算量等问题。结合证据理论K近邻方法(evi-dence theory based K-n...目前结合机器学习、文本分类的过滤方法成为研究热点。而这些过滤方法在邮件过滤时存在使用训练集数据量和表征数据的特征向量维数过多,引发"维灾难"和较大的运算量等问题。结合证据理论K近邻方法(evi-dence theory based K-nearest neighbors,EKNN)和直推式信度机(transductive confidence machines,TCM)算法思想,提出一种TCM-EKNN的邮件过滤方法,并且采用主动学习样本选择方法选择较少高质量的训练样本构建邮件分类器从而高效地实现垃圾邮件过滤。对比实验结果表明:相对于传统的邮件过滤方法,TCM-EKNN获得了良好的过滤效果,从而论证了TCM-EKNN有效性;并且在保证传统的邮件过滤方法同等高准确率前提下,TCM-EKNN采用主动学习方法后,极大地减少了训练样本数量,提高了过滤器性能,在各项评价指标上具有优越性。展开更多
文摘目前结合机器学习、文本分类的过滤方法成为研究热点。而这些过滤方法在邮件过滤时存在使用训练集数据量和表征数据的特征向量维数过多,引发"维灾难"和较大的运算量等问题。结合证据理论K近邻方法(evi-dence theory based K-nearest neighbors,EKNN)和直推式信度机(transductive confidence machines,TCM)算法思想,提出一种TCM-EKNN的邮件过滤方法,并且采用主动学习样本选择方法选择较少高质量的训练样本构建邮件分类器从而高效地实现垃圾邮件过滤。对比实验结果表明:相对于传统的邮件过滤方法,TCM-EKNN获得了良好的过滤效果,从而论证了TCM-EKNN有效性;并且在保证传统的邮件过滤方法同等高准确率前提下,TCM-EKNN采用主动学习方法后,极大地减少了训练样本数量,提高了过滤器性能,在各项评价指标上具有优越性。