摘要
在基于解决单类问题的支持向量数据描述算法基础上提出了基于聚类分布信息的c-SVDD算法.该算法对带野值的SVDD算法中的C值重新定义.通过增加核空间下测试样本的聚类分布信息。为每个样本定义一个特定的c值.c-SVDD算法适应于解决类别不平衡学习问题.该算法在保证少类样本高分类精度前提下,还有效提高了全样本的分类精度,更符合现实不平衡问题中对少类样本的处理要求.对UCI数据集和人工样本集进行实验.改进后的c-SVDD算法比带野值的SVDD算法AUC值平均提高0.14以上;比AdaBoost算法在正类查全率上平均提高40%,精确度也提高了至少5%.
A c-SVDD algorithm is proposed based on Support Vector Date Description algorithm.In the c-SVDD algorithm,the C in SVDD with negative sample is redefined as a special C for each sample.The c-SVDD is adapted to solve the problem of classification of imbalanced data.In the condition of guaranteeing the high precision of classification of little samples,the precision of classification of all samples can be improved with this algorithm.This paper verifies the efficiency of algorithm for the artificial data and ...
出处
《兰州大学学报(自然科学版)》
CAS
CSCD
北大核心
2008年第S1期239-244,共6页
Journal of Lanzhou University(Natural Sciences)
基金
国家自然科学基金(60603029)
江苏省自然科学基金(BK2005009)资助