-
题名基于差异度的不均衡电信客户数据分类方法
被引量:11
- 1
-
-
作者
王林
郭娜娜
-
机构
西安理工大学自动化与信息工程学院
-
出处
《计算机应用》
CSCD
北大核心
2017年第4期1032-1037,共6页
-
基金
国家自然科学基金资助项目(61405157)~~
-
文摘
针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优化方法从整体数据集中选择最具参考价值的原型集,从而避免了随机选择所带来的不确定性;在分类阶段,分别利用训练集和原型集、测试集和原型集样本之间的差异性构建相应的特征空间,进而采用传统的分类预测算法对映射到相应特征空间内的差异度数据集进行学习。最后选用了UCI数据库中的电信客户数据集和另外6个普通的不均衡数据集对该算法进行验证,相对于传统基于特征的不均衡数据分类算法,DBC算法对稀有类的识别率平均提高了8.3%,IDBC算法对稀有类的识别率平均提高了11.3%。实验结果表明,所提IDBC算法不受类别分布的影响,而且对不均衡数据集中稀有类的识别能力优于已有的先进分类技术。
-
关键词
客户流失预测
不均衡数据分类
样本子集优化
原型选择
差异度转化
-
Keywords
customer churn prediction
imbalanced data classification
Sample Subset Optimization(SSO)
prototype selection
dissimilarity transformation
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-