-
题名网络拓扑特征的不平衡数据分类
被引量:4
- 1
-
-
作者
普事业
刘三阳
白艺光
-
机构
西安电子科技大学数学与统计学院
-
出处
《智能系统学报》
CSCD
北大核心
2019年第5期889-896,共8页
-
基金
国家自然科学基金项目(61877046)
陕西省自然科学基金项目(2017JM1001)
-
文摘
现实中的数据集普遍具有非均衡性。针对不平衡分类问题,建立数据集网络结构来充分挖掘隐藏在样本点位置信息外的拓扑特征,分析网络节点的连接特性并赋予节点不同的效率。计算待测节点与每个子网络的相似性测度,依据新型的概率模型,进一步推算出该节点与各子网络的整体性测度。构建了一种基于网络拓扑特征的不平衡数据分类方法,算法中引入不平衡因子c用以减小由正负类样本数量差异所带来的影响。实验结果表明,该算法能有效提高分类精度,特别是对拓扑特征明显的数据集,在分类性能和适应能力上相比传统分类方法都得到进一步提升。
-
关键词
不平衡数据
相似度
网络结构
准确率
拓扑
物理特征
-
Keywords
imbalanced data
similarity
network structure
accuracy rate
topology
physical feature
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名基于边界混合重采样的非平衡数据分类方法
被引量:20
- 2
-
-
作者
侯贝贝
刘三阳
普事业
-
机构
西安电子科技大学数学与统计学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2020年第1期46-52,共7页
-
基金
国家自然科学基金(No.61877046)
陕西省自然科学基金(No.2017JM1001)
-
文摘
在非平衡数据分类问题中,为了合成有价值的新样本和删除无影响的原样本,提出一种基于边界混合重采样的非平衡数据分类算法。该算法首先引入支持k-离群度概念,找出数据集中的边界点集和非边界点集;利用改进的SMOTE算法将少数类中的边界点作为目标样本合成新的点集,同时对多数类中的非边界点采用基于距离的欠采样算法,以此达到类之间的平衡。通过实验结果对比表明了该算法在保证G-mean值较优的前提下,一定程度上提高了少数类的分类精度。
-
关键词
支持k-离群度
重采样
边界点
非平衡数据分类
-
Keywords
k-outlier
resampling
boundary points
imbalanced data classification
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-