-
题名基于相似和差异双视角的高维数据属性约简
被引量:1
- 1
-
-
作者
李元江
权金升
谭阳奕
杨田
-
机构
智能计算与语言信息处理湖南省重点实验室(湖南师范大学)
-
出处
《计算机应用》
CSCD
北大核心
2023年第5期1467-1472,共6页
-
基金
湖南省自然科学优秀青年基金资助项目(2021JJ20037)
长沙市杰出创新青年培养计划项目(kq1905031)。
-
文摘
针对数据维度过高、冗余信息过多导致维度灾难的问题,提出一种基于异同矩阵的高维属性约简算法(ARSDM)。该算法在区分矩阵的基础上加入对同类样本的相似度衡量,形成对所有样本的综合评估。首先,计算样本在每个属性下的距离,并基于这些距离得到同类相似度和异类差异度;其次,建立异同矩阵,形成对整个数据集的评价;最后,进行属性约简,即将异同矩阵的每一列求和,依次选择值最大的特征进行约简,并将相应样本对的行向量置为零向量。实验结果表明,与经典属性约简算法DMG(Discernibility Matrix based on Graph theory)、FFRS(Fitting Fuzzy Rough Sets)以及GBNRS(Granular Ball Neighborhood Rough Sets)相比,在分类回归树(CART)分类器下,ARSDM的平均分类准确率分别提高了1.07、6.48、8.92个百分点;在支持向量机(SVM)分类器下,ARSDM的平均分类准确率分别提高了1.96、11.96、12.39个百分点;运行效率上ARSDM优于GBNRS和FFRS。可见,ARSDM能够有效去除冗余信息,提高分类准确率。
-
关键词
异同矩阵
区分矩阵
属性约简
粗糙集
粒计算
数据挖掘
-
Keywords
similarity and difference matrix
discernibility matrix
attribute reduction
rough set
granular computing
data mining
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP311.13
[自动化与计算机技术—计算机软件与理论]
-