-
题名基于邻域粗糙集的高维类不平衡数据在线流特征选择
被引量:15
- 1
-
-
作者
陈祥焰
林耀进
王晨曦
-
机构
闽南师范大学计算机学院
数据科学与智能应用福建省高等学校重点实验室
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2019年第8期726-735,共10页
-
基金
国家自然科学基金项目(No.61672272)
福建省自然科学基金项目(No.2018J01548,2018J01547)
福建省教育厅科技项目(No.JT180318)资助~~
-
文摘
在许多实际应用中,数据经常呈现高维不平衡特征,特征还根据需求在不同时间段动态生成.基于此种情况,文中提出基于邻域粗糙集的高维类不平衡数据的在线流特征选择算法.算法设计基于小类重要度的粗糙依赖度计算公式,同时,提出在线相关性分析、在线冗余度分析、在线重要度分析三种策略,用于选择在大类和小类之间具有高可分离性的特征.在7个高维类不平衡数据集上的实验表明,文中算法可以有效选择一个较好的特征子集,性能较优.
-
关键词
在线特征选择
高维不平衡数据
邻域粗糙集
粗糙依赖度
-
Keywords
Online Feature Selection
High-Dimensional and Class-Imbalance Data
Neighborhood Rough Set
Rough Dependence
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于最大决策边界的高维类不平衡数据在线流特征选择
被引量:6
- 2
-
-
作者
林耀进
陈祥焰
白盛兴
王晨曦
-
机构
闽南师范大学计算机学院
闽南师范大学数据科学与智能应用福建省高等学校重点实验室
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2020年第9期820-829,共10页
-
基金
国家自然科学基金项目(No.61672272)
福建省自然科学基金项目(No.2018J01548,2018J01547)
福建省教育厅科技项目(No.JAT180318)资助。
-
文摘
数据的特征空间常随时间动态变化,而训练样本的数量固定不变,数据的特征空间在呈现超高维特点的同时通常伴随决策空间的类别不平衡问题.对此,文中提出基于最大决策边界的高维类不平衡数据在线流特征选择算法.借助邻域粗糙集模型,在充分考虑边界样本影响的基础上,定义自适应邻域关系,设计基于最大决策边界的粗糙依赖度计算公式.同时,提出三种在线特征子集评估指标,用于选择在大类和小类之间具有强区分能力的特征.在11个高维类不平衡数据集上的实验表明,在相同的实验环境及特征数量下,文中算法综合性能较优.
-
关键词
在线特征选择
高维类不平衡数据
自适应邻域
邻域粗糙集
-
Keywords
Online Feature Selection
High-Dimensional and Class-Imbalanced Data
Adaptive Neighborhood
Neighborhood Rough Set
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名利用一致性分析的高维类别不平衡数据特征选择
被引量:4
- 3
-
-
作者
曾海亮
林耀进
王晨曦
陈祥焰
-
机构
闽南师范大学计算机学院
数据科学与智能应用福建省高等学校重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2020年第9期1946-1951,共6页
-
基金
国家自然科学基金项目(61672272)资助
福建省自然科学基金项目(2018J01548)资助
福建省教育厅科技项目(JAT180318)资助。
-
文摘
在高维小样本分类学习任务中,数据存在着高维性及类别不平衡问题.基于此,构建利用一致性分析的高维类别不平衡数据特征选择模型.首先通过定义融合类别信息来定义样本在特征空间的一致性,其次设计基于特征重要度的前向特征选择算法,最后选取十二个数据集与七个算法进行对比分析,实验结果表明,该算法能显著提高小类预测精度.
-
关键词
一致性分析
高维小样本
类别不平衡
特征选择
-
Keywords
consistency analysis
high-dimensional and small-sample size
class-imbalance
feature selection
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-