-
题名基于贪心组合优化的分布极端不平衡分类算法
- 1
-
-
作者
陈兴国
许静
李扬
罗玉盘
-
机构
南京邮电大学大数据安全与智能处理重点实验室
南京大学计算机软件新技术国家重点实验室
井冈山大学网络信息中心
-
出处
《小型微型计算机系统》
CSCD
北大核心
2024年第10期2411-2419,共9页
-
基金
国家自然科学基金项目(62276142,62206133,62202240,62192783)资助
科技创新2030-“新一代人工智能”重大项目(2018AAA0100905)资助
+2 种基金
江苏省产业前瞻与关键核心技术竞争项目(BE2021028)资助
深圳市中央引导地方科技发展资金项目(2021Szvup056)资助
江西省高校信息化学会一般项目(GJJ191662)资助.
-
文摘
现有针对不平衡数据分类的研究主要从重采样、特征、代价和算法等4个角度展开,方法多样,但针对极端不平衡的数据分布仍缺乏有效算法.本文的目标是通过结合各种算法的特性获取一个最优性能的组合算法.本文假设算法间的组合满足次模函数性质,并采用贪心的组合优化方法.具体而言,选择深度森林算法为基础,依次组合最优重采样方法、以异常检测思想的特征提取方法对数据进行的特征处理方法或基于贝叶斯优化的最优代价敏感矩阵方法.在3种组合算法中选择分类性能最优的算法组合,再次组合其余角度的方法,判断分类性能是否再次提升.实验选择两组极端不平衡数据——真实饮用水数据和UCI数据库中的page-blocks数据进行验证.结果表明,基于贪心优化对算法间进行组合,在3轮迭代后得到的算法组合,较单一算法其分类性能能有进一步的提升.
-
关键词
次模函数
贪心优化
数据分布极端不平衡
深度森林
组合算法
-
Keywords
sbmodular function
greedy optimization
extremely unbalanced data distribution
deep forest
combinational algorithm
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-