BOS:一种用于不平衡数据学习的边界过采样方法被引量：3

BOS:a borderline over-sampling method for imbalanced data learning

导出

摘要不平衡数据遍布于现实生活中许多重要领域,而标准的分类学习算法应对不平衡问题有明显的性能缺陷.为了解决这一问题,提出一种新的少数类边界合成过采样方法BOS.BOS使用新定义的K广义Tomek连接(简称K连接)概念有效定位边界实例,进而基于少数类的K连接分布实现自适应地少数边界合成过采样.实验结果表明,BOS相比已有的几种典型过采样方法提供更优的接受者操作特性曲线下方面积值(AUC),F值(F-Measure)和几何平均值(G-mean). The imbalance data are pervasive in a large number of realworld domains of great importance. Traditional classification learning algorithms behave undesirable in imbalanced problem. To address this problem,the authors proposed a new synthetic minority borderline synthetic oversampling method named as BOS. In BOS, a novel K generalized Tomek links concept was used to locate minority class borderline instances, and adaptively generating minority instances were implemented base on the number of their K links. Experimental results show that BOS performed better than some existing typical methods, with more excellent FMeasure, Gmean and the area under the ROC（AUC） values.

作者祝团飞孙婧李益洲李梦龙

机构地区四川大学计算机学院四川大学化学学院

出处《四川大学学报（自然科学版）》 CAS CSCD 北大核心 2012年第3期553-559,共7页 Journal of Sichuan University(Natural Science Edition)

基金食品中抗生素类药物残留评估的化学与生物信息学方法探索(21175095) 基于抗癌药物及其靶标蛋白相互作用的层次网络研究(20972103)

关键词不平衡问题 K广义的Tomek连接少数类边界合成过采样 imbalanced problem K generalized Tomek links minority class borderline synthetic oversampling

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献30

1陈黎,李志蜀,琚生根,唐小棚,梁时木,韩国辉.基于SVM预测的金融主题爬虫[J].四川大学学报（自然科学版）,2010,47(3):493-497. 被引量：7
2Japkowicz N, Stephen S. The class imbalance prob- lem: A systematic study [J]. Intelligent Data Analy- sis, 2002, 6(5): 203.
3Jo T, Japkowicz N. Class imbalances versus small disjuncts [J]. SIGKDD Explorations, 2004, 6(1): 40.
4Prati R C, Batista G E A P A, Monard M C, et al. Class imbalances versus class overlapping: an analy- sis of a learning system behavior [C]. Heidelberg: Springer, 2004.
5Dietterich T G, Kerns M, Mansour Y. Applying theweak learning framework to understand and improve C4. 5 [C]. San Francisco: Morgan Kaufmann, 1996.
6Cieslak D A, Chawla N V. Learning decis:on trees for unbalanced data [C]. Antwerp: Springer, 2008.
7Quinlan J R. Improved estimates for the accuracy of small disjuncts[J]. Machine Learning, 1991, 6(1) 93.
8Lin Y, Lee Y K, Wahba G. Support vector machines for classification in nonstandard situations [J ]. Machine Learning, 2002, 46(1/3): 191.
9Freund Y, Schapire R E. Experiments with a new boosting algorithm [C]. Bari: Morgan Kaufmann, 1996.
10Sun Y, Kamel M S, Wong A K C, et al. Cost-sen- sitive boosting for classification of imbalanced data [J].Pattern Recognition, 2007, 40(12) : 3358.

二级参考文献9

1祝宇,夏诏杰,聂峰光,郭力.支持向量机在化学主题爬虫中的应用[J].计算机与应用化学,2006,23(4):329-332. 被引量：8
2Chakrabarti S,Dom B,Indyk P.Enhanced hypertext categorization using hyperlinks[C].New York:ACM,1998:3072318.
3Johnson J,Tsioutsioul I I K,Giles C L.Evolving strategies for focused Web crawling[C].Proceedings of the Twentieth International Conference on Machine Learning (ICML-2003).Washington DC:[s.n.],2003.
4Gautam Pant,Padmini Srinivasan.Learning to crawl:comparing classification schemes[J].ACM Transactions on Information Systems,2005,23:4302462.
5Pant G,Tsioutsiouliklis K,Johnson J,et al.Panorama:Extending digital libraries with topical crawlers[C].New York:[s.n.],2004.
6Diligenti M,Coetzee F,Lawrence S,et al.Focused crawling using context graphs[C].Egypt:Cairo,2000:527.
7Johnson J,Tsioutsiouliklis K,Giles C L.Evolving strategies for focused web crawling[C].Washington DC:[s.n.],2003.
8Chakrabarti S,Van Den Berg M,Dom B.Focused crawling:a new approach to topic-specific Web resource discovery[J].Computer Networks,1999,31:1623.
9李颖,李志蜀,邓欢.基于Lucene的中文分词方法设计与实现[J].四川大学学报（自然科学版）,2008,45(5):1095-1099. 被引量：13

共引文献6

1周扬,屈武斌,卢一鸣,张成岗,杨毅.基于文本频谱的中文文本聚类方法[J].四川大学学报（自然科学版）,2012,49(6):1386-1394.
2张敏,孙敏.基于Heritrix限定爬虫的设计与实现[J].计算机应用与软件,2013,30(4):33-35. 被引量：13
3何荧,唐雁,张清辰,谢松山,孙浪,苗宗霞.基于复杂网络和遗传算法的特征选择方法[J].四川大学学报（自然科学版）,2014,51(5):937-946. 被引量：1
4田雪筠.网络竞争情报主题采集技术研究[J].图书与情报,2014(5):132-137. 被引量：5
5萧婧婕,陈志云.基于灰狼算法的主题爬虫[J].计算机科学,2018,45(B11):146-148. 被引量：8
6李莉,刘淼,冯嘉辉.基于多元数据信息获取的关键技术研究[J].长春理工大学学报（自然科学版）,2020,43(1):97-103. 被引量：2

同被引文献18

1王桂芝,李井竹,狄志超.支持k-离群度的边界点检测方法[J].计算机工程与应用,2011,47(33):140-142. 被引量：7
2李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：62
3陶新民,张冬雪,郝思媛,付丹丹.基于谱聚类欠取样的不均衡数据SVM分类算法[J].控制与决策,2012,27(12):1761-1768. 被引量：28
4楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
5张银峰,郭华平,职为梅,范明.一种面向不平衡数据分类的组合剪枝方法[J].计算机工程,2014,40(6):157-161. 被引量：12
6李克文,杨磊,刘文英,刘璐,刘洪太.基于RSBoost算法的不平衡数据分类方法[J].计算机科学,2015,42(9):249-252. 被引量：21
7蔡艳艳,宋晓东.针对非平衡数据分类的新型模糊SVM模型[J].西安电子科技大学学报,2015,42(5):120-124. 被引量：19
8熊冰妍,王国胤,邓维斌.基于样本权重的不平衡数据欠抽样方法[J].计算机研究与发展,2016,53(11):2613-2622. 被引量：43
9古平,杨炀.面向不均衡数据集中少数类细分的过采样算法[J].计算机工程,2017,34(2):241-247. 被引量：20
10杨志民,王甜甜,邵元海.面向不均衡分类的隶属度加权模糊支持向量机[J].计算机工程与应用,2018,54(2):68-75. 被引量：7

引证文献3

1于艳丽,江开忠,盛静文.不平衡数据中基于异类k距离的边界混合采样[J].计算机应用与软件,2021,38(2):299-304. 被引量：2
2严涛,江开忠,姜新盈,王舒梵.基于高斯混合聚类采样的不平衡数据处理方法[J].计算机应用与软件,2023,40(12):305-311.
3方宇,郑胡宇,曹雪梅.三支过采样的不平衡数据分类方法[J].山东大学学报（理学版）,2023,58(12):41-51.

二级引证文献2

1曹兰.一种增强少数类边界的多类不平衡过抽样算法[J].四川轻化工大学学报（自然科学版）,2021,34(6):85-91.
2矫桂娥,徐红,张文俊,陈一民.基于非平衡问题的卷积神经网络分类模型[J].计算机应用与软件,2023,40(6):96-102.

1陈川,张化祥.基于聚类的少数类样本采样方法[J].信息技术与信息化,2011(5):65-68. 被引量：1
2苏加强,丁柳云.基于R的过采样方法在非平衡数据中的应用[J].常州工学院学报,2012,25(6):12-16.
3李瑞,李希敏,袁晓玲.恶意软件检测中解决样本不平衡问题的策略[J].计算机系统应用,2014,23(6):17-21. 被引量：1
4韩旖旎,李晓林,李丽宏.过采样方法在动态轴重式汽车衡中的应用[J].电子设计工程,2010,18(8):36-38.
5尚旭,谢林森.一种距离边界合成少数类过采样技术[J].丽水学院学报,2017,39(2):1-7.
6于光平,张昕.过采样方法与提高ADC分辨率的研究[J].沈阳工业大学学报,2006,28(2):137-139. 被引量：13
7王晓娟,郭躬德.不平衡数据采样方法的对比学习[J].微计算机信息,2011,27(12):155-157. 被引量：4
8王儒敬,葛运健,滕明贵,张晓明.基于粗集的空间对象分类学习算法[J].中国科学技术大学学报,2006,36(2):163-169. 被引量：2
9马玲,卢海英.过采样技术在DSP中的应用[J].沈阳工程学院学报（自然科学版）,2009,5(1):81-83. 被引量：3
10陈进华,陈晓云.三维模型边缘特征与异常检测[J].计算机工程与应用,2011,47(35):214-217.

四川大学学报（自然科学版）

2012年第3期

浏览历史

内容加载中请稍等...

BOS:一种用于不平衡数据学习的边界过采样方法被引量：3

参考文献30

二级参考文献9

共引文献6

同被引文献18

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

BOS:一种用于不平衡数据学习的边界过采样方法 被引量：3

参考文献30

二级参考文献9

共引文献6

同被引文献18

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

BOS:一种用于不平衡数据学习的边界过采样方法被引量：3