一种基于混合策略的失衡数据集分类方法被引量：16

A Classification Method for Imbalance Data Set Based on Hybrid Strategy

下载PDF

导出

摘要提出了一种有效应用于失衡数据集的分类方法,其核心思想是从样本预处理和分类器改进两方面入手,为失衡数据集的分类问题提供全面的解决方案.首先创造性地采用动态自组织映射聚类的方法对失衡数据集进行重采样,这种采样方法,有效地解决了传统重采样的方法随机性强,人为主观干扰以及信息损失等弊端.随后借助K-近邻规则的思想,对新采集的样本进行剪枝,有效地解决了实际存在的数据混叠现象.算法对SVM的核函数进行等角变换,由此对类边界进行了校准,以适应样本类别失衡的情况.通过对三种算法的对比实验证明了算法在失衡数据集分类上的有效性.本文的算法已经在答案抽取技术中得到了成功应用,并在TREC2006国际QA评测中得到了客观充分的验证. This paper presents a novel and effective classification method for imbalanced data sets.The core idea of the algorithrn,which is composed of three parts,is to provide a general solution for IDS classification by both sample preprocessing and classifter improving.Firstly,we re-sample the imbalance data by using variable SOM clustering so as to overcome the flaws of the traditional re-sampling methods,such as serious randomness,subjective interference and information loss.Then we cut down the sampled data sets according to the K-NN rule to solve the problem of data confusion,which improves the generalization of SVM.Especially, in order to adapt the class imbalance,the class boundary alignment is introduced through conformal transform on kernel function. The comparison results show the effectiveness of three algorithms.Meanwhile,the algorithm has also been used in our question answer system,which obtains outstanding result in the international TREC-2006 QA track.

作者李鹏王晓龙刘远超王宝勋

机构地区哈尔滨工业大学计算机科学与技术学院

出处《电子学报》 EI CAS CSCD 北大核心 2007年第11期2161-2165,共5页 Acta Electronica Sinica

基金国家自然科学基金重点项目(No.60435020) 国家863高技术研究发展计划重点项目(No.2006AA01Z197)

关键词失衡数据集分类支持向量机动态自组织映射 K-近邻 imbalanced data sets（IDS） classification support vector machine（SVM） variable self-organizing maps（VSOM） K-nearest neighbor（K-NN）

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1Chawla N V,et al. Editorial: special issue on learning flom irabalanced data sets [ J ]. ACM SIGKDD Explorations, 2004, 6 (1):1-6.
2Batista G,et al.A study of the behavior of several methods for balancing machine learning[ J] .ACM SIGKDD Explorations, 2004,6(1):20-29.
3Estabrooks A, et al. A multiple resampling method for learning from imbalanced data sets [ J ]. Computational Intelligence, 2004,20(1) : 18-36.
4Japkowicz N, et al. The class imbalance problem: a systematic study[ J]. Intelligent Data Analysis,2002,6(5) : 429-450.
5Japkowicz N, et al. Learning from imbalanced data sets: a comparison of various strategies [ A ]. Proceedings of the AAAI' 2000 Workshop on Imbalanced Data Sets [ C ]. CA: AAAI Press,2000.10-15.
6Provost F, et al. Machine learning from imbalanced data sets [A]. In Proceedings of the AAAI' 2000 Workshop on Imbalanced Data Sets[C]. CA:AAAI Press,2000. 101-103.
7Visa S, et al. The effect of imbalanced data class distribution on fuzzy classifiers-experimental study[ A]. In Proceedings of the FUZZ-IEEE Conference[ C]. USA: IEEE Press,2005.22-26.
8苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
9方景龙,陈铄,潘志庚,梁荣华.复杂分类问题支持向量机的简化[J].电子学报,2007,35(5):858-861. 被引量：9
10刘涵,郭勇,郑岗,刘丁.基于最小二乘支持向量机的图像边缘检测研究[J].电子学报,2006,34(7):1275-1279. 被引量：17

二级参考文献29

1李红莲,王春花,袁保宗,朱占辉.针对大规模训练集的支持向量机的学习策略[J].计算机学报,2004,27(5):715-719. 被引量：53
2王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4Hearst M A, Dumais S T, Osman E, Platt J, Scholkopf B.Support Vector Machines. IEEE Intelligent Systems, 1998, 13(4) : 18-28.
5Ke Hai-Xin,Zhang Xue-Gong. Editing support vector machines.In: Proceedings of International Joint Conference on Neural Networks, Washington, USA, 2001, 2:1464-1467.
6Vapnik V N. An overview of statistical learning theory. IEEE Transactions on Neural Networks, 1999, 10 (5): 988-999.
7Vapnik V N. Statistical Learning Theory. 2nd ed. New York:Springer-Verlag : 1999.
8Klaus-Robert Mailer, Sebastian Mika, Gunnar Raetsch, Koji Tsuda, and Bernhard Schoelkopf. An introduction to kernel-based learning algorithms. IEEE Transactions on Neural Networks, 2001, 12 (2): 181-201.
9Burges C J C. A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 1998, 2(2): 121-167.
10Torre V,Poggio T A.On edge detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1986,8 (2):147-163.

共引文献470

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：4
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
4王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
5徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
6袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
9李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：3
10伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7

同被引文献280

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
3张丽新,王家钦,赵雁南,杨泽红.机器学习中的特征选择[J].计算机科学,2004,31(11):180-184. 被引量：18
4吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13.
5徐静波,于洪涛,冉崇森.重叠语音信号的高阶矩分离法[J].长江大学学报（自然科学版）,2004,1(4):4-6. 被引量：1
6游斓,周雅倩,黄萱菁,吴立德.基于最大熵模型的QA系统置信度评分算法[J].软件学报,2005,16(8):1407-1414. 被引量：8
7文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
8杜永萍,黄萱菁,吴立德.模式学习在QA系统中的有效实现[J].计算机研究与发展,2006,43(3):449-455. 被引量：10
9郑恩辉,李平,宋执环.代价敏感支持向量机[J].控制与决策,2006,21(4):473-476. 被引量：33
10刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23

引证文献16

1张志昌,张宇,刘挺,李生.开放域问答技术研究进展[J].电子学报,2009,37(5):1058-1069. 被引量：17
2曾志强,吴群,廖备水,高济.一种基于核SMOTE的非平衡数据集分类方法[J].电子学报,2009,37(11):2489-2495. 被引量：48
3邹权,郭茂祖,刘扬,王峻.类别不平衡的分类方法及在生物信息学中的应用[J].计算机研究与发展,2010,47(8):1407-1414. 被引量：26
4田江,顾宏.一种基于混合策略的孤立点检测方法[J].系统工程与电子技术,2010,32(8):1775-1779. 被引量：1
5吴克寿,曾志强.非平衡数据集分类研究[J].计算机技术与发展,2011,21(9):39-42. 被引量：5
6钟瑛,朱顺痣,曾志强,洪文兴.一种基于核学习的非均衡数据分类算法[J].厦门大学学报（自然科学版）,2012,51(2):189-194. 被引量：2
7朱顺痣,施华,刘利钊,叶东毅.高斯核尺度空间中的采样算法研究[J].计算机科学与探索,2012,6(7):644-653. 被引量：1
8王宝勋,刘秉权,孙承杰,王晓龙.网络问答资源挖掘综述[J].智能计算机与应用,2012,2(6):54-58.
9陶新民,郝思媛,张冬雪,徐鹏.不均衡数据分类算法的综述[J].重庆邮电大学学报（自然科学版）,2013,25(1):101-110. 被引量：66
10张燕.基于二次SVM的不均衡数据算法[J].商洛学院学报,2014,28(4):38-41.

二级引证文献180

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323.
2万磊,佟鑫,盛明伟,秦洪德,唐松奇.Softmax分类器深度学习图像分类方法应用综述[J].导航与控制,2019,0(6):1-9. 被引量：55
3林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
4姜万录,吴胜强.基于SVM和证据理论的多数据融合故障诊断方法[J].仪器仪表学报,2010,31(8):1738-1743. 被引量：57
5陈金坦,康恒政,杨燕,周伟雄.一种用于不平衡数据的分类算法[J].山东大学学报（工学版）,2011,41(2):96-101. 被引量：1
6吴克寿,曾志强.非平衡数据集分类研究[J].计算机技术与发展,2011,21(9):39-42. 被引量：5
7王天真,刘萍,汤天浩,黄洪琼,张艳.一种基于k-means聚类的航运信息孤立点分析算法[J].上海海事大学学报,2011,32(3):54-57. 被引量：5
8陶新民,童智靖,刘玉,付丹丹.基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J].控制与决策,2011,26(10):1535-1541. 被引量：22
9张玉芳,王勇,熊忠阳,刘明.不平衡数据集上的文本分类特征选择新方法[J].计算机应用研究,2011,28(12):4532-4534. 被引量：8
10郭颖婕,刘晓燕,郭茂祖,邹权.植物抗性基因识别中的随机森林分类方法[J].计算机科学与探索,2012,6(1):67-77. 被引量：15

1陶新民,郝思媛,张冬雪,徐鹏.核聚类集成失衡数据SVM算法[J].哈尔滨工程大学学报,2013,34(3):381-388. 被引量：5
2夏建兵,廖大强.快速DOC算法及其学生成绩分析中的应用研究[J].计算机光盘软件与应用,2013,16(1):183-184.
3徐小慧,张安,端木京顺,郝秦霞.基于粒子群分类器的遥感图像目标识别[J].红外与激光工程,2007,36(4):551-554. 被引量：6
4孟梁举.无线Mesh网络安全问题研究[J].现代计算机,2010,16(9):44-46.
5李云.结合SVD_TLS及EKF算法的动态自组织模糊神经网络在动态系统中的应用[J].计算机科学,2012,39(B06):401-403.
6李云.基于SVD_TLS及EKF算法的动态自组织模糊神经网络[J].成都大学学报（自然科学版）,2012,31(2):154-157.
7刘飞荣,段隆振,陈梅香,杨艳玲.一种基于动态模糊Kohonen网络的聚类模型及应用[J].南昌大学学报（理科版）,2010,34(6):603-606. 被引量：5
8吴丽花,刘鲁,卫昆,吴菊华.基于动态自组织映射网的用户兴趣建模方法[J].计算机集成制造系统,2006,12(8):1183-1187. 被引量：7
9肖云,韩崇昭,王选宏,张俊杰.基于核的自组织映射聚类[J].西安交通大学学报,2005,39(12):1307-1310. 被引量：3
10黄建春,邹汉斌,李晓峰.基于文本聚类的映射聚类算法研究[J].计算机工程与设计,2007,28(6):1264-1266. 被引量：1

电子学报

2007年第11期

浏览历史

内容加载中请稍等...

一种基于混合策略的失衡数据集分类方法被引量：16

参考文献14

二级参考文献29

共引文献470

同被引文献280

引证文献16

二级引证文献180

相关作者

相关机构

相关主题

浏览历史

一种基于混合策略的失衡数据集分类方法 被引量：16

参考文献14

二级参考文献29

共引文献470

同被引文献280

引证文献16

二级引证文献180

相关作者

相关机构

相关主题

浏览历史

一种基于混合策略的失衡数据集分类方法被引量：16