非平衡数据集Fisher线性判别模型被引量：15

Fisher Linear Discriminant Model with Class Imbalance

下载PDF

导出

摘要非平衡数据是指两类问题中正类样本与负类样本个数不相等,甚至相比悬殊.非平衡数据集会导致许多分类器的性能下降,这与分类器的构造原理有关.本文首先阐述了Fisher线性判别的分类机制,指出当两类样本的协方差矩阵不同时,样本不平衡会导致Fisher线性判别的性能下降.在此基础上,提出了一种加权Fisher线性判别(WFLD),以减小样本不平衡的影响.然后,从UCI中选择了8个非平衡数据集,并采用ROC曲线下面积作为评估指标进行比较,实验结果证明了WFLD模型的有效性. As the majority of classification methods previously designed usually assume that their training sets are well-balanced, they have to be affected by class imbalance in which examples in training data belonging to one class heavily outnumber the examples in the other class. This paper demonstrates that, when the two sample covariance matrices are not identical, class imbalance has a negative effect on the performance of Fisher linear discriminant（FLD）. A weighted FLD（WFLD） is proposed for reducing the negative effects of the class imbalance. Using area under the ROC curve as performance measarement, eight UCI imbalanced data sets are tested to show WFLD＇s effectiveness.

作者谢纪刚裘正定

机构地区北京交通大学计算机与信息技术学院

出处《北京交通大学学报》 EI CAS CSCD 北大核心 2006年第5期15-18,共4页 JOURNAL OF BEIJING JIAOTONG UNIVERSITY

基金浙江省自然科学基金资助项目(Y104540) 北京市重点实验室基金资助项目(TDXX0509)

关键词非平衡数据集 FISHER线性判别 ROC曲线下面积(AUC) class imbalance Fisher linear discriminant（FLD） area under the ROC curve （AUC）

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1Chan P K, Stolfo S J. Toward Scalable Learning with Non-Uniform Class and Cost Distributions: A Case Study in Credit Card Fraud Detection[C]//In. Proc of the Fourth International Conference on Knowledge Discovery and Data Mining(KDD-98). New York, 1998: 164- 168.
2Weiss G M, Hirsh H. Learning to Predict Rare Events in Event Sequences[ C]// In. Proc of the Fourth International Conference on Knowledge Discovery and Data Mining(KDD-98). New York: 1998:359- 363.
3Atiya A F. Bankruptcy Prediction for Credit Risk Using Neural Network: a Survey and New Results [J ]. IEEE Trans. Neural Networks, 2001, 12(4) : 929 - 935.
4Kubat M, Holte R C, Matwin S. Machine Learning for the Detection of Oil Spills in Satellite Radar Images[J ].Machine Learning, 1998, 30(2): 195-215.
5Chawla N V, Japkowicz N, Kolcz A. Editorial. Special Issue on Learning from Imbalanced Data Sets[C]// ACM SIGKDD Explorations, 2004, 6(1) : 1 - 6.
6Weiss G M. Mining with Rarity-Problems and Solutions:A Unifying Framework [ C ] // SIGKDD Explorations,2004,6(1) :7 - 19.
7Chawla N V, Japkowicz N. Kolcz A (editors). ICML'2003 Workshop on Learning from Imbalanced Data Sets[C/OL] [ 2003 ]. http://www, site. uottawa, ca/- nat/Workshop2003/workshop2003. html
8Japkowica N (editor). Proc of the AAM'2000 Workshop on Learning form Imbalanced Data Sets[R]. AAAI Tech Report WS-00-05, AAAI, 2000.
9肖健华,吴今培.样本数目不对称时的SVM模型[J].计算机科学,2003,30(2):165-167. 被引量：24
10McLachlan G J. Discriminant Analysis and Statistical Pattern Recognition[M]. New York: Wiley, 1992.

二级参考文献1

1张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. 被引量：2256

共引文献80

1郑树剑,刘冀伟,何积铨,韩旭.基于支持向量机的混凝土结构中钢筋腐蚀的判别[J].电子器件,2007,30(5):1935-1938.
2刘闽,林成德.基于支持向量机的商业银行信用风险评估模型[J].厦门大学学报（自然科学版）,2005,44(1):29-32. 被引量：26
3刘云焘,吴冲,王敏,乔木.基于支持向量机的商业银行信用风险评估模型研究[J].预测,2005,24(1):52-55. 被引量：16
4隋东坡,周焰,肖志坚.利用多光谱遥感图像融合的机场识别方法[J].计算机测量与控制,2005,13(1):72-75. 被引量：4
5陈丹,李京华,黄根全,许俊峰.基于主分量分析的声信号特征提取及识别研究[J].声学技术,2005,24(1):39-41. 被引量：11
6胡新义.油库火灾爆炸安全综合评价研究[J].西部探矿工程,2005,17(9):235-237. 被引量：7
7任国全,徐燕申,张培林.图像数学形态学变换的Delphi编程实现[J].计算机应用研究,2006,23(3):160-161. 被引量：5
8王珮,张艳宁,申家振,刘俊成.基于信息测度和支持向量机的图像边缘检测[J].山东大学学报（工学版）,2006,36(3):95-99. 被引量：4
9陈致宇,陈世权,吴今培.软计算协作技术在智能化管理中的应用研究[J].现代管理科学,2006(8):5-7.
10王和勇,郑杰,姚正安,李磊.基于聚类和改进距离的LLE方法在数据降维中的应用[J].计算机研究与发展,2006,43(8):1485-1490. 被引量：31

同被引文献150

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2瞿俊,姜青山,翁芳菲.基于重叠度的层次聚类算法[J].计算机研究与发展,2007,44(z2):181-186. 被引量：2
3康健,左宪章,唐力伟,李浩,师小红.基于灰色支持向量机的裂纹扩展信息预测研究[J].机械强度,2010(5):810-813. 被引量：10
4方俐洛,白利刚,凌文辁.HOLLAND式中国职业兴趣量表的建构[J].心理学报,1996,28(2):113-119. 被引量：69
5戴忠恒.一般能力倾向成套测验简介及其中国试用常模的修订[J].心理科学,1994,17(1):16-20. 被引量：17
6林成荫,高大启.改进的RBF网络及其参数优化方法[J].计算机工程与应用,2004,40(18):95-98. 被引量：7
7刘视湘,郑日昌.职业评定量表(VIESA)的信度和效度研究[J].心理发展与教育,2001,17(1):47-51. 被引量：10
8彭永新,龙立荣.大学生职业决策自我效能测评的研究[J].应用心理学,2001,7(2):38-43. 被引量：399
9王广东,付永生.基于Gabor小波变换的彩色图像分割[J].信息技术与信息化,2004(4):11-12. 被引量：2
10谢员,龙立荣,谢宝国,王燕.Crites职业选择态度问卷的初步修订[J].中国临床心理学杂志,2005,13(1):23-24. 被引量：13

引证文献15

1童辉杰,杨雅婕,胡娟.大学毕业生职业心理适应预测模型研究[J].教育学术月刊,2013(2):54-57.
2高嘉伟,梁吉业.非平衡数据集分类问题研究进展[J].计算机科学,2008,35(4):10-13. 被引量：16
3陈娅冰,王永仲,王延华.基于非平衡Fisher判别的两类红外特征提取[J].红外技术,2008,30(7):395-398.
4周舒冬,李丽霞,郜艳晖,徐英,叶小华,张丕德.加权Fisher线性判别法在非平衡医学数据集中的应用[J].数理医药学杂志,2009,22(1):59-61. 被引量：2
5尹军梅,杨明,万建武.一种面向不平衡数据集的核Fisher线性判别分析方法[J].模式识别与人工智能,2010,23(3):414-420. 被引量：5
6殷士勇.面向不平衡数据集的线性分类方法研究[J].重庆工商大学学报（自然科学版）,2010,27(5):467-475.
7徐红国,王素格.基于改进的类别分布特征选择方法[J].中北大学学报（自然科学版）,2011,32(2):139-142.
8殷士勇.面向多类学习问题的核最近表面分类方法[J].宁夏大学学报（自然科学版）,2011,32(4):341-345. 被引量：2
9俞辛夷,徐晓峰.鼓式硫化机辅机──前伸张器、后伸张器[J].橡胶技术与装备,2000,26(2):22-24.
10曾晓云.基于多尺度小波变换和加权Fisher线性分类器的离线签名认证[J].漯河职业技术学院学报,2015,14(5):17-19. 被引量：4

二级引证文献67

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323.
2李英杰,尹怡欣.必要规则对分类影响的研究[J].计算机应用,2009,29(9):2499-2501.
3蔡鑫.基于家庭关联关系识别模型的电信融合套餐营销[J].电信科学,2009,25(9):34-37. 被引量：2
4宋强,王莲芝,刘广利.基于熵变的DAG-SVMs的组合策略[J].计算机工程与设计,2010,31(4):832-835. 被引量：2
5王晓华,苏宏业,渠瑜,褚健.面向电信欠费挖掘的数据质量评估策略研究[J].计算机工程与应用,2011,47(12):220-224. 被引量：8
6陈佳祥,桂丹萍.基于加权Fisher模糊判别准则的真彩色影像分类方法研究[J].集美大学学报（自然科学版）,2011,16(3):236-240. 被引量：2
7李秋洁,茅耀斌,王执铨.基于Boosting的不平衡数据分类算法研究[J].计算机科学,2011,38(12):224-228. 被引量：16
8范忻,汪云甲,王行风,张书建.改进P-WSVM的矿区积水塌陷地信息提取[J].测绘科学,2012,37(4):82-84. 被引量：10
9焦盛岚,杨炳儒,翟云,赵万里.一种用于非平衡数据分类的集成学习模型[J].计算机工程与应用,2012,48(29):119-123. 被引量：5
10于重重,商利利,谭励,涂序彦,杨扬.半监督学习在不平衡样本集分类中的应用研究[J].计算机应用研究,2013,30(4):1085-1089. 被引量：8

1刘健,钱猛,张维明.基于Fisher线性判别模型的文本特征选择算法[J].国防科技大学学报,2008,30(5):135-138. 被引量：4
2杨佳玲,赵涓涓,强彦,郝晓燕,王峰智.基于深度信念网络的肺结节良恶性分类[J].科学技术与工程,2016,16(32):69-74. 被引量：13
3杨昆,徐静,张彦斌.基因选择的0-1规划模型和算法[J].计算机工程与应用,2010,46(20):184-187. 被引量：1
4李跃波,王丽珍.AUCBoost算法处理不平衡分类问题[J].云南大学学报（自然科学版）,2007,29(S2):313-318. 被引量：1
5薛贞霞,刘三阳,刘万里.2v-SSPC-一种不平衡数据分类方法[J].系统工程与电子技术,2008,30(12):2471-2476. 被引量：2
6胡光民,柯立新,吴旭宾.基于Gabor小波和增强Fisher模型的掌纹特征提取[J].价值工程,2013,32(12):185-187.
7张晓龙,江川.基于AUC的SVM多类分类方法的研究[J].计算机工程与应用,2007,43(14):166-169. 被引量：3
8陈旭.基于后验概率的共谋识别GA-SVM模型[J].价值工程,2016,35(27):186-187.
9张晓龙,邱泽伟,张晓芳.基于多目标优化的SVM多类分类方法[J].计算机工程与设计,2009,30(8):1960-1962. 被引量：2
10何毅,杨新.基于Gabor特征和增强Fisher模型的目标检测和识别[J].模式识别与人工智能,2006,19(4):455-461. 被引量：2

北京交通大学学报

2006年第5期

浏览历史

内容加载中请稍等...

非平衡数据集Fisher线性判别模型被引量：15

参考文献14

二级参考文献1

共引文献80

同被引文献150

引证文献15

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

非平衡数据集Fisher线性判别模型 被引量：15

参考文献14

二级参考文献1

共引文献80

同被引文献150

引证文献15

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

非平衡数据集Fisher线性判别模型被引量：15