合成少数类过采样过滤器方法在二手车推荐中的应用被引量：1

Used-car Recommendation Based on Synthetic Minority Over-sampling Technique Filter

下载PDF

导出

摘要由于二手车推荐的数据集具有非平衡特性,因此,二手车推荐可视为非平衡分类问题,可借助解决非平衡分类问题的方法来实现二手车推荐。本文对非平衡数据分类的数据集重构进行研究,通过分析合成少数类过采样方法(Synthetic Minority Over-sampling Technique,SMOTE)的特点与不足,提出合成少数类过采样过滤器方法 (Synthetic Minority Oversampling Technique Filter,Smote Filter),对SMOTE方法合成样本进行过滤,减少合成样本中的噪声数据,提高训练样本"质量"。使用支持向量机对SMOTE合成的数据和Smote Filter合成的数据进行实验对比,结果表明Smote Filter方法相较传统的SMOTE过采样方法,提高了二手车推荐中少数类的预测精度,提升了对二手车推荐的整体预测性能。 Due to the fact the used-car data have unbalanced characteristics , recommendation of used-cars boils down to unbal-anced data classification problem and it can be solved with the unbalanced classification methods .In this paper , with the focus on reconstruction of the trainning data set and by an analysis of characteristics and deficiency of the SMOTE over -sampling method , we propose the Synthetic Minority Over-sampling Technique Filter , or SmoteFilter for short .It works by filtering the data genera-ted by SMOTE over-sampling and reduces the noise in generated data .Based on support vector machine using data generated by SMOTE and SmoteFilter , the experimental study shows that SmoteFilter method has better effect on predicting accuracy of minority class than the SMOTE method , improving the prediction performance of vehicle recommendation .

作者邱海波钱忠民钱默抒

机构地区南京航空航天大学计算机科学与技术学院南京航空航天大学无人机研究院

出处《计算机与现代化》 2016年第7期118-123,共6页 Computer and Modernization

基金国家自然科学基金资助项目(61403195) 江苏省自然科学基金资助项目(SBK2014042586)

关键词二手车推荐分类非平衡数据过采样支持向量机 used-car recommendation classification imbalanced dataset over-sampling support vector machine

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. 被引量：2257
2林升梁,刘志.基于RBF核函数的支持向量机参数选择[J].浙江工业大学学报,2007,35(2):163-167. 被引量：142
3邵信光,杨慧中,陈刚.基于粒子群优化算法的支持向量机参数选择及其应用[J].控制理论与应用,2006,23(5):740-743. 被引量：127
4张辉,郑安文.中国二手车市场现状分析及发展对策[J].汽车工业研究,2012(7):10-13. 被引量：24

二级参考文献28

1邵信光,杨慧中,石晨曦.ε不敏感支持向量回归在化工数据建模中的应用[J].东南大学学报（自然科学版）,2004,34(B11):215-218. 被引量：6
2李盼池,许少华.支持向量机在模式识别中的核函数特性分析[J].计算机工程与设计,2005,26(2):302-304. 被引量：98
3丁礼灯,席敏.我国二手车市场现状分析[J].法制与社会,2008(24):114-115. 被引量：15
4肖俊涛.影响我国二手车交易的制约因素及对策分析[J].湖北汽车工业学院学报,2006,20(3):63-66. 被引量：3
5吕恩利,陆华忠.国内外二手车评估体系的比较[J].汽车工业研究,2007(3):27-29. 被引量：14
6VAPNIK V N.The Nature of Statistical Learning Theory[M].New York:Springer-Veriag,1995.
7SMOLA A J,SCHOLKOPF B.A tutorial on support vector regression[R].NeuroCOLT2 Technical Report NC2-TR-1998-030.London:Royal Holloway College,University of London,1998.
8SANCHEZ A D.Advanced support vector machines and kernel methods[J].Neurocomputing,2003,55(1):5-20.
9CHAPPELLE O,VAPNIK V,BOUSQUET O,et al.Choosing multiple parameters for support vector machines[J].Machine Learning,2002,46(1):131-160.
10CHEN Pengwei,WANG Jungying,LEE Hahnming.Model selection of SVMs using GA approach[C]//Proc of 2004 IEEE Int Joint Conf on NeuralNetworks.Piscataway,NJ:IEEE Press,2004:2035-2040.

共引文献2528

1白岗岗,侯精明,史玉品,韩浩,郭凯华,李丙尧,付德宇.基于支持向量机的葫芦河流域径流变化的多因素贡献率分析[J].水土保持研究,2020,27(2):112-117. 被引量：2
2楼皓,曹倩,李海生.基于ARIMA-SVM组合模型的中国出口欧盟食品安全风险预测[J].食品工业,2020,0(1):334-339. 被引量：3
3熊景华,茹璟.基于随机森林算法和模糊信息粒化的汇率预测组合模型研究[J].数量经济技术经济研究,2021,38(1):135-156. 被引量：12
4曾赟.第四种法学知识新形态——数据法学的研究定位[J].法制与社会发展,2023,29(1):41-59. 被引量：8
5乔丹,刘刚,杨执钧,钟韬,白雪.基于迁移学习的船舶目标识别[J].计算机应用研究,2020,37(S01):324-325. 被引量：1
6王云锋,刘丹,裴作飞,姚丽霜.基于改进引力搜索算法的SVM的参数优化及应用[J].计算机应用研究,2020,37(S01):152-154. 被引量：5
7孟琮棠,赵银娣,向阳.基于卷积神经网络的遥感图像变化检测[J].现代测绘,2019,0(5):1-5. 被引量：3
8李佳民.二手车市场存在的问题及对策[J].中国经贸导刊,2019,0(7Z):153-154. 被引量：1
9初佳兰,邵光辉,赵建华,高宁,王飞,崔宾阁.高分一号的浮筏养殖信息提取方法[J].测绘科学,2020,45(1):92-98. 被引量：6
10田海军,门洪,郎世伟.基于LS-SVM的电厂过热汽温仿真研究[J].微计算机信息,2007,23(10):270-272. 被引量：2

同被引文献4

1冯秀荣,王斌.影响二手车价值的因子分析[J].商业研究,2008(2):102-105. 被引量：22
2周凌云.决策树在汽车评测中的应用研究[J].中南民族大学学报（自然科学版）,2012,31(3):97-100. 被引量：2
3曹莹,苗启广,刘家辰,高琳.AdaBoost算法研究进展与展望[J].自动化学报,2013,39(6):745-758. 被引量：258
4周遊.适用于二手车的价值评估方法研究[J].黑龙江交通科技,2013,36(11):172-174. 被引量：1

引证文献1

1刘聪,程希明.基于AdaBoost的二手车价值评估方法[J].北京信息科技大学学报（自然科学版）,2017,32(3):49-53. 被引量：4

二级引证文献4

1李幽,郑兴旺,薛建国.基于神经网络算法的二手商用车估价模型及应用系统的研究与实现[J].经营与管理,2019,0(11):63-70. 被引量：1
2李富强,彭海丽,杨熙,张文静.基于深度学习的二手车价格预测模型及影响分析[J].汽车工程学报,2021,11(5):379-385. 被引量：2
3牟娇,梅培楠.基于随机森林的二手摩托车残值率预估模型[J].现代计算机,2022,28(20):47-51.
4闫绍伟.关于二手车评估中的问题车识别技巧探析[J].时代汽车,2019(1):159-160. 被引量：3

1曾志强,吴群,廖备水,高济.一种基于核SMOTE的非平衡数据集分类方法[J].电子学报,2009,37(11):2489-2495. 被引量：48
2王超学,张涛,马春森.面向不平衡数据集的改进型SMOTE算法[J].计算机科学与探索,2014,8(6):727-734. 被引量：23
3薛大伸,钱静,赵唤忠.SQL Server数据库组合查询的实现方法[J].微机发展,2001,11(1):43-45. 被引量：4
4王继成,黄源,武港山,张福炎.一种两阶段的神经网络属性选择方法[J].广西师范大学学报（自然科学版）,2003,21(A01):41-45. 被引量：2
5楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
6张成刚,宋佳智,姜静清,裴志利.一种改进的降噪自编码神经网络不平衡数据分类算法[J].计算机应用研究,2017,34(5):1329-1332. 被引量：16
7黄永毅.一种不平衡数据支持向量机分类算法[J].硅谷,2013,6(12):34-35. 被引量：1
8陈川,张化祥.基于聚类的少数类样本采样方法[J].信息技术与信息化,2011(5):65-68. 被引量：1
9翟云,王树鹏,马楠,杨炳儒,张德政.基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法[J].电子学报,2014,42(7):1311-1319. 被引量：17
10刘杰,金弟,杜惠君,刘大有.一种新的混合特征选择方法RRK[J].吉林大学学报（工学版）,2009,39(2):419-423. 被引量：7

计算机与现代化

2016年第7期

浏览历史

内容加载中请稍等...

合成少数类过采样过滤器方法在二手车推荐中的应用被引量：1

参考文献4

二级参考文献28

共引文献2528

同被引文献4

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

合成少数类过采样过滤器方法在二手车推荐中的应用 被引量：1

参考文献4

二级参考文献28

共引文献2528

同被引文献4

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

合成少数类过采样过滤器方法在二手车推荐中的应用被引量：1