训练样本数据选择方法研究综述被引量：10

Research on Training Sample Data Selection Methods

下载PDF

导出

摘要机器学习作为数据挖掘中一种重要的工具,不只是对人的认知学习过程的探索,还包括对数据的分析处理。面对大量数据的挑战,目前一部分学者专注于机器学习算法的改进和开拓,另一部分研究人员则致力于样本数据的选择和数据集的缩减,这两方面的研究工作是并行的。训练样本数据选择是机器学习的一个研究热点,通过对样本数据的有效选择,提取更具有信息量的样本,剔除冗余样本和噪声数据,从而提高训练样本质量,进而获得更好的学习性能。文中就目前存在的样本数据选择方法进行综述研究,从基于抽样的方法、基于聚类的方法、基于近邻分类规则的方法这三大类以及其他相关数据选择方法4个方面对目前存在的方法进行总结和分析对比,并对训练样本数据选择方法存在的问题和未来研究方向提出一些总结和展望。 Machine learning,as an important tool in data mining,not only explores the cognitive learning process of human beings,but also includes the analysis and processing of data.Faced with the challenge of massive data,at present,some researches focus on the improvement and development of machine learning algorithm,while others focus on the selection of sample data and the reduction of data set.The two aspects of researches work in parallel.The selection of training sample data is a research hotspot of machine learning.By effectively selecting sample data,extracting more informative samples,eliminating redundant samples and noise data,thus improving the quality of training samples and obtaining better learning performance.In this paper,the exis-ting methods of sample data selection are reviewed,and the existing methods are carried out in four aspects:sampling-based me-thod,cluster-based method,nearest neighbor classification rule-based method and other related data selection methods.Summarize and analyze the comparison,and put forward some conclusions and prospects for the problems existing in the training sample data selection method and future research directions.

作者周玉任钦差牛会宾 ZHOU Yu;REN Qin-chai;NIU Hui-bin(School of Electric Power,North China University of Water Resources and Electric Power,Zhengzhou 450011,China)

机构地区华北水利水电大学电力学院

出处《计算机科学》 CSCD 北大核心 2020年第S02期402-408,共7页 Computer Science

基金河南省高等学校青年骨干教师培养计划(2018GGJS079) 国家自然科学基金(U1504622,31671580)。

关键词训练样本数据选择机器学习神经网络支持向量机 Training sample Data selection Machine learning Neural networks Support vector machines

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1张安安,郑萍,方琳,彭嵩松.一种基于邻域样本密度的SVDD样本剪辑方法及其应用[J].江西科学,2014,32(6):884-889. 被引量：2
2张莉,郭军.基于边界样本的训练样本选择方法[J].北京邮电大学学报,2006,29(4):77-80. 被引量：15
3罗瑜,易文德,何大可,林宇.大规模训练集的快速缩减[J].西南交通大学学报,2007,42(4):468-472. 被引量：5
4李春利,柳振东,惠康华.基于余弦相似度的边界样本选择方法[J].计算机与现代化,2017,0(8):66-70. 被引量：3
5石鑫鑫,胡学钢,林耀进.融合互近邻和可信度的K-近邻分类算法[J].合肥工业大学学报（自然科学版）,2014,37(9):1055-1058. 被引量：6
6周玉,朱安福,周林,钱旭.一种神经网络分类器样本数据选择方法[J].华中科技大学学报（自然科学版）,2012,40(6):39-43. 被引量：18
7李娟,王宇平.考虑局部均值和类全局信息的快速近邻原型选择算法[J].自动化学报,2014,40(6):1116-1125. 被引量：10
8万中英,王明文,左家莉,刘长红.一种新的样本选择算法及其在文本分类中的应用[J].江西师范大学学报（自然科学版）,2019,43(1):76-83. 被引量：4

二级参考文献92

1姜文瀚,周晓飞,杨静宇.基于样本选择的最近邻凸包分类器[J].中国图象图形学报,2008,13(1):109-113. 被引量：4
2王成山,王继东.基于小波包分解的电能质量扰动分类方法[J].电网技术,2004,28(15):78-82. 被引量：68
3陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：51
4李青,焦李成,周伟达.基于向量投影的支撑向量预选取[J].计算机学报,2005,28(2):145-152. 被引量：37
5刘刚,张洪刚,郭军.不同训练样本对识别系统的影响[J].计算机学报,2005,28(11):1923-1928. 被引量：15
6李晓宇,张新峰,沈兰荪.支持向量机(SVM)的研究进展[J].测控技术,2006,25(5):7-12. 被引量：45
7杨丽华,戴齐,郭艳军.KNN文本分类算法研究[J].微计算机信息,2006,22(07X):269-270. 被引量：24
8曹淑娟,刘小茂,张钧,刘振丙.基于类中心思想的去边缘模糊支持向量机[J].计算机工程与应用,2006,42(22):146-149. 被引量：8
9张莉,郭军.基于边界样本的训练样本选择方法[J].北京邮电大学学报,2006,29(4):77-80. 被引量：15
10任俊玲.基于广义置信度的样本选择算法[J].中文信息学报,2007,21(3):106-110. 被引量：4

共引文献50

1邓红平,宋婉娟.基于反例样本的原始凭证的手写数字识别[J].武汉理工大学学报,2008,30(3):154-156. 被引量：2
2张羽,王慧强,贺英杰.网络态势感知系统的告警阈值确定方法研究[J].世界科技研究与发展,2008,30(4):443-445. 被引量：1
3吴丽芳,徐圆,朱群雄.基于组件的石化过程智能建模与优化系统的设计与开发[J].计算机与应用化学,2009,26(8):979-984. 被引量：1
4徐和飞,蒋存波,金红,陈静.基于统计的电加工间隙检测与伺服控制系统实现[J].制造技术与机床,2010(1):35-37. 被引量：1
5陈先来,杨路明.基于均矢量相似性的机器学习样本集划分[J].中南大学学报（自然科学版）,2009,40(6):1636-1641. 被引量：7
6杨晓敏,吴炜,陈默,何小海.基于投影中心距离的支持向量预选取[J].四川大学学报（自然科学版）,2010,47(1):85-90.
7丁晓剑,赵银亮.双边界支持向量机的理论研究与分析[J].北京邮电大学学报,2010,33(2):20-23. 被引量：2
8孙鹏飞,张健沛.基于样本选择的蛋白质关联结构预测[J].计算机与应用化学,2010,27(7):937-940.
9谢迎新,陈祥光,余向明,岳彬,郭静.基于快速SVDD的无线传感器网络Outlier检测[J].仪器仪表学报,2011,32(1):46-51. 被引量：8
10王海洋,丁正生.基于分段贪婪的SVM训练算法研究[J].商业文化（学术版）,2008,0(5):171-172.

同被引文献83

1刘玉菲,吕蓓茹,彭玲,吴同,刘赛.城中村建筑物识别训练样本数据集[J].全球变化数据学报（中英文）,2020,4(2):181-187. 被引量：3
2裴晓丹,孙建国.土地覆盖更新中训练样本的动态选取方法[J].测绘科学,2020,45(2):117-120. 被引量：2
3张冬青,张纯学,文苏丽.自动目标识别技术在导弹上的应用研究[J].战术导弹技术,2010(5):1-6. 被引量：11
4林毅夫.潮涌现象与发展中国家宏观经济理论的重新构建[J].经济研究,2007,42(1):126-131. 被引量：523
5张翔,肖小玲,徐光祐.一种确定高斯核模型参数的新方法[J].计算机工程,2007,33(12):52-53. 被引量：12
6郝红卫,蒋蓉蓉.基于最近邻规则的神经网络训练样本选择方法[J].自动化学报,2007,33(12):1247-1251. 被引量：37
7张欣,梁宗保.多分类器融合算法研究与应用[J].湘潭大学自然科学学报,2011,33(2):99-103. 被引量：5
8刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：132
9孙伟,张俊升,邢培锐.基于随机森林的乳腺肿瘤细针穿刺辅助诊断[J].计算机应用,2015,35(A02):143-145. 被引量：5
10曾毅,刘成林,谭铁牛.类脑智能研究的回顾与展望[J].计算机学报,2016,39(1):212-222. 被引量：121

引证文献10

1杨伟杰,薛河儒,白洁.牛乳体细胞分类器的研究与实现[J].数字技术与应用,2021,39(7):114-116. 被引量：1
2李天一,樊浩宸,李天赐,孟祥卉.服务机器学习的遥感图像样本采集技术与工具开发[J].科技创新与应用,2021,11(28):32-34.
3刘宁.机器学习方法在哮喘早期预测和诊断中的应用[J].河南医学研究,2021,30(35):6560-6563. 被引量：3
4朱奕坤,郭从洲,李可,吴限量.误差反向传播卷积神经网络的权值更新[J].信息工程大学学报,2021,22(5):537-544. 被引量：3
5李波.应用计算机技术实现临床医学信息分析的方法[J].信息技术,2021,45(12):118-123.
6江艟,刘善球,王艳云.智能健身“热”背后的“冷”思考[J].湖北体育科技,2022,41(3):217-219. 被引量：1
7樊星男,刘晓娟.一种适用于轴承故障诊断的改进Mixup数据增强方法[J].工程机械,2022,53(4):38-45. 被引量：1
8赵军民,魏嘉艺,吴思捷,李新国,吕梅柏.复杂战场对抗环境下空中目标抗干扰识别算法[J].兵工学报,2022,43(10):2576-2587. 被引量：1
9赵松,傅豪,王洪星.伪异常选择驱动学习的视频异常检测[J].计算机科学,2023,50(5):146-154.
10闫亚亮,陈龙,赵珺,王伟.基于相关向量机样本选择的钢铁企业副产煤气系统预测[J].冶金自动化,2023,47(3):35-43.

二级引证文献10

1魏杰,刘源源.面向儿童哮喘的医疗健康管理服务设计研究[J].包装工程,2023,44(S01):292-301. 被引量：1
2王朝晖,康欢,陈多芳,徐欣怡,曾琦,梁继民,陈雪利.轻量化深度网络辅助于无透镜计算显微图像的细胞分类[J].中国激光,2022,49(5):130-138. 被引量：3
3吕婷婷,王清,柏林元.基于回归算法的装备健康度预测方法[J].火炮发射与控制学报,2022,43(6):64-69. 被引量：3
4谭静仪,蔡灿,林爱华,董雪.基于SVM算法的冠心病分类预测案例研究[J].医学信息,2023,36(1):37-41.
5毛少华,王文东.卷积神经网络的深度与宽度对猫狗图像识别模型性能的影响[J].河南科学,2023,41(7):956-963. 被引量：1
6岳志豪,赵明冬,周斌,马金辉.计算机视觉在仪表数字识别中的应用[J].无线互联科技,2023,20(11):109-112.
7任瑛,王思源,夏必胜.基于BP神经网络的延安市冬季PM_(2.5)浓度预测[J].延安大学学报（自然科学版）,2023,42(3):73-77. 被引量：3
8陈垦,欧鸥,杨长志,龚帅,欧阳飞,向东升.基于改进YOLOX的落石检测方法[J].计算机测量与控制,2023,31(11):53-59. 被引量：2
9刘丽霞,付群.科技赋能健身产业高质量发展的现实基础、核心特征及路径选择[J].体育教育学刊,2024,40(4):38-45.
10梁修荣.基于SDM算法的物联网通信数据动态多域抗干扰方法[J].自动化与仪器仪表,2024(8):38-41.

1袁浩镛.胜任力研究综述[J].产业与科技论坛,2020(14):84-85. 被引量：5
2史伟.组合训练法在高校足球训练中的应用分析[J].体育风尚,2020(12):51-52. 被引量：4
3王秋实.大数据技术在电商平台中的应用[J].电子技术与软件工程,2020(13):188-189. 被引量：2
4郭玉哿.农民合作社是粮食产业化经营的有效选择[J].粮食问题研究,2020(6):31-34.
5杨青青.多元材料在幼儿园美术活动中的应用[J].好日子,2020(32):153-153.
6李晓倩.农村意识形态建设综述[J].新丝路（中旬）,2020(12):0008-0010.
7闫祥祥.使用ARIMA模型预测公园绿地面积[J].计算机科学,2020,47(S02):531-534. 被引量：15
8喻梦源.政治地理综述研究[J].新丝路（中旬）,2020(12):0202-0202.
9冉福林(编译).欧盟环境足迹指导委员会推出皮革碳足迹检测方法[J].北京皮革（中外皮革信息版）（中）,2020(7):83-83.
10钟倩欣.趣味游戏在羽毛球步法训练中的作用[J].文体用品与科技,2020(22):43-44. 被引量：3

计算机科学

2020年第S02期

浏览历史

内容加载中请稍等...

训练样本数据选择方法研究综述被引量：10

参考文献8

二级参考文献92

共引文献50

同被引文献83

引证文献10

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

训练样本数据选择方法研究综述 被引量：10

参考文献8

二级参考文献92

共引文献50

同被引文献83

引证文献10

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

训练样本数据选择方法研究综述被引量：10