基于局部敏感哈希的改进堆叠算法被引量：2

An Improved Stack Algorithm Based on Local Sensitive Hash

下载PDF

导出

摘要堆叠泛化有着与生俱来的高复杂性、“数据泄露”的问题,同时针对不同的数据样本也存在稳定性方面的问题。为此,本文提出的基于敏感哈希的堆叠算法LBDS,利用局部敏感哈希(local sensitive hashing,LSH)算法,首先将训练集和测试集映射到哈希桶,当其中某个桶满时作为开始训练条件,训练出的模型对下一次桶满时的训练数据和测试数据及其邻域进行预测。接着,利用稳定性和信息熵条件对基分类器筛选,生成高层数据。最后,将高层训练预测得到的结果通过混合投票和平均的方法求得最终分类结果。在若干数据集上的验证结果显示,LBDS在Acc和AUC上有平均2%的改进,训练时间复杂度有10%的降低,同时表现出更好的稳定性和更强的泛化能力。 Stack generalization is born with high complexity and data leakage.At the same time,when it faces different data samples,the result is not stable.The LBDS proposed in this paper uses LSH(local sensitive hashing)algorithm to map the training and test set to the hash bucket.When one of the two bucket is full,which will be used as the starting training condition,the trained model predicts the training and test data and their neighborhoods when the other bucket is full.Then the algorithm filters the base classifier by using the stability and information entropy conditions and generates the high-level classifier.Finally,through the mixed voting and average method,the results generated by high-level training prediction are obtained.Experimental results show that LBDS has an average improvement of 2%in ACC and AUC,and a decrease of 10%in training time complexity.Meanwhile,LBDS shows better stability and generalization ability.

作者王俊杰温雪岩徐克生于鸣 WANG Junjie;WEN Xueyan;XU Kesheng;YU Ming(College of Computer and Engineering, Northeast Forestry University, Harbin Heilongjiang 150040, China;State Forestry Administration Harbin Forestry Machinery Research Institute, Harbin Heilongjiang 150086, China)

机构地区东北林业大学信息与计算机工程学院国家林业局哈尔滨林业机械研究所

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2020年第4期21-31,共11页 Journal of Guangxi Normal University:Natural Science Edition

基金国家重点研发计划(2016YFD0702105) 中央高校基本科研业务费专项(2572017PZ10)。

关键词堆叠泛化局部敏感哈希时间复杂度稳定性元分类器 stack generalization locally sensitive hashing time complexity stability meta classifier

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1熊霖,唐万梅.基于异构分类器集成的增量学习算法[J].计算机工程与应用,2020,56(7):155-161. 被引量：3
2吴挡平,张忠林,曹婷婷.基于Stacking策略的稳定性分类器组合模型研究[J].小型微型计算机系统,2019,40(5):1045-1049. 被引量：10
3徐继伟,杨云.集成学习方法:研究综述[J].云南大学学报（自然科学版）,2018,40(6):1082-1092. 被引量：138

二级参考文献20

1李霞,张田文,郭政.一种基于递归分类树的集成特征基因选择方法[J].计算机学报,2004,27(5):675-682. 被引量：26
2唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
3谷雨,徐宗本,孙剑,郑锦辉.基于PCA与ICA特征提取的入侵检测集成分类系统[J].计算机研究与发展,2006,43(4):633-638. 被引量：25
4熊志斌.基于ARIMA与神经网络集成的GDP时间序列预测研究[J].数理统计与管理,2011,30(2):306-314. 被引量：76
5张春霞,张讲社.选择性集成学习算法综述[J].计算机学报,2011,34(8):1399-1410. 被引量：139
6韩妍妍,冯筠,崔鑫,王秋萍.动态多分类器集成在肺结节辅助检测中的应用[J].计算机工程与应用,2012,48(2):218-221. 被引量：2
7刘凯,王正群.一种用于分类的改进Boosting算法[J].计算机工程与应用,2012,48(6):146-150. 被引量：3
8喻春萍,黄晓霞.基于CFS-GA特征选择算法的中文网页自动分类[J].上海海事大学学报,2012,33(1):77-81. 被引量：2
9赵小欢,夏靖波,李明辉.基于随机森林算法的网络流量分类方法[J].中国电子科学研究院学报,2013,8(2):184-190. 被引量：9
10曹莹,苗启广,刘家辰,高琳.AdaBoost算法研究进展与展望[J].自动化学报,2013,39(6):745-758. 被引量：267

共引文献146

1夏润亮,刘启兴,李涛,刘晓燕,高云飞,吴丹.基于集成学习的黄河未控区径流预测研究[J].应用基础与工程科学学报,2020(3):740-749. 被引量：7
2冯建英,苏允汇,龚劭齐,王智,穆维松.基于集成学习的农业生产技术效率评价方法[J].农业机械学报,2021,52(S01):148-155. 被引量：6
3张丽颖,杨若瑾.基于机器学习的个人贷款违约预测模型的应用研究[J].金融监管研究,2022(6):46-59. 被引量：5
4郜丽鹏,李勇.一种基于集成学习的DBN模型分类方法[J].哈尔滨商业大学学报（自然科学版）,2019,35(5):585-589. 被引量：3
5陈伽洛,陈龙然.决策树与随机森林[J].信息与电脑,2019,0(17):43-45. 被引量：6
6杨扬,刘镇波,刘一星,蒋大鹏.应用随机森林算法检测琵琶共鸣板振动特性及声学品质评价[J].东北林业大学学报,2019,47(8):66-69. 被引量：1
7胡林,刘婷婷,李欢,崔运鹏.机器学习及其在农业中应用研究的展望[J].农业图书情报,2019,31(10):12-22. 被引量：8
8张燕燕,王鹤鸣,姬天相,王军选.机器学习在5G超密集网络切换中的应用[J].电讯技术,2019,59(12):1371-1377. 被引量：6
9傅红普,邹北骥.AdaBoost分类器的一种快速训练方法[J].云南大学学报（自然科学版）,2020,42(1):50-57. 被引量：4
10高尚,唐元合,翟明玉,许寒阳.基于集成学习的输变电设备数据质量检测方法[J].电子测量技术,2020,43(2):108-112. 被引量：5

同被引文献32

1荣辉桂,火生旭,胡春华,莫进侠.基于用户相似度的协同过滤推荐算法[J].通信学报,2014,35(2):16-24. 被引量：149
2陈洁敏,汤庸,李建国,蔡奕彬.个性化推荐算法研究[J].华南师范大学学报（自然科学版）,2014,46(5):8-15. 被引量：57
3沈苗,来天平,王素美,彭一明,高志同.北京大学课程推荐引擎的设计和实现[J].智能系统学报,2015,10(3):369-375. 被引量：13
4丁永刚,张馨,桑秋侠,金梦甜,张红波.融合学习者社交网络的协同过滤学习资源推荐[J].现代教育技术,2016,26(2):108-114. 被引量：21
5郭兰杰,梁吉业,赵兴旺.融合社交网络信息的协同过滤推荐算法[J].模式识别与人工智能,2016,29(3):281-288. 被引量：40
6梁婷婷,李春青,李海生.基于内容过滤PageRank的Top-k学习资源匹配推荐[J].计算机工程,2017,34(2):220-226. 被引量：12
7高玉凯,王新华,郭磊,陈竹敏.一种基于协同矩阵分解的用户冷启动推荐算法[J].计算机研究与发展,2017,54(8):1813-1823. 被引量：26
8付芬,豆育升,韩鹏,李耀辉.基于隐式评分和相似度传递的学习资源推荐[J].计算机应用研究,2017,34(12):3725-3729. 被引量：15
9丁继红,刘华中.大数据环境下基于多维关联分析的学习资源精准推荐[J].电化教育研究,2018,39(2):53-59. 被引量：28
10唐颖峰,陈世平.利用k-d树索引改进数据流skyline查询算法[J].小型微型计算机系统,2018,39(3):544-550. 被引量：5

引证文献2

1李慧,王修锐,陈艳艳,韩国凯,侯鹏飞,刘鑫堂,从建炜.基于协同过滤推荐算法的第二课堂学习系统架构[J].江苏海洋大学学报（自然科学版）,2021,30(4):87-93. 被引量：2
2方朝剑,胡新荣.基于模糊近似度的隐私敏感数据过滤算法[J].吉林大学学报（工学版）,2023,53(4):1174-1180. 被引量：1

二级引证文献3

1王国霞.大学生第二课堂活动管理系统设计[J].电子技术与软件工程,2022(18):238-241.
2王丹,田广强.基于协同标注的个性化电子学习推荐系统[J].计算机工程与设计,2023,44(10):3193-3200. 被引量：2
3冯善元,胡检平,方玲,刘丹里,钱宇晨,张红霞,胡斌.数据整合征供一体化土地批后监管模型设计[J].地理空间信息,2024,22(3):110-114.

1冯伟,杭文龙,梁爽,刘学军,王辉.基于层间模型知识迁移的深度堆叠最小二乘分类器[J].计算机研究与发展,2019,56(12):2589-2599. 被引量：3
2冯铁,靳乐,张家晨,王洪媛.基于堆叠泛化的设计模式检测方法[J].软件学报,2020,31(6):1703-1722. 被引量：5
3石祥滨,耿凯,刘翠微.融合显著特征和互信息熵的SLAM闭环检测算法[J].小型微型计算机系统,2020,41(1):171-176. 被引量：7
4李治城,胡欣宇.大数据背景下数据安全与隐私保护问题研究[J].物联网技术,2020,10(6):76-78. 被引量：9
5肖英.高职院校兼职教师队伍建设与高效管理的探索[J].江西化工,2020,36(2):169-171. 被引量：2
6王文静.农村学校课余体育训练存在问题及对策[J].田径,2020,0(6):69-70. 被引量：1
7国内报刊文摘[J].中国信息安全,2020(4):27-27.
8岳勇,郭仲勇.数字技术赋能供应链金融的应用研究[J].网络空间安全,2020,11(3):72-80. 被引量：1
9曾路,汪浩.基于机器学习的虚拟仪器软件缺陷预测模型研究[J].自动化与仪器仪表,2020(5):59-62. 被引量：7
10王礼洪,魏升昀,刘欢,苏银山,武增才,字成庭.甲基化表没食子儿茶素没食子酸酯类似物的合成及活性研究概述[J].食品安全导刊,2020(12):175-176. 被引量：1

广西师范大学学报（自然科学版）

2020年第4期

浏览历史

内容加载中请稍等...

基于局部敏感哈希的改进堆叠算法被引量：2

参考文献3

二级参考文献20

共引文献146

同被引文献32

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于局部敏感哈希的改进堆叠算法 被引量：2

参考文献3

二级参考文献20

共引文献146

同被引文献32

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于局部敏感哈希的改进堆叠算法被引量：2