基于RF的排序学习方法在电影数据集中的应用被引量：1

Application of RF-based Learning-to-rank Method in Movie Dataset

下载PDF

导出

摘要针对自制电影数据集中电影的排序问题,文章提出了一种基于RF的Bootstrap自适应双集成排序学习方法(RandomForest-based Bootstrap Self-adaptive Double-ensemble,RF-based BSD)。先利用电影媒体网站数据构建21个特征自建基于排序学习格式的电影数据集,BSD会根据输入数据集的查询数、查询-电影对数和特征数,通过Bootstrap自适应函数自动确定RF的子采样比例,然后使用单集成模型(比如MART,Multiple Additive Regression Tree,多重累计回归树)作为基学习器进行训练,最后采用bagging思想输出最终的双集成模型。实验结果显示,对比两个评价指标NDCG(Normalized Discounted Cumulative Gain,归一化折扣累计增益)和MAP(Mean Average Precision,平均值均值)的评估效果,发现BSD输出的双集成模型比单集成模型在两项指标上均有1%-3%左右的提升。 Aiming at the ranking problem of films in the self-built movie datasets,this paper proposes an RandomForestbased Bootstrap Self-adaptive Double-ensemble learning-to-rank method(RF-based BSD).First,movie datasets based on the learning-to-rank format has been self-built by using the movie media website data to construct 21 features.The sub-sampling ratio of RF will be automatically determined by BSD according to the number of queries,the query-movie pairs and the feature number in the datasets through the Bootstrap self-adaptive formula.Then the single integration model(e.g.MART,Multiple Additive Regression Tree)has been used as the base learner to train.Finally,the bagging idea is adopted to output the final double ensembling model.The experimental results show that by comparing the assessment effects of two evaluation indicators NDCG(Normalized Discounted Cumulative Gain)and MAP(Mean Average Precision).It is found that the double-ensemble model output by BSD has an improvement of about 1%-3%in both indicators compared with the single-ensemble model.

作者何启泓李旭军孙燕 HE Qi-hong;LI Xu-jun;SUN Yan(School of Physics and Optoelectronic Engineering,Xiangtan University,Xiangtan 411105,China)

机构地区湘潭大学物理与光电工程学院

出处《电脑与信息技术》 2021年第5期1-6,共6页 Computer and Information Technology

关键词随机森林排序学习电影数据集 Bootstrap子采样双集成模型 RandomForest learning-to-rank movie datasets Bootstrap sub-sampling double-ensemble

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1李金忠,刘关俊,闫春钢,蒋昌俊.排序学习研究进展与展望[J].自动化学报,2018,44(8):1345-1369. 被引量：9
2刘敏,郎荣玲,曹永斌.随机森林中树的数量[J].计算机工程与应用,2015,51(5):126-131. 被引量：58
3雷武,廖闻剑,彭艳兵.基于随机森林与LambdaMART的搜索排序模型[J].计算机与现代化,2017(3):54-58. 被引量：5
4杨亮,周逢清,林原,林鸿飞,许侃.面向排名预测的电影媒体网站研究[J].北京大学学报（自然科学版）,2019,55(1):65-74. 被引量：1
5周星,丁立新,万润泽,葛强.分类器集成算法研究[J].武汉大学学报（理学版）,2015,61(6):503-508. 被引量：25
6金众威,刘淑芬,包铁.基于LambdaMART的个性化搜索检索模型[J].吉林大学学报（理学版）,2016,54(4):821-826. 被引量：2

二级参考文献38

1Zhi-HuaZhou YangYu.Adapt Bagging to Nearest Neighbor Classifiers[J].Journal of Computer Science & Technology,2005,20(1):48-54. 被引量：7
2曹红兵.搜索引擎的个性化检索研究[J].图书情报工作,2007,51(3):129-132. 被引量：16
3Breiman L.Bagging predictors[J].Machine Learning,1996,24(2):123-140.
4Ho T.The random subspace method for constructing decision forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):832-844.
5Breiman L.Random forests[J].Machine Learning,2001,45(1):5-32.
6Zhang H,Wang M.Search for the smallest random forest[J].Statistics and ITS Interface,2009,2(3).
7Díaz-Uriarte R,De Andres S A.Gene selection and classification of microarray data using random forest[J].BMC Bioinformatics,2006,7(1).
8Svetnik V,Liaw A,Tong C,et al.Random forest:a classification and regression tool for compound classification and QSAR modeling[J].Journal of Chemical Information and Computer Sciences,2003,43(6):1947-1958.
9Oshiro T M,Perez P S,Baranauskas J A.How many trees in a random forest[M]//Machine learning and data mining in pattern recognition.Berlin Heidelberg:Springer,2012:154-168.
10Kulkarni V Y,Sinha P K.Pruning of random forest classifiers:a survey and future directions[C]//2012 International Conference on Data Science&Engineering(ICDSE),2012:64-68.

共引文献94

1刘生龙,张晓明,杨竺松.互联网使用对农村居民收入的影响[J].数量经济技术经济研究,2021,38(4):103-119. 被引量：71
2王琳,林川,刘东.基于随机森林算法与特征分析的地铁列车塞拉门故障检测[J].电力机车与城轨车辆,2022,45(5):90-95. 被引量：1
3张璐琳.随机森林在通信干扰效果客观评价中的应用[J].无线电通信技术,2016,42(5):88-91.
4李磊,牟少敏,林中琦.随机森林在棉蚜虫害等级预测中的应用[J].安徽农学通报,2017,23(1):18-20. 被引量：2
5王显鹏,黄灿明,徐子睿,王丹敬.基于集成学习的连退带钢质量在线预报方法[J].控制工程,2017,24(3):481-486. 被引量：2
6胡添翼,戴波,何启,薛洋,黄梦婧.基于随机森林分类算法的边坡稳定预测模型[J].人民黄河,2017,39(5):115-118. 被引量：10
7公鑫,潘金生,李仁辉,朱英杰,公茂法.基于Adaboost识别算法的电力塔杆拉线防盗报警系统的研究[J].电测与仪表,2017,54(16):39-42. 被引量：4
8熊李艳,陈晓霞,钟茂生,黄晓辉.基于PairWise排序学习算法研究综述[J].科学技术与工程,2017,17(21):184-190. 被引量：6
9盛杰,刘岳,尹成语.基于多特征和Stacking算法的Android恶意软件检测方法[J].计算机系统应用,2018,27(2):197-201. 被引量：5
10魏正韬,杨有龙,白婧.基于非平衡数据的随机森林分类算法改进[J].重庆大学学报（自然科学版）,2018,41(4):54-62. 被引量：11

同被引文献6

1吴军华,王佳利.基于依赖图的程序克隆分析及近似解求解方法[J].南京工业大学学报（自然科学版）,2013,35(5):52-56. 被引量：3
2于大海,李金,罗艳虹,刘近春,张岩波.随机森林模型和决策树模型在肝硬化上消化道出血预后中的应用[J].中国卫生统计,2019,36(2):162-166. 被引量：24
3闵超,代博仁,张馨慧,杜建平.机器学习在油气行业中的应用进展综述[J].西南石油大学学报（自然科学版）,2020,42(6):1-15. 被引量：15
4方文超,刘传喜,苟斐斐,秦学杰,蒲军,宋文芳,吴军来.非常规油气藏水平井体积压裂改造体积计算方法[J].科学技术与工程,2021,21(5):1681-1689. 被引量：9
5吴璐.基于SVM-RFE特征选择的规则提取方法[J].微型电脑应用,2021,37(9):150-154. 被引量：6
6张建荣,张伟,薛楠楠,赵挺生.基于随机森林算法的塔式起重机安全事故预测及致因分析[J].安全与环境工程,2021,28(5):36-42. 被引量：20

引证文献1

1李菊花,秦顺利,王洁,梁成钢,陈依伟,胡可.随机森林算法在吉木萨尔页岩油藏中的应用[J].长江大学学报（自然科学版）,2023,20(2):69-76. 被引量：3

二级引证文献3

1赵庆杰,唐宏宝,张乾,冯凡,郝华松,白石.页岩油压裂井产量预测方法研究[J].油气井测试,2024,33(3):46-52.
2王薇.基于随机森林回归算法的抽油机井系统效率分析与预测[J].石油石化节能与计量,2024,14(8):1-5.
3曹潇颖.基于随机森林回归算法的油井能耗分析和预测[J].化学工程与装备,2024(7):125-129.

1张璐,曾莉.围手术期非计划性低体温风险评估的研究进展[J].中国实用护理杂志,2020,36(2):153-157. 被引量：19
2张荑阳,毛红霞.基于python的豆瓣电影数据采集与分析可视化[J].电子制作,2021,29(16):47-49. 被引量：4
3何琦,胡斌,庄清.数字内容产业创意网络结构与演化特征研究——基于2012~2019年中国电影数据的实证[J].软科学,2021,35(8):84-93. 被引量：2
4张建.胃癌患者血清T淋巴细胞亚群水平与化疗效果的相关性[J].中国实用医刊,2021,48(14):5-7. 被引量：3
5张露,刘家鹏,江敏祺.集成机器学习模型在不平衡样本财务预警中的应用[J].电子技术应用,2021,47(8):34-38. 被引量：2
6陈岩,侯群,关雅琦.梯度提升回归树在风力发电机温度预测的应用研究[J].电子世界,2021(16):91-94. 被引量：1
7潘云,李健.基于社交媒体UGC图片数据的景观偏好研究——以西溪国家湿地公园为例[J].自然保护地,2021,1(1):100-108. 被引量：8
8张浩天.河北农村地区健康教育中存在的问题及对策[J].黑龙江科学,2021,12(18):142-143.
9李小燕,楼玉美.老年脑梗死患者住院费用病例分组分析[J].中国卫生经济,2021,40(8):34-36. 被引量：5
10徐秋会,王晓慧,董正秋,王薇,曹霞.经会阴三维超声评估育龄女性分娩方式对盆底功能的影响[J].齐齐哈尔医学院学报,2021,42(14):1228-1231. 被引量：8

电脑与信息技术

2021年第5期

浏览历史

内容加载中请稍等...

基于RF的排序学习方法在电影数据集中的应用被引量：1

参考文献6

二级参考文献38

共引文献94

同被引文献6

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于RF的排序学习方法在电影数据集中的应用 被引量：1

参考文献6

二级参考文献38

共引文献94

同被引文献6

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于RF的排序学习方法在电影数据集中的应用被引量：1