基于集群的协同过滤实时推荐系统研究

Collaborative Filtering Recommendation System Based on Cluster

下载PDF

导出

摘要大数据环境下的信息挖掘已成为推荐系统研究较为活跃的领域,通过对现有大数据处理框架的对比,采用Spark大数据计算处理引擎,结合基于隐式反馈的ALS协同过滤推荐算法,提出一种Spark框架下ALS算法并行化解决方案,设计了分布式流式计算系统(Spark Distributed-ALS,SD-ALS)。实验结果验证了ALS算法在Spark集群环境下预测精度与单机环境基本保持一致,随迭代次数的增大,RMSE逐渐趋于稳定,并且计算效率显著提升,满足实时推荐的性能要求。 Information mining has become an active research field of recommender system under big data environment. A Spark framework ALS algorithm parallelization solution,which is called Distributed Flow Computing System（ Spark Distributed-ALS,SD-ALS）is proposed through the comparison of the existing Big Data processing framework and the usage of Spark Big Data calculation processing engine,combining with implicit feedback ALS collaborative filtering recommendation algorithm. The experimental results verify that the prediction accuracy of the ALS algorithm in the Spark cluster environment is consistent with that in the Stand-alone environment. As the number of iterations increases,RMSE tends to be stable and the computational efficiency is significantly improved to meet the performance requirements of Real-time Recommendation.

作者舒贵阳辜丽川冯娟娟陈卫赵子豪王超 SHU Guiyang;GU Liehuan;FENG Juanjuan;CHEN Wei;ZHAO Zihao;WANG Chao(Anhui Agricultural University,Hefei 230036,Chin)

机构地区安徽农业大学信息与计算机学院

出处《洛阳理工学院学报（自然科学版）》 2018年第2期71-77,共7页 Journal of Luoyang Institute of Science and Technology：Natural Science Edition

基金国家自然科学基金项目(31371533)

关键词流式数据 SPARK ALS 协同过滤推荐系统 streaming data Spark ALS collaborative filtering recommender system

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1赵琴琴,鲁凯,王斌.SPCF：一种基于内存的传播式协同过滤推荐算法[J].计算机学报,2013,36(3):671-676. 被引量：49
2孟祥武,王凡,史艳翠,张玉洁.移动用户需求获取技术及其应用[J].软件学报,2014,25(3):439-456. 被引量：29
3韩亚楠,曹菡,刘亮亮.基于评分矩阵填充与用户兴趣的协同过滤推荐算法[J].计算机工程,2016,42(1):36-40. 被引量：37
4缪雪峰,陈群辉,胡罗凯,刘进.Spark平台下基于上下文信息的影片混合推荐[J].计算机工程与应用,2017,53(10):79-84. 被引量：4
5孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：311
6孟祥武,纪威宇,张玉洁.大数据环境下的推荐系统[J].北京邮电大学学报,2015,38(2):1-15. 被引量：69
7郑凤飞,黄文培,贾明正.基于Spark的矩阵分解推荐算法[J].计算机应用,2015,35(10):2781-2783. 被引量：13
8王全民,苗雨,何明,郑爽.基于矩阵分解的协同过滤算法的并行化研究[J].计算机技术与发展,2015,25(2):55-59. 被引量：10

二级参考文献134

1贾丽会,张修如.BP算法分析与改进[J].计算机技术与发展,2006,16(10):101-103. 被引量：47
2陈刚,刘发升.基于BP神经网络的数据挖掘方法[J].计算机与现代化,2006(10):20-22. 被引量：14
3邢春晓,高凤荣,战思南,周立柱.适应用户兴趣变化的协同过滤推荐算法[J].计算机研究与发展,2007,44(2):296-301. 被引量：146
4黄海清,张平,张曦文.基于用户偏好的智能业务选取研究[J].电子学报,2006,34(B12):2537-2540. 被引量：3
5Takacs G, Pilaszy I, Nemeth B, et al. Matrix factorization and neighbor based algorithms the nettlix prize problem [ C ]//Pro- ceedings of the 2008 ACM conference on recommender sys- tems. Lausanne, Switzerland : ACM, 2008 : 267-274.
6Pilaszy I,Zibriczky D, Tikk D. Fast ALS-basedmatrix factori- zation for explicit and implicit feedback datasets [ C ]//Pro- ceedings of the fourth ACM conference on recommender sys-terns. New York : ACM ,2010:71-78.
7Zhou Yunhong, Wilkinson D, Schreiber R, et al. Large- scale parallel collaborative filtering for the netflix prize [ C ]//Proc of the 4th international conference on algorthmic aspects in in- formation and management. Shanghai: Springer, 2008:337- 348.
8Apache Mahout[ EB/OL]. 2013-12-20. http://mah- out. a- pache, org,/.
9Apache Hadoop[ EB/OL]. 2013-12-20. http://hado- op. a- pache, org.
10Dean J, Ghemawat S. MapReduce:simplified data processing on large clusters [ J]. Communication of the ACM, 2008,51 (1) :107-113.

共引文献509

1朱义奎,黄佳豪,蔡亮.基于Spark机器学习的电商推荐系统的设计与实现[J].现代商贸工业,2021,42(S01):52-54. 被引量：2
2严宇,王啸楠.基于大数据分析的旅游景点信息平台的模型设计[J].计算机产品与流通,2020,9(10):154-154. 被引量：3
3张彦,谢兴生,陈晓雨.一种处理大数据的复杂适应系统框架设计[J].电子技术（上海）,2021,50(3):22-25.
4孙波,张伟,司成祥.社交网络用户身份关联及其分析[J].北京邮电大学学报,2020,43(1):122-128. 被引量：2
5郭万库.不同类群大白猪窝产仔数的遗传分析[J].中国畜牧杂志,2000,36(2):6-8. 被引量：3
6李童玉,王伟刚.PLC实现定量给料机的集中分解控制[J].水泥科技,2000(T00):27-29.
7李芳,李永进.一种基于随机游走的多维数据推荐算法[J].计算机科学,2013,40(11):304-307. 被引量：3
8申艳光,郭高尚,吴晶晶.结合情景和协同过滤的移动推荐算法[J].科学技术与工程,2014,22(8):49-52. 被引量：6
9王丽萍.基于项相关图的协同过滤算法[J].计算机科学,2014,41(5):280-282. 被引量：1
10冯馨锐,谢彬,唐鹏,秦健.Storm集群下基于性能感知的负载均衡策略[J].计算机系统应用,2018,27(12):181-186. 被引量：1

1王晓玲.大数据分析下的初中数学课堂教学策略[J].课程教育研究（学法教法研究）,2018,0(15):198-199.
2许文英,向强.基于Pyspark平台的协同过滤推荐算法应用与实现[J].西南民族大学学报（自然科学版）,2018,44(2):202-207. 被引量：2
3董跃华,梁雪雷.基于标签重要程度的协同过滤推荐算法[J].科学技术与工程,2018,18(14):172-178. 被引量：4
4姚衎,高雅田.基于大数据的天然气风险管理体系研究[J].科教导刊（电子版）,2018,0(10):263-263.
5刘智捷,徐小良,王宇翔.基于融合信任关系的协同过滤推荐算法[J].杭州电子科技大学学报（自然科学版）,2018,38(3):44-48. 被引量：4
6郑利强,廖湖声,苏航,高红雨.一种针对正规树模式的复杂事件查询方法[J].计算机与数字工程,2018,46(5):966-971. 被引量：1
7陈静,方建滨,唐滔,杨灿群.多核/众核平台上推荐算法的实现与性能评估[J].计算机科学,2017,44(10):71-74.
8吴雄伟,韩瑞.AP1000地震监测系统通道不确定度计算[J].化工自动化及仪表,2018,45(5):393-395.
9Alfredo Güemes,Antonio Fernandez-Lopez,Jaime García-Ramírez,Maria Eugenia Reyes-Perez,Flor Criado Zurita.Simulation Tools for a Fiber-Optic Based Structural Health Monitoring System[J].Transactions of Nanjing University of Aeronautics and Astronautics,2018,35(2):219-225. 被引量：2
10徐健锐,詹永照.基于Spark的改进K-means快速聚类算法[J].江苏大学学报（自然科学版）,2018,39(3):316-323. 被引量：16

洛阳理工学院学报（自然科学版）

2018年第2期

浏览历史

内容加载中请稍等...

基于集群的协同过滤实时推荐系统研究

参考文献8

二级参考文献134

共引文献509

相关作者

相关机构

相关主题

浏览历史