基于大数据分析与挖掘平台的个性化商品推荐研究及应用被引量：8

Research and Application of Personalized Commodity Recommendation based on big data Analysis and Mining Platform

下载PDF

导出

摘要在以数据驱动为主导的大数据时代,信息资源量呈几何级增长,“信息超载”问题对数据分析与处理提出了更高的要求。从海量数据中提取有效信息并进行系统的分析与挖掘,从而满足用户的个性化需求将大大增强企业竞争力。本文结合Hadoop与Spark的优点,设计并搭建了包括HDFS、MongoDB、MLlib、Tableau等集群的大数据分析与挖掘平台,并实践了基于Amazon电商交易数据集的个性化商品推荐应用。利用SparkMLlib的ALS矩阵分解协同过滤推荐算法对用户购买行为进行模型训练和推荐,最后实验结果表明,此大数据分析与挖掘平台对于对个性化商品的推荐可实现不错的效果。 In the era of big data, which is dominated by data drive, the amount of information resources increases exponentially, and the problem of “information overload” puts forward higher requirements for data analysis and processing. Extracting effective information from massive data and carrying on systematic analysis and mining so as to meet the individual needs of users will greatly enhance the competitiveness of enterprises. Combining the advantages of Hadoop and Spark, this paper designs and builds an analysis and mining platform for big data, including HDFS,MongoDB,MLlib,Tableau and other clusters, and practices the personalized commodity recommendation based on Amazon e-commerce transaction data set. Application. The ALS matrix decomposition collaborative filtering recommendation algorithm of Spark MLlib is used to train and recommend the purchase behavior of users. Finally, the experimental results show that the big data analysis and mining platform can achieve a good effect on the recommendation of personalized goods.

作者李晓颖赵安娜周晓静杨成伟 Li Xiaoying;Zhao Anna;Zhou Xiaojing;Yang Chengwei(school of Management Science and Engineering, Shandong University of Finance and Economics,Ji’nan Shandong,250014)

机构地区山东财经大学管理科学与工程学院

出处《电子测试》 2019年第12期65-66,81,共3页 Electronic Test

基金中国博士后科学基金第58批面上资助项目“面向媒体大数据分析任务的关联规则挖掘与并行处理系统(5M582104)” 山东省自然基金“基于云计算环境的大规模关联数据挖掘与并行优化方法研究(BS2015DX013)” 山东省自然基金(面上项目)“基于隐式反馈数据的情感分析与推荐方法研究(ZR2019MG037)” 山东省高等学校科技计划项目立项“分布式异构环境下动态资源管理策略与延迟调度方法研究(J14LN19)” 山东财经大学校级特色课程(A2017008)

关键词 HADOOP SPARK 大数据推荐系统数据挖掘 Hadoop Spark big data recommendation system data Mining

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1岑凯伦,于红岩,杨腾霄.大数据下基于Spark的电商实时推荐系统的设计与实现[J].现代计算机,2016,22(16):61-69. 被引量：22

二级参考文献15

1IDC. The Digital Universe of Opportunities:Rich Data and the Incdreasing Value of the Internet of Things [EB/OL]. [2014-04]. http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm.
2FERRERIA C R L , Traina J C, MACHADO T A J, et al. Clustering Very Large Multi-Dimensional Datasets with Mapreduce [C]. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2011 ACM. San Diego: ACM Press, 2011: 690-698.
3YU Y, HUANG C, LEE Y. An Intelligent Touring System Based on Mobile Social Network and Cloud Computing for Travel Recom- mendation[C]. 28th International Conference on Advanced Information Networking and Applications Workshops(AINA), 2014 IEEE. Victoria, Canada: IEEE Press, 2014:19-24.
4WALUNJ S G, SADAFALE K. An Online Recommendation System for E-commerce Based on Apache Mahout Framework[C]. 2013 Annual Conference on Computers and People Research, 2013 ACM. Cincinnati: ACM Press,2013: 153-158.
5ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et al. Spark: Cluster Computing with Working Sets[C]. Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing , 2010:10-10.
6ZAHARIA M, CHOWDHURY M, DAS T, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for in-Memory Cluster Computing[C]. Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation. USENIX Association, 2012:2-2.
7X.LU,M.W.U. RAHMAN, N. ISLAM, D. SHANKAR. Accelerating Spark with RDMA for Big Data Processing: Early Experiences[C]. Proceedings of the 22nd Annual Symposium on High-Performance Interconnects.2010:9-16.
8YANG J, HE SQ. The Optimization of Parallel DBN Based on Spark[C]. Proceedings of the 19th Asia Pacific Symposium on Intelligent and Evolutionary Systems,2016:157-169.
9江小平,李成华,向文,张新访.云计算环境下朴素贝叶斯文本分类算法的实现[J].计算机应用,2011,31(9):2551-2554. 被引量：21
10刘义,景宁,陈荦,熊伟.MapReduce框架下基于R-树的k-近邻连接算法[J].软件学报,2013,24(8):1836-1851. 被引量：60

共引文献21

1金铭.大数据与推荐系统研究[J].电脑知识与技术,2018,14(12):253-254.
2王佳娴,王中杰.基于Spark的分布式实时推荐系统[J].系统仿真技术,2017,13(2):158-161. 被引量：3
3夏冉.基于Spark的机器学习Web服务引擎设计[J].指挥控制与仿真,2018,40(1):113-117. 被引量：1
4陈粤龙,张治中,符静.智慧旅游客情监控平台的设计与实现[J].信息通信,2018,0(2):52-55.
5许文英,向强.基于Pyspark平台的协同过滤推荐算法应用与实现[J].西南民族大学学报（自然科学版）,2018,44(2):202-207. 被引量：2
6赵瑞丹.基于大数据分析的思政教学系统的设计与实现[J].自动化与仪器仪表,2018,0(8):117-119. 被引量：5
7李星,李涛.基于Spark的推荐系统的设计与实现[J].计算机技术与发展,2018,28(10):194-198. 被引量：8
8王晓鑫,冯永祥.理财产品推荐指导系统的研究与设计[J].电脑知识与技术,2018,14(5X):101-105.
9侯敬儒,吴晟,李英娜.基于Spark Streaming的在线KMeans聚类模型研究[J].计算机与数字工程,2018,46(4):783-787. 被引量：2
10杨强,张钧鸣.基于微服务架构的大数据应用开发创新实践[J].电力大数据,2019,22(3):71-76. 被引量：19

同被引文献41

1杨恒,田坤,常亮,范鹍,周平.基于大数据分析的可视化预测性运维系统实现[J].冶金自动化,2020,44(1):44-47. 被引量：8
2崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
3张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
4李改,李磊.基于矩阵分解的协同过滤算法[J].计算机工程与应用,2011,47(30):4-7. 被引量：58
5李向.基于蚁群算法优化Hadoop平台计算效能方法[J].微型电脑应用,2018,34(12):140-143. 被引量：1
6刘莹.基于数据挖掘的商品销售预测分析[J].科技通报,2014,30(7):140-143. 被引量：21
7张志明,张一帆.基于B2C电子商务网站的个性化商品推荐系统研究[J].厦门科技,2014,0(5):45-47. 被引量：1
8严少彪,宋萍,石磊.基于CNKI的我国医院数据挖掘应用研究现状分析[J].中国病案,2016,17(2):46-48. 被引量：7
9王卫锋,杨林.基于Hadoop的邮政寄递大数据分析系统设计与实现[J].中国科学院大学学报（中英文）,2017,34(3):395-400. 被引量：7
10滕树军,郑惠文,刘柏森.基于多元回归分析的超市商品销售影响因素的研究[J].全国流通经济,2018(14):6-9. 被引量：4

引证文献8

1金琳.基于用户行为的电商平台设计研究[J].中国市场,2020(11):186-186.
2焦向雨,黄康辉,卢峥.Hadoop+JavaWeb大数据分析可视化系统[J].中小企业管理与科技,2020(6):151-152. 被引量：4
3韩慧.基于知识图谱的商品推荐系统[J].信息通信,2020(6):200-201. 被引量：2
4朱曙旸,殷丽,史逸兴.基于消费者评论的商品销售研究[J].商场现代化,2020(16):28-30.
5潘云.基于Hadoop技术的疗养中心信息化建设与改进[J].生命科学仪器,2020,18(5):59-65. 被引量：3
6童莹,杨贞卓.Hadoop和Spark在Web系统推荐功能中的应用[J].现代信息科技,2020,4(19):87-89. 被引量：2
7高海超,常祎雯,杨文峰,冯学伟,邓哲,白涛.基于Hadoop的大数据运营系统[J].科学技术创新,2021(19):93-94. 被引量：1
8范磊.基于大数据分析的汽车互联网产品需求预测与个性化推荐研究[J].互联网周刊,2023(24):62-64. 被引量：2

二级引证文献14

1易心.CIS的意义与作用[J].湖南包装,2000,15(1):41-43.
2董晋.基于云架构的地质测绘管理系统构建[J].粘接,2021,45(3):166-170. 被引量：1
3张宇,郭文忠,林森,文朝武,龙洁花.深度学习与知识推理相结合的研究综述[J].计算机工程与应用,2022,58(1):56-69. 被引量：5
4李萍,李杰,格振硕,杨泽鹏.智慧疗养中心建设与发展思考[J].中国疗养医学,2022,31(5):558-560. 被引量：2
5杨圣彬,刘亚琼.基于JavaWeb的企业人员岗位调动系统的设计与实现[J].信息与电脑,2022,34(4):151-153.
6李林国,查君琪,赵超,叶文,李淑敬.基于Hadoop平台的大数据可视化分析实现与应用[J].西安文理学院学报（自然科学版）,2022,25(3):53-58. 被引量：10
7王宏利.技术创新对财政数字化转型的影响[J].产业创新研究,2022(19):10-13. 被引量：1
8王宏利.财政数字化转型的实现途径[J].产业创新研究,2022(22):9-12.
9王宏利.财政数字化转型面临的挑战[J].产业创新研究,2022(23):15-17.
10冯歆尧,谢瀚阳,梁盈威.分布式存储方法对电网系统多租户管理的优化[J].微型电脑应用,2023,39(7):165-168.

1颜颖.基于聚类分析的协同过滤算法研究[J].湖南邮电职业技术学院学报,2017,16(4):40-43. 被引量：3
2赵瑞卿,张诗雨.物流对电子商务发展的限制及应对方法[J].现代营销（上）,2018(12):65-65. 被引量：2
3曾晓华.太仓:对有关广告的职业举报实施包容审慎监管[J].市场监督管理,2019,0(8):48-49.
4申杰.“职业评价师”恶化网购环境[J].中国质量万里行,2019,0(5):88-90.
5李煜.破窗效应与新媒体时代思想政治工作的构建[J].科技风,2019(11):215-215. 被引量：1
6居向军.企业安全生产标准化建设探析[J].市场周刊·理论版,2017,0(34):0010-0010.
7王斌.探讨道路桥梁的常见结构病害及加固技术[J].建材发展导向,2019,17(7):339-339.
8谢生平.公路桥梁施工技术的缺陷和改进方法[J].交通世界,2019(12):124-125.
9陈彦韬.基于深度学习的协同过滤推荐算法的改进和优化[J].电子制作,2019,27(12):40-42. 被引量：2
10刘细金.个性化推荐方法研究[J].中国战略新兴产业（理论版）,2019,0(2):0166-0166.

电子测试

2019年第12期

浏览历史

内容加载中请稍等...

基于大数据分析与挖掘平台的个性化商品推荐研究及应用被引量：8

参考文献1

二级参考文献15

共引文献21

同被引文献41

引证文献8

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于大数据分析与挖掘平台的个性化商品推荐研究及应用 被引量：8

参考文献1

二级参考文献15

共引文献21

同被引文献41

引证文献8

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于大数据分析与挖掘平台的个性化商品推荐研究及应用被引量：8