基于云计算的用户浏览偏爱路径挖掘算法被引量：6

Algorithm of discovering preferred browsing paths based on cloud-computing

下载PDF

导出

摘要从Web日志中挖掘用户浏览偏爱路径是一个重要的研究课题。目前的挖掘算法注重客观访问频度,忽略了用户对这一频繁访问路径是否感兴趣。在分析目前用户偏爱路径挖掘算法存在的问题的基础上,结合网站拓扑结构图修正基于频度的用户偏爱路径的衡量标准,提出了有用偏爱度的概念,从而剔除由于页面放置和链接等因素对挖掘的影响;针对目前基于单一节点的挖掘系统的计算能力不足的问题,利用云计算的分布式处理和虚拟化技术的优势,给出了一种基于云计算的数据处理方法,在此基础上挖掘用户浏览偏爱路径。实验表明,该算法针对大数据量的日志进行挖掘,准确率和效率比普通基于频度进行用户浏览偏爱路径挖掘的算法有所提高。 Mining user preferred browsing paths from Web logs is an important research topic.The current mining algorithms are focused on users＇ browsing frequency,neglecting an important problem of whether users are interested in the frequent path or not.Based on the analysis of the present algorithms for mining user browsing patterns, Web topology structure is combined to revise the measures of users＇ preferred browsing paths which are based on browsing frequency, and a concept of useful preference is presented.The bad impact of mining is removed due to pages＇ place and links;meanwhile, due to the problem that current mining system＇s computational capacity on single node is not enough,by the advantage of cloud computing＇s distributed processing and virtual technology,it presents a method of data processing based on cloud computing to mining users＇ preferred browsing paths.The result shows, this algorithm is better than one which is based on frequency when mining a number of Web logs in accuracy and efficiency.

作者程苗

机构地区中国科学技术大学管理学院

出处《计算机工程与应用》 CSCD 北大核心 2011年第29期85-89,共5页 Computer Engineering and Applications

基金博士点基金项目(No.200803580024) 创新研究群体科学基金(No.70821001)

关键词浏览偏爱路径云计算 WEB使用挖掘 WEB 日志 preferred browsing paths cloud computing Web usage mining Web log

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1韩家炜,孟小峰,王静,李盛恩.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414. 被引量：356
2邢东山,沈钧毅,宋擒豹.从Web日志中挖掘用户浏览偏爱路径[J].计算机学报,2003,26(11):1518-1523. 被引量：87
3李颖基,彭宏,郑启伦,曾炜.Web日志中有趣关联规则的发现[J].计算机研究与发展,2003,40(3):435-439. 被引量：20
4Dean J, Ghemawat S.MapReduce: simplified data processing on large clusters[C]//OSDI' 04: Sixth Symposium on Operating System Design and Implementation, San Francisco, CA, 2004.
5郭本俊,王鹏,陈高云,黄健.基于MPI的云计算模型[J].计算机工程,2009,35(24):84-86. 被引量：38
6王鹏.云计算的关键技术与应用实例[M].北京:人民邮电出版社,2009.
7Savasere A, Omiecinski E,Navathe S.An efficient algorithm for mining association rules in large databases[C]//Proceedings of the 21 st VLDB Conference, Zurich, Switzerland, 1995.
8Srivastava J, Cooley R, Deshpande M,et al.Web usage mining: discovery and applications of usage patterns from Web data[J]. SIGKDD Explorations,2000,1(2).
9李健,徐超,谭守标.一种Web数据挖掘系统的设计和研究[J].计算机技术与发展,2009,19(2):70-73. 被引量：7
10万至臻.基于MapReduce模型的并行计算平台的设计与实现[D].杭州:浙江大学,2008.

二级参考文献29

1周琪锋.基于Web的数据挖掘技术的研究[J].电脑知识与技术,2007(1):97-97. 被引量：4
2Thomas C. Google and IBM Partner to Push Cloud Computing[Z]. (2007-08-08). http://www.informationweek.com/news/intemet/show Article.j html?articleID=202400042.
3Stephen B. Google and the Wisdom of Clouds[Z]. (2007-12-13). http://www.businessweek.com/magazine/content/07_52/b40640489 25836.htm.
4Dean J. MapReduce: Simplified Data Processing on Large Clusters[C]//Proc. of the 6th IEEE Symposium on Operating System Design and Implementation. San Francisco, CA, USA: [s. n.], 2004.
5BarryW.Parallel Programming[M].陆鑫达,译.2版.北京:机械工业出版社,2005.
6Han J，Data Mining:Concepts and Techniques，2000年
7Wang K，Proc of VLDB'97，1999年，363页
8Zaiane O R，Proc Int Workshop Web Information and Data Management（WIDM'98），1998年，9页
9Mobasher B，Tech Rep:TR96 0 5 0，1996年
10Zaiane O R，Proc KDD'95，1995年，331页

共引文献508

1杨洋.Web数据挖掘的分析与探讨[J].装备制造技术,2006(5):63-64. 被引量：1
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3阿静.政企互动打假树维权典范——爱普生打印机胜诉“骗保门”事件[J].办公自动化,2006(14):10-11.
4董德民.面向电子商务的Web使用挖掘及其应用研究[J].中国管理信息化（综合版）,2006,9(10):83-85. 被引量：1
5杜志文,曾文华.网格计算在文本分类中的应用[J].微电子学与计算机,2006,23(z1):221-222.
6吕佳.Web日志挖掘技术应用研究[J].重庆师范大学学报（自然科学版）,2006,23(4):39-44. 被引量：15
7张克君,李伯群,李欣,杨炳儒.基于DWLMS模型的分布式Web用户访问模式挖掘[J].清华大学学报（自然科学版）,2005,45(S1):1762-1766. 被引量：2
8万君,耿东辉.浅说电子商务中的数据挖掘技术[J].东北大学学报（自然科学版）,2004,25(z1):194-196. 被引量：1
9许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1
10王丽娜.Web日志挖掘技术研究[J].光盘技术,2008(4):34-36. 被引量：2

同被引文献53

1张桂刚,李超,张勇,邢春晓.云环境下海量数据资源管理框架[J].系统工程理论与实践,2011,31(S2):28-32. 被引量：6
2周学权,战德臣,聂兰顺,孟凡超.面向多租户的多层次可伸缩SaaS软件架构研究[J].华中科技大学学报（自然科学版）,2013,41(S2):131-136. 被引量：5
3何丽,韩文秀.一种基于后缀树的Web访问模式挖掘算法[J].计算机应用,2004,24(11):68-70. 被引量：6
42011 Digital universe study [EB/OL]. http: //www. emc. com/collateral/analyst-reports/idc-extracting-value-from-chaosar. pdf.
5JOY K I. Massive data visualization : a survey [ C ]//MOELLER T, HAMANN B, RUSSELEDS R D. Mathematical Foundations of Scientific Visualization, Computer Graphics, and Massive Data Exploration. Heidelberg : Springer Verlag,2009:285-302.
6罗爱宝,陈光鹏,商琳.海量数据处理[J].中国人工智能学会通讯,2011(2).
7李德毅.第二届中国云计算大会[EB/OL].[2010-06-30]. http: //www. ciecloud, org/2010.
8CANNATARO M, TALIA D, TRUNFIO P. Knowledge (GRID) : high performance knowledge discovery service on the grid [ C ]. Second Grid International Workshop, 2001: 38-50.
9TALIA D, TRUNFIL P. How distributed data mining tasks can thrive as knowledge services [ J ]. Communications of The ACM, 2010, 53 (7): 132-137.
10HUANG J. Speech: massive data mining and information service[ EB/OL]. [2010-12-28 ]. http://www, rmbi. ust. hk/docs/ Speech% 20by% 20Dr% 20Joshua% 20Huang. pdf.

引证文献6

1赵又霖,邓仲华,陆颖隽.数据挖掘云服务分析研究[J].情报理论与实践,2012,35(9):33-36. 被引量：14
2黄伟建,冯立娟.基于Web使用挖掘的用户有效偏爱浏览路径研究[J].科学技术与工程,2014,22(9):222-226.
3黄取治.动态云模型大规模数据挖掘算法[J].长春工业大学学报,2014,35(3):305-308. 被引量：2
4谢琪琦,陈燕,陈宁江,李湘,梁小宇.基于LQN模型的租户兴趣浏览路径挖掘[J].重庆邮电大学学报（自然科学版）,2014,26(6):756-762.
5李珊,邵兰洁,刘淑艳,邵芬红.一种基于INT的用户浏览兴趣路径挖掘算法[J].控制工程,2017,24(5):1043-1047. 被引量：1
6曹炜,蒋文明.基于大数据分析的旅游微博用户偏爱研究[J].滁州学院学报,2019,21(1):41-44.

二级引证文献17

1胡海东.物联网中的海量数据处理技术[J].科技创新导报,2013,10(3):182-182. 被引量：3
2杜维,刘阳.制造企业物流服务创新知识获取方式研究[J].现代商贸工业,2014,26(2):69-70. 被引量：1
3景贵飞.细分移动互联网地理信息服务,构建宜居数字世界生活[J].地理信息世界,2014,21(6):1-5.
4邓仲华,刘伟伟,陆颖隽.基于云计算的大数据挖掘内涵及解决方案研究[J].情报理论与实践,2015,38(7):103-108. 被引量：75
5郑凯律.云计算下的人工智能[J].经济技术协作信息,2015,0(19):70-70. 被引量：1
6聂应高.国内图书情报领域“云”研究现状剖析——基于CNKI核心期刊的文献计量与内容分析[J].图书馆学研究,2015(16):9-15. 被引量：21
7王剑.关于云计算环境下数据挖掘服务模式的若干探讨[J].信息系统工程,2016,0(1):76-76. 被引量：1
8蹇旭,陈泯利.基于云计算的数据挖掘应用平台构建策略研究[J].数字技术与应用,2016,34(3):74-75. 被引量：2
9吕春英,王潇,贾立印.基于云计算的数据挖掘浅析[J].计算机与网络,2016,42(10):63-66. 被引量：1
10陈臣.基于云计算的图书馆大数据分析和决策支持平台构建[J].图书馆理论与实践,2016,0(5):101-104. 被引量：19

1徐海兰,崔荣一.基于Web日志的用户访问模式挖掘[J].延边大学学报（自然科学版）,2009,35(2):164-166. 被引量：2
2杨旭东.一种从Web日志中挖掘用户浏览偏爱路径的算法[J].重庆理工大学学报（自然科学）,2012,26(10):82-88. 被引量：1
3邢东山,沈钧毅,宋擒豹.从Web日志中挖掘用户浏览偏爱路径[J].计算机学报,2003,26(11):1518-1523. 被引量：87
4陈小莉.基于用户行为个性化学习研究[J].电脑知识与技术,2009,5(4):2779-2781. 被引量：2
5李晓静,王树森.一种新的基于事物聚类Web浏览偏爱路径挖掘算法[J].制造业自动化,2013,35(4):65-67. 被引量：1
6宁小红,余森森.基于s-Tree算法的个性化推荐服务研究[J].计算机科学,2007,34(4):217-221. 被引量：2
7张海玉,刘晓霞.一种挖掘用户浏览模式的新方法[J].计算机应用与软件,2007,24(2):143-144. 被引量：6
8吴瑞,张秀玲.基于FLAAT的模糊WEB挖掘算法[J].哈尔滨理工大学学报,2005,10(2):1-3.
9胡孔法,孙艳,陈崚,宋爱波.现代物流系统中基于频繁子图的RFID路径挖掘算法[J].计算机集成制造系统,2010,16(11):2490-2494. 被引量：6
10周贤善,谢婷婷.基于Web的数据挖掘在电子商务中的应用[J].孝感学院学报,2010,30(3):71-73.

计算机工程与应用

2011年第29期

浏览历史

内容加载中请稍等...

基于云计算的用户浏览偏爱路径挖掘算法被引量：6

参考文献10

二级参考文献29

共引文献508

同被引文献53

引证文献6

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于云计算的用户浏览偏爱路径挖掘算法 被引量：6

参考文献10

二级参考文献29

共引文献508

同被引文献53

引证文献6

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于云计算的用户浏览偏爱路径挖掘算法被引量：6