基于Hive数据仓库的在线阅读用户建模与聚类方法

User Model and Clustering of Online reading System Based on Hive Warehouse

下载PDF

导出

摘要移动互联网的高速发展为在线阅读系统带来了海量的用户行为日志。针对日益巨大的TB甚至PB级用户行为日志数据,该文设计一种基于Hive数据仓库的用户模型及用户聚类方案。该方法能够准确的基于用户的阅读行为刻画用户的多维度、多尺度偏好特征,构建动态用户需求模型,并基于用户特征进行聚类,划分用户集,为个性化推荐、搜索或者广告投放等Web个性化应用提供服务。实验结果表明,该方法可以发挥集群存储和运算的优势,具有良好的性能和执行速度。 The rapid development of mobile Internet brought huge user behavior logs to online reading system.In the face of increasingly large terabytes even petabytes user log data,we design a user model and user clustering solution based on hive warehouse.This method can accurately depict the various dimensions and scales of user preferences,building dynamic user requirement model based on user reading behavior and apply clustering algorihtm to divide user into groups to provide service for personalized Web application,such as recommendation,search,advertisement delivery.Test results show that this method can take advantage of the storage and computing power of hadoop cluster,thus has a good performance and speed of execution.

作者程美玲黎素珍

机构地区公安部第三研究所信息网络安全公安部重点实验室

出处《电脑知识与技术（过刊）》 2015年第11X期45-48,共4页 Computer Knowledge and Technology

基金科技部科技支撑项目(2012BAH95F03)资助

关键词 Hive 数据仓库在线阅读用户模型用户聚类 Hive data warehouse online reading user model user clustering

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1(美) 怀特 (White,T.),著.Hadoop权威指南(M)清华大学出版社, 2010
2ASHISH T,JOYDEEP S,NAMIT J et al.Hive-A Petabyte Scale Data Warehouse Using Hadoop. Data Engineering (ICDE),2010 IEEE 26th International .
3Apache Hive Architecture. https://cwiki.apache.org/confluence/display/Hive/Design .
4Wilson score interval. https://en.wikipedia.org/wiki/Bi-nomial_proportion_confidence_interval .
5Hive Windowing and Analytics Functions. https://cwi-ki.apache.org/confluence/display/Hive/Language Manual+Win-dowing And Analyticscs .
6Shvachko K,Kuang H.The Hadoop Distributed File System. Mass Storage Systems and Technologies (MSST) . 2010
7程苗,陈华平.基于Hadoop的Web日志挖掘[J].计算机工程,2011,37(11):37-39. 被引量：64
8Michael Pazzani,Daniel Billsus.Learning and Revising User Profiles: The Identification of Interesting Web Sites[J]. Machine Learning . 1997 (3)
9Maurice D. Mulvenna,Sarabjot S. Anand,Alex G. Büchner.??Personalization on the Net using Web mining: introduction(J)Communications of the ACM . 2000 (8)
10Jeffrey Dean,Sanjay Ghemawat.MapReduce[J]. Communications of the ACM . 2008 (1)

二级参考文献5

1王文平,刘希玉,韩杰.基于并行遗传算法的关联规则挖掘[J].山东师范大学学报（自然科学版）,2006,21(4):29-31. 被引量：7
2Savasere A,Omiecinski E,Navathe S.An Efficient Algorithm for Mining Association Rules in Large Databases[C] //Proceedings of the 21st VLDB Conference.Zurich,Switzerland:[s.n.] ,1995:432-444.
3周勇,刘锋.基于并行遗传算法的规则发现研究[J].计算机技术与发展,2008,18(8):137-139. 被引量：1
4郭本俊,王鹏,陈高云,黄健.基于MPI的云计算模型[J].计算机工程,2009,35(24):84-86. 被引量：38
5邢东山,沈钧毅,宋擒豹.从Web日志中挖掘用户浏览偏爱路径[J].计算机学报,2003,26(11):1518-1523. 被引量：87

共引文献77

1刘春勇,黄志球,王进,徐丙凤.基于SLA的动态云体系结构[J].计算机工程,2011,37(S1):7-9. 被引量：2
2宋莹,沈奇威,王晶.基于Hadoop的Web日志预处理的设计与实现[J].电信工程技术与标准化,2011,24(11):84-89. 被引量：5
3刘永增,张晓景,李先毅.基于Hadoop/Hive的web日志分析系统的设计[J].广西大学学报（自然科学版）,2011,36(A01):314-317. 被引量：24
4林大云.基于Hadoop的微博信息挖掘[J].计算机光盘软件与应用,2012,15(1):7-8. 被引量：9
5那丽春.集群资源模糊聚类划分模型[J].计算机工程,2012,38(6):34-36. 被引量：2
6李彬,刘莉莉.基于MapReduce的Web日志挖掘[J].计算机工程与应用,2012,48(22):95-98. 被引量：15
7丁振,项颖.基于Hadoop的关联规则算法在电子商务中的应用[J].计算机与现代化,2012(8):122-125. 被引量：4
8冀素琴,石洪波,卫洁.基于Map Reduce的Bagging贝叶斯文本分类[J].计算机工程,2012,38(16):203-206. 被引量：2
9陆秋,程小辉.基于MapReduce的决策树算法并行化[J].计算机应用,2012,32(9):2463-2465. 被引量：19
10朱蔷蔷,张桂芸,刘文龙.基于MapReduce框架一种文本挖掘算法的设计与实现[J].郑州大学学报（工学版）,2012,33(5):110-113. 被引量：4

1刘丹.基于CORBA的计算机网络用户权限管理与应用[J].科技经济市场,2007(A09):5-6.
2梁莹.基于RBAC的CRM动态用户访问控制模型研究[J].中国管理信息化,2009,12(2):71-72. 被引量：1
3赵鑫.搜索引擎中用户兴趣的收集研究[J].电脑编程技巧与维护,2015(15):47-48.
4胡冠男,卢志国,詹华清,陆铭,朱文浩,刘炜,王晓伟,张武.基于动态用户融合的云计算架构[J].上海大学学报（自然科学版）,2013,19(1):31-34. 被引量：2
5金松河,陶宏才,黄敏.基于角色的动态用户权限管理的研究与实现[J].云南民族大学学报（自然科学版）,2004,13(3):226-227. 被引量：5
6李金海,何有世,马云蕾,李治文.基于在线评论信息挖掘的动态用户偏好模型构建[J].情报杂志,2016,35(9):192-198. 被引量：13
7季小明,汪家常.基于.NET动态用户权限管理模型的设计与实现[J].计算机技术与发展,2006,16(10):202-204. 被引量：10
8成桂兰,刘旭东,陈德人.基于混合聚类的个性化推荐算法[J].武汉理工大学学报（信息与管理工程版）,2011,33(3):379-381. 被引量：4
9翁秋华,陈新.电纸书WCDMA网络在线阅读系统的研制[J].计算机技术与发展,2012,22(3):71-73.
10承健.看书是要花钱的[J].个人电脑,2015,21(7):62-62.

电脑知识与技术（过刊）

2015年第11X期

浏览历史

内容加载中请稍等...

基于Hive数据仓库的在线阅读用户建模与聚类方法

参考文献10

二级参考文献5

共引文献77

相关作者

相关机构

相关主题

浏览历史