政府网站移动搜索的日志挖掘和个性化改进被引量：2

Log Mining and Personalization Improvement for Mobile Search System of Government Websites

导出

摘要为充分利用移动搜索和政府网站的特点,发挥Hadoop处理大数据的优势,设计开发了日志挖掘和个性化定制系统。利用Flume和HDFS实现了海量日志的汇总和存储,为日志挖掘提供了数据源和调用接口;采用Map Reduce实现了对日志的高效分析,利用搜索结果网页的标签和导航,建立了网页向量空间模型和用户兴趣模型;根据用户兴趣模型,使用聚类分析中的Kmeans算法将有相似兴趣的用户组成兴趣组;通过计算搜索结果网页到用户所在兴趣组的距离,判断用户对该网页是否感兴趣,据此调整搜索结果的排序,实现个性化搜索和推送功能。 By taking full advantage of the characteristics of mobile search and government website, a log mining and customization system, which makes use of the advantages of Hadoop in large data processing, is designed and developed. First, it uses Flume and HDFS to realize the collection and storage of massive log and to provide source data and program interface of log mining. Second, the system uses MapReduce to efficiently analyze the log by taking advantage of labels and navigation bar of search result pages. Thus, the vector space model of search result pages and user interest model are established. Third, based on user interest model and combined with MapReduce again, the K-means algorithm which is for cluster analysis is used. Then, users are divided into different interest groups depending on their interests. Finally, by calculating the distance between search result page and the user＇s interest group, whether the user is interested in this page is determined, then the system adjusts the order of search results and pushes a new page to this user accordingly. Therefore, the personalized search and push function are implemented.

作者叶小榕邵晴

机构地区中国科学技术信息研究所北龙中网(北京)科技有限责任公司

出处《科技导报》 CAS CSCD 北大核心 2014年第36期110-116,共7页 Science & Technology Review

关键词个性化搜索个性化推荐聚类分析 Map REDUCE personalized search personalized recommendations cluster analysis MapReduce

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1中国互联网络信息中心.第34次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/,2014-07-21.
2王继民,李雷明子,郑玉凤.基于日志挖掘的移动搜索用户行为研究综述[J].情报理论与实践,2014,37(3):134-139. 被引量：15
3万飞,赵溪,梁循,潘登,倪志豪.基于移动互联网日志的搜索引擎用户行为研究[J].中文信息学报,2014,28(2):144-150. 被引量：15
4王振宇,郭力.基于Hadoop的搜索引擎用户行为分析[J].计算机工程与科学,2011,33(4):115-120. 被引量：21
5胡晓,王理,潘守慧.基于改进VSM的Web文本分类方法[J].情报杂志,2010,29(5):144-147. 被引量：12
6周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：28
7李彬,刘莉莉.基于MapReduce的Web日志挖掘[J].计算机工程与应用,2012,48(22):95-98. 被引量：15
8Amresh K, Kiran M, Prathap B R. Verification and validation of mapreduce program model for parallel K-means algorithm on hadoop cluster [C]//2013 Fourth International Conference on Computing, Communications and Networking Technologies. Tiruchengode, India: IEEE, 2013: 274-282.
9江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
10周婷,张君瑛,罗成.基于Hadoop的K-means聚类算法的实现[J].计算机技术与发展,2013,23(7):18-21. 被引量：24

二级参考文献133

1王继民,陈翀,彭波.大规模中文搜索引擎的用户日志分析[J].华南理工大学学报（自然科学版）,2004,32(z1):1-5. 被引量：24
2戚永军,翟智平,耿娟平.基于Comet的Web即时通讯系统设计与实现[J].计算机科学,2012,39(S2):77-79. 被引量：8
3王继民,彭波.搜索引擎用户访问量模型[J].计算机工程与应用,2004,40(25):9-11. 被引量：11
4罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
5陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
6余俊英,王明文,盛俊.文本分类中的类别信息特征选择方法[J].山东大学学报（理学版）,2006,41(3):10-13. 被引量：5
7余慧佳,刘奕群,张敏,茹立云,马少平.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007,21(1):109-114. 被引量：117
8余慧佳,刘奕群,张敏,等.基于大规模日志分析的网络搜索引擎用户行为研究[C]//第三届学生计算语言学研讨会.沈阳:[出版者不详],2006.
9Han Jiawei,Kamber Micheline,范明,孟小峰,等译.数据挖掘概念与技术[M].北京:机械工业出版社,2007:424-479.
10Hu MS,Jia ZJ.Web Text Categorization on GBODSS[A].In Proceedings of 2009 4th International Conference on Computer Science & Education,2009:599-603.

共引文献288

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2李斌,黄松鑫,冯隽永.面向工业基地的统一消息推送平台设计与实现[J].冶金自动化,2022,46(S01):333-336.
3许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
4桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
5张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
6原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
7施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：217
8司红娜,姚力文,李向军.基于同义替换和相邻词合并的关键词特征权重计算新方法[J].计算机与现代化,2010(4):115-117. 被引量：1
9常凯.基于TF＊IDF垃圾邮件过滤改进算法的研究[J].电脑知识与技术,2010,6(9):6928-6930. 被引量：2
10贾晓倩,刘方爱.基于最近邻搜索算法分组式P2P网络拓扑模型[J].计算机技术与发展,2010,20(11):100-104. 被引量：3

同被引文献20

1国家信息中心网络政府研究中心.中国政府网站发展数据报告(2012)[EB/OL].(2012-12-06)[2013-09-01].http://www.gwd.gov.cn/uploads/worddownload/2012_development_report_of_governments_website.pdf.
2中国软件测评中心.2012年中国政府网站绩效评估总报告[EB/OL].(2012-12-05)[2013-09-01].http://www.cstc.org.cn/zhuanti/fbh2012/zbgl&bg.html.
3Heasoo H, Hady W L, Lise G, et al. Organizing user search histories[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(5): 912-925.
4Qian Xueming, Feng He, Zhao Guoshuai, et al. Personalized recommendation combining user interest and social circle[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 26(7): 1763-1777.
5The Apache Software Foundation. Public websites using Solr[EB/OL]. (2013-09-19) [2013-10-01]. http://wiki.apache.org/solr/PublicServers.
6Yadav D, Sonia S C,Jorge M, et al.An approach for spatial search using Solr[C]//Confluence 2013: The Next Generation Information Technology Summit (4th International Conference). Noida, India: IET, 2013: 202-208.
7Saravanakumar K, Aswani K C. Optimized web search results through additional retrieval lists inferred using wordnet similarity measure[C]// International Conference on Data Mining and Intelligent Computing 2014. New Delhi, India: IEEE Conference Publications, 2014: 1-7.
8陈红涛,杨放春,陈磊.基于大规模中文搜索引擎的搜索日志挖掘[J].计算机应用研究,2008,25(6):1663-1665. 被引量：16
9刘承启,邓庚盛,江婕,徐健锋.基于用户行为分析的搜索引擎研究[J].计算机与现代化,2008(9):75-77. 被引量：2
10张磊,李亚楠,王斌,李鹏,蒋在帆.网页搜索引擎查询日志的Session划分研究[J].中文信息学报,2009,23(2):54-61. 被引量：16

引证文献2

1叶小榕,邵晴.政府网站搜索系统的日志挖掘、行为分析及改进[J].科技导报,2015,33(11):94-102. 被引量：1
2刘斌.基于Hadoop的WEB日志分析系统设计[J].安徽科技学院学报,2017,31(4):67-70. 被引量：2

二级引证文献3

1吴鑫泉,杨军.基于自主容器云平台的大数据日志采集系统[J].计算机与现代化,2019(2):102-106. 被引量：1
2陈宝国,宋旸.基于模糊聚类的分布式Web日志挖掘方法[J].太原师范学院学报（自然科学版）,2020,19(3):54-58. 被引量：3
3龙怡.中美省州级政务服务站内搜索引擎功能对比研究[J].现代情报,2021,41(4):119-132. 被引量：1

1徐海荣,陈闵叶,张兴媛.基于Flume、Kafka、Storm、HDFS的航空维修大数据系统[J].上海工程技术大学学报,2015,29(4):303-305. 被引量：12
2王利卿,张华敏.分布式计算框架的研究[J].信息技术与信息化,2015(10):199-200. 被引量：6
3宋密,王劲松.基于Flume的网络安全可视化系统[J].天津理工大学学报,2015,31(2):38-42. 被引量：3
4王成,朱志刚,张玉侠,苏芳芳.基于用户的协同过滤算法的推荐效率和个性化改进[J].小型微型计算机系统,2016,37(3):428-432. 被引量：37
5吴晓华.巧用Access数据库高效分析用户数据[J].有线电视技术,2015,0(11):90-91. 被引量：1
6章杨琼.智用Excel高效分析学生成绩[J].教育技术资讯,2006(5):64-65.
7于秦.基于Apache Flume的大数据日志收集系统[J].中国新通信,2016,18(18):41-41. 被引量：3
8刑少娱.物联网技术在智慧城市中的应用分析[J].电子技术与软件工程,2016(14):25-25. 被引量：4
9门威,吕书林.浅谈基于Hadoop平台的大规模数据排序[J].智能计算机与应用,2016,6(3):130-131.
10尧炜.基于开源技术的网络数据采集系统设计[J].邮电设计技术,2015(12):29-32.

科技导报

2014年第36期

浏览历史

内容加载中请稍等...

政府网站移动搜索的日志挖掘和个性化改进被引量：2

参考文献12

二级参考文献133

共引文献288

同被引文献20

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

政府网站移动搜索的日志挖掘和个性化改进 被引量：2

参考文献12

二级参考文献133

共引文献288

同被引文献20

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

政府网站移动搜索的日志挖掘和个性化改进被引量：2