基于搜索引擎日志发现相近Web查询被引量：4

Discovering Related Web Queries Based on Search Engine's User Log

下载PDF

导出

摘要提出了一种利用搜索引擎日志发现高质量相近Web查询的新方法.对一个给定的查询,从日志中抽取候选查询的一些量化指标,如被查询的不同用户量、被查询的次数、用户在反馈结果中的点击次数、与给定查询间的共有词项个数、点击相同URL的个数及其分布等,用手工标记部分训练数据,进而建立一个发现有较好反馈结果的相近查询的回归模型.实验显示用该方法可得到较高的结果精度.

作者王继民彭波孟涛

机构地区北京大学

出处《北京邮电大学学报》 EI CAS CSCD 北大核心 2005年第z1期44-48,共5页 Journal of Beijing University of Posts and Telecommunications

基金国家自然科学基金项目(60435020) 教育部博士点基金项目(20030001076) 中国博士后科学基金项目(2004036182)

关键词搜索引擎用户日志相近Web查询回归模型

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1[1]CNMC.第十五次中国互联网络发展状况统计报告(2005/1)[EB/OL]. http:∥www. cnnic. net. cn/, 2005-01.CN NIC. The fifteenth statistical report on the development of China Internet network information [EB/OL]. http:∥www. cnnic. net. cn/. 2005- 01.
2[3]Cui Hang, Wen Jirong, Nie Jianyun, et al. Query expansion by mining user logs[J]. IEEE Transactions on Knowledge and Data Engineering, 2003,15(4): 829 - 839.
3[4]Baeza-Yates R, Ribeiro-Neto B. Modern information retrieval [M]. England: Addison-Wesley, 1999.
4[5]Wen Jirong, Nie Jianyun, Zhang Hongjiang. Query clustering using user logs[A]. Proceedings of the 10th World Wide Web Conference[C]. New York: ACM Press, 2001. 162 - 168.
5[6]Beeferman D, Berger A. Agglomerative clustering of a search engine query log [A]. Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C]. 2000. 407-415.
6[7]Chan W S, Leung W T, Lee D L. Clustering search engine query log containing noisy clickthroughs[A].Proceedings of the 2004 International Symposium on Applications and the Internet[C]. 2004. 305 -308.
7[8]Fonseca B M, Golgher P B, De Moura E S, et al.Using association rules to discovery search engines related queries [A]. First Latin American Web Congress[C]. Santiago, Chile, 2003. 66-71.
8[9]Zeng Huajun, He Qicai, Chen Zheng, et al. Learning to cluster Web search results [A]. Proceedings of SIGIR'04[C]. New York: ACM Press, 2004. 210-217.
9[11]Xie Yinglian, O'Hallaron D. Locality in search engine queries and its implications for caching[A]. Proc IEEE Infocom 2002 [C]. 2002. 1238-1247.
10[12]Kang I H, Kim G. Query type classification for Web document retrieval[A]. Proceedings of SIGIR ' 03 [C].New York: ACM Press, 2003. 64-71.

同被引文献50

1余慧佳,刘奕群,张敏,茹立云,马少平.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007,21(1):109-114. 被引量：117
2第23次中国互联网络发展状况统计报告[EB].http:∥www.cnnic.net.cn/index/0E/00/11/index.htm,2009-04-05.
3Broder A.Taxonomy of web search.SIGIR Forum,2002,36(2):3-10.
4Silverstein C,Marais H,Henzinger M,et al.Analysis of a very large web search engine query log.SIGIR Forum,1998,33(1):6-12.
5Ruthven I,Lalmas M.A survey on the use of relevance feedback for information access systems.Knowledge Engineering Review,2003,18(2):95-145.
6Beeferman D,Berger A L.Agglomerative clustering of a search engine query log.In:Proceedings of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Boston,USA,2000.407-416.
7Jones R.Generating query substitutions.In:Proceedings of the 15th International Conference on World Wide Web,Edinburgh,Scotland,2006.387-396.
8Zhang Z Y,Nasraoui O.Mining search engine query logs for query recommendation.In:Proceedings of the 15th International Conference on World Wide Web,Edinburgh,Scotland,2006.1039-1040.
9Shen X,Tan B,Zhai C.Context-sensitive information retrieval using implicit feedback.In:Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Salvador,Brazil,2005.43-50.
10Cucerzan S,White R W.Query suggestion based on user landing pages.SIGIR Forum,2007,875-876.

引证文献4

1翟海军,张刚,张瑾.基于线性回归的相关查询推荐[J].高技术通讯,2010,20(6):596-601.
2汪晴,庄卫华.基于TF-IQF模型的查询建议[J].计算机工程,2010,36(21):78-80. 被引量：4
3周二翠,寇广增,夏晨曦.基于相关查询的搜索引擎查询自动分类研究[J].情报杂志,2011,30(2):152-155.
4董志安,吕学强.基于百度搜索日志的用户行为分析[J].计算机应用与软件,2013,30(7):17-20. 被引量：16

二级引证文献20

1黄晓芳,黎邦群.书目检索建议与提示策略研究[J].图书馆学研究,2013(15):59-62.
2黎邦群.基于主题词表的OPAC检索提示[J].图书馆杂志,2014,33(3):24-30. 被引量：8
3郭猛,胡秀香,邵国金.混合语义相似度计算优化模糊查询的智能信息检索算法[J].科学技术与工程,2014,22(23):97-102. 被引量：4
4陈勇,李红莲,吕学强.网络用户搜索行为特征分析[J].现代图书情报技术,2014(12):10-17. 被引量：1
5邹永利,王明晓,张璐.非主题因素对探索性信息检索的影响[J].情报理论与实践,2015,38(3):17-20. 被引量：1
6李雪伟,吕学强,董志安,刘克会.利用URL-Key进行查询分类[J].北京大学学报（自然科学版）,2015,51(2):220-226. 被引量：2
7荣国婷,罗勇,孙建军.基于日志分析的图书馆主页网站用户行为研究[J].图书馆杂志,2015,34(7):59-63. 被引量：7
8王若佳,李培.基于日志挖掘的用户健康信息检索行为研究[J].图书情报工作,2015,59(11):111-118. 被引量：17
9童国平,孙建军.基于搜索日志的用户行为分析[J].现代图书情报技术,2015(7):80-88. 被引量：6
10任育伟,吕学强,李卓,徐丽萍.搜索日志中热点查询的内容抽取[J].计算机应用与软件,2015,32(12):16-21. 被引量：1

1杨岳湘,苏国荣,邓劲生.基于用户行为分析的校园网搜索引擎排序方法[J].计算机工程,2010,36(24):275-277. 被引量：2
2子寒.你火他火看谁最火[J].网友世界,2006(14):32-32.
3俞木发.百变精灵Pitaschio调理你的Windows[J].电脑爱好者,2007,0(23):35-35.
4郑丽,吕学强.搜索引擎日志中“N+V+N”、“V+N+N”型短语识别[J].计算机工程与应用,2013,49(6):143-147. 被引量：1
5童国平,孙建军.基于搜索日志的用户行为分析[J].现代图书情报技术,2015(7):80-88. 被引量：6
6毕鹏.Web信息检索结果个性化排序模型[J].计算机科学,2004,31(B09):35-37. 被引量：1
7孙达明,张斌,张书波,马安香.一种流行性与相似性结合查询推荐策略[J].小型微型计算机系统,2016,37(6):1121-1125. 被引量：3
8刘奕群,岑荣伟,张敏,茹立云,马少平.基于用户行为分析的搜索引擎自动性能评价[J].软件学报,2008,19(11):3023-3032. 被引量：23
9赵红改,吕学强,施水才,郑丽.搜索引擎日志中“N+V”和“N_1+N_2+V”型短语自动识别[J].中文信息学报,2012,26(5):20-25. 被引量：2
10郑丽,吕学强,施水才.搜索引擎日志中“N+V+N”和“V+N+N”型短语功能类别识别[J].计算机应用与软件,2012,29(9):112-116.

北京邮电大学学报

2005年第z1期

浏览历史

内容加载中请稍等...

基于搜索引擎日志发现相近Web查询被引量：4

参考文献11

同被引文献50

引证文献4

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于搜索引擎日志发现相近Web查询 被引量：4

参考文献11

同被引文献50

引证文献4

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于搜索引擎日志发现相近Web查询被引量：4