搜索引擎检索系统质量评估被引量：10

On Retrieval System Evaluation of Search Engines

下载PDF

导出

摘要搜索引擎检索系统的质量评估对传统信息检索系统评估带来了新的研究问题·利用Tiangwang搜索引擎查询日志,按类别构造评估查询集,用人工判别相关性的方法对3个搜索引擎进行了检索质量评估·实验用InfoMall系统提供的历史网页服务消除不同搜索引擎搜集系统收集网页集合的差异,得到如下结论:①评测员之间的差异很大,但评估实验结果保持稳定;②使用连续型的相关度评分以及对应的评估指标比二元相关度评分及指标具有更好的区分能力;③使用50左右规模的查询集合和DCG这样的连续型评估指标可以有效进行评估实验· Evaluation of Web search brings challenges into the traditional evaluation methods of information retrieval systems. In this paper, the query set with different user＇s information categories is constructed by analyzing the query log of Tianwang search engine. In the evaluation experiments for three popular search engines, the differences of indexed document sets are reduced by filtering the query results on the InfoMall Web archive. Experiments show that： ①Significant differences are found in voluntary assessors, but the results of evaluation keep stable, ②Continuous relevant scores and corresponding measures have better distinction capability than the binary ones, and ③Query set with size of 50 is enough for the evaluation measure DCG in the Web search evaluation.

作者彭波闫宏飞

机构地区北京大学计算机科学与技术系网络与分布式系统实验室

出处《计算机研究与发展》 EI CSCD 北大核心 2005年第10期1706-1711,共6页 Journal of Computer Research and Development

基金国家自然科学基金重点项目(60435020) 教育部博士点基金项目(20030001076)

关键词搜索引擎信息检索评估 search engine information retrieval evaluation

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1T. Saracevic. Evaluation of evaluation in information retrieval.In: Proc. 18th Annual Int'l ACM SIGIR Conf. Research and Development in Information Retrieval, SIGIR Forum (ACM Special Interest Group on Information Retrieval). New York:ACM Press, 1995. 137～146.
2J. Zobel. How reliable are the results of large-scale information retrieval experiments? In: Proc. 1998 21st Annual Int'l ACM SIGIR Conf. Research and Development in Information Retrieval(SIGIR'98). New York: ACM Press, 1998. 307～314.
3E.M. Voorhees, C. Buckley. The effect of topic set size on retrieval experiment error. In: Proc. 25th Annual Int'l ACM SIGIR Conf. Research and Development in Information Retrieval,SIGIR Forum (ACM Special Interest Group on Information Retrieval). New York: ACM Press, 2002. 316～323.
4C. Buckley, E. M. Voorhees. Evaluating evaluation measure stability. In: Proc. 23rd Int'l ACM SIGIR Conf. on Research and Development in Infornation Retrieval (SIGIR 2000) . New York: ACM Press, 2000. 33～40.
5E.M. Voorhees. Evaluation by highly relevant documents. In:Proc. 24th Annual Int'l ACM SIGIR Conf. Research and Development in Information Retrieval, SIGIR Forum (ACM Special Interest Group on Information Retrieval). New York:ACM Press, 2001. 74～82.
6G.V. Cormack, C. R. Palmer, C. L. A. Clarke. Efficient construction of large test collections. In: Proc. 1998 21st Annual Int'l ACM SIGIR Conf. Research and Development in Information Retrieval ( SIGIR' 98 ) . New York: ACM Press,1998. 282～289.
7D. Hawking, N. Craswell, P. Thistlewaite, et al. Results and challenges in Web search evaluation. Computer Networks, 1999,31(11): 1321～1330.
8D. Hawking, N. Craswell, P. Bailey, et al, Measuring search engine quality. Information Retrieval, 2001, 4(1): 33～59.
9A. Singhal, M. Kaszkiel. A case study in web search using TREC algorithms. In: Proc. 10th International Conference on World Wide Web. New York: ACM Press, 2001. 708～716.
10N. Craswell, D. Hawking, R. Wilkinson, et al. Overview of the TREC-2003 Web Track. TREC 2003, Gaithersburg, Maryland,USA, 2003.

同被引文献123

1谢欣,刘菲菲,李晓明.天网千帆——一种新型文件搜索引擎[J].华南理工大学学报（自然科学版）,2004,32(z1):58-62. 被引量：4
2刘胜久,李天瑞,贾真,尹红风.元搜索引擎排序方法建模与算法研究[J].计算机科学,2012,39(S3):197-199. 被引量：4
3刘正春,蒋福坤.搜索引擎性能的模糊综合评判[J].数学的实践与认识,2004,34(7):24-28. 被引量：6
4王慧莉,刘文宇.潜在语义分析:原理与应用[J].华中科技大学学报（社会科学版）,2004,18(4):91-94. 被引量：2
5刘正春,蒋福坤.搜索引擎定量评价模型研究[J].大学数学,2004,20(4):14-18. 被引量：2
6王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
7陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
8王炼.从用户角度评价网络搜索引擎[J].情报科学,2005,23(3):457-463. 被引量：8
9金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
10金玉坚,刘焱.新型网络信息检索效果评价指标体系设计[J].现代情报,2005,25(4):184-186. 被引量：15

引证文献10

1杨万春.基于访问控制的内部网搜索引擎[J].科技信息,2009(1).
2张爱文,樊红莲.半离散矩阵分解改进算法在网页信息检索中的应用研究[J].黑龙江工程学院学报,2007,21(2):55-57. 被引量：3
3周凯,李芳,盛焕烨.基于向量空间模型的中文搜索引擎评测系统研究与实现[J].计算机应用研究,2007,24(12):16-19. 被引量：3
4胡亮,袁芳,齐芸芸.文件搜索引擎数据采集策略的优化[J].计算机工程与设计,2009,30(3):703-704.
5胡亮,袁芳,齐芸芸.农业垂直搜索引擎信息抽取的研究[J].计算机工程与设计,2009,30(5):1115-1118. 被引量：4
6马志杰.我国搜索引擎评价研究的现状、问题及对策[J].图书馆学研究,2013(4):11-17. 被引量：9
7刘一松,潘超.基于领域本体的个性化信息检索模型研究[J].无线通信技术,2013,22(3):29-33.
8刘胜久,李天瑞,贾真,景运革.基于搜索引擎的相似度研究与应用[J].计算机科学,2014,41(4):211-214. 被引量：3
9孙伟,吕强.基于文档副本局部性的分布式检索算法研究[J].计算机应用研究,2016,33(1):108-110. 被引量：1
10钱夔,郑玄,蒋锴,王小玉.基于自适应模糊神经网络的信息汇聚质量评估方法[J].指挥信息系统与技术,2016,7(2):38-42.

二级引证文献23

1刘艳华,徐勇.不同搜索引擎在农业领域的应用效果对比[J].农业网络信息,2009(8):25-29. 被引量：8
2何毅.基于Web的建筑业主题搜索引擎技术[J].吉林广播电视大学学报,2009(6):126-128.
3何毅.建筑院校主题搜索引擎设计与实现[J].吉林建筑工程学院学报,2010,27(5):114-117.
4陈志雄,朱向庆.基于特征词统计的网页结构化信息抽取[J].嘉应学院学报,2011,29(2):18-21. 被引量：1
5陈燕红,张太红,冯向萍,白涛,马健.基于双重语义空间的农业信息检索模型研究[J].新疆农业大学学报,2012,35(3):253-258. 被引量：2
6梁士金.VSM信息检索中的数据稀疏问题分析与规避策略[J].图书情报工作,2013,57(1):142-146. 被引量：3
7马志杰.我国搜索引擎评价研究的现状、问题及对策[J].图书馆学研究,2013(4):11-17. 被引量：9
8马志杰.国内外搜索引擎评价比较研究[J].情报科学,2013,31(8):149-156. 被引量：3
9王聪睿,张翠肖.一种基于本体的垂直搜索引擎系统模型[J].河北省科学院学报,2013,30(2):49-53.
10张开选.基于文献计量学的我国搜索引擎研究[J].图书馆学研究,2013(20):8-14. 被引量：3

1陈汶滨,赵萍萍,王申申.基于日志内容的Web系统评价[J].信息技术,2010,34(5):205-206. 被引量：1
2杨旭宁,端木方方.基于查询日志的中文搜索引擎用户行为分析[J].电信技术研究,2011(2):69-73.
3冯运仿,陈炯.一种传感器网络应用的面向服务体系结构[J].计算机应用研究,2008,25(5):1474-1476. 被引量：1
4张军,林俊伟.基于WEBSERVICE的统一认证系统设计与实现[J].图书馆建设,2006(1):98-99. 被引量：4
5冯运仿.面向服务的传感器网络应用体系结构研究[J].微计算机应用,2008,29(4):33-38.
6翟红宇,赵小芳.单位工资管理系统与系统集成设计[J].河北北方学院学报（自然科学版）,2007,23(2):54-59. 被引量：1
7卢晓燕.客户端Java技术的应用[J].电脑知识与技术,2006(8):59-61.
8张玉连,李彦威,王权,原福永.搜索引擎查询日志的聚类[J].计算机工程,2009,35(1):43-45. 被引量：5
9勾海波,欧阳为民,徐春荣.搜索引擎查询日志中的聚类算法研究[J].计算机应用与软件,2007,24(3):145-147. 被引量：1
10Outlook网页服务正被利用[J].网管员世界,2009(22):97-97.

计算机研究与发展

2005年第10期

浏览历史

内容加载中请稍等...

搜索引擎检索系统质量评估被引量：10

参考文献16

同被引文献123

引证文献10

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

搜索引擎检索系统质量评估 被引量：10

参考文献16

同被引文献123

引证文献10

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

搜索引擎检索系统质量评估被引量：10