期刊文献+

探索数据集特征与伪相关反馈的平衡参数之间的关系

Study on collection statistics for parameter selection in pseudo relevance feedback
原文传递
导出
摘要 伪相关反馈(pseudo-relevance feedback)是一种可有效提升查询性能的查询扩展技术。对这项技术而言,如何选取参数来平衡原始查询和扩展词的比重以达到最优的查询效果是一个非常重要的问题。在以往的反馈模型中,该平衡参数在所有数据集上需要设置成固定的经验值。但是,由于数据集之间的差异性,该平衡参数应该随着数据集的变化而改变。通过分析数据集的统计特征来发掘其与最优平衡参数之间的关系,进而指导最优参数的选择,主要分析了文档长度离散度、低频词项在数据集和查询扩展词中的比重等特征。通过分析在6个标准TREC数据集上的实验结果得出结论:特殊词项的比例越高,文档长度离散度越大,越需要给原始查询更大的比重。 Pseudo-relevance feedback( PRF) is an effective technique used to improve the Ad hoc retrieval performance. For PRF methods,howto optimize the balance parameter between the original query model and feedback model is an important but difficult problem. In the current feedback methods,the balance parameter is often set to a fixed value across all collections. However,due to the difference among collections,this parameter should be tuned differently. In this paper,we aim to discover some meaningful clues for the optimization of the balance parameter through analyzing the statistical features of collections. We investigates the dependency between the optimal parameter and a number of collection statistics,including the standard deviation of document length( Dev( dl)),the proportion of lowfrequency terms in the collection( LFT-C) and in the expansion terms. The experiments on six TREC collections demonstrate that the higher LFT-C and Dev( dl) are,the bigger weight of the original query model should be given.
出处 《山东大学学报(理学版)》 CAS CSCD 北大核心 2016年第7期18-22,42,共6页 Journal of Shandong University(Natural Science)
基金 国家重点基础研究发展计划(973计划)项目(2013CB329304 2014CB744604) 国家自然科学基金资助项目(61402324 61272265) 天津市应用基础与前沿研究计划项目(15JCQNJC41700)
关键词 信息检索 伪相关反馈 数据集特征 information retrieval pseudo-relevance feedback collection characteristics
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部