-
题名信息检索中的带权邻近度度量研究
被引量:1
- 1
-
-
作者
薛源海
俞晓明
刘悦
关峰
程学旗
-
机构
中国科学院网络数据科学与技术重点实验室
中国科学院计算技术研究所
中国科学院大学
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第10期2216-2224,共9页
-
基金
国家自然科学基金项目(61100083)
国家"八六三"高技术研究发展计划基金项目(2012AA011003)
-
文摘
信息检索需要解决的主要问题是为信息索取者提供相关、准确甚至完整的信息.大量的传统检索模型基于词袋假设进行建模,不考虑查询词之间的相互联系.词项邻近度信息在现有的研究中常被用于提升经典信息检索模型的检索效果,但大部分工作没有考虑查询中各个词重要性的差异.在现代信息检索的查询请求中,查询词之间不仅不完全相互独立,而且分别具有不同的重要程度.因此,在计算邻近度信息时对查询词的重要性进行区分,将有助于提高检索效果.带权邻近度BM25模型(WP-BM25)使用待检索数据集的背景信息对查询词的重要性进行区分,并将带权邻近度度量方法整合到BM25模型中.在TREC评测的3个标准数据集FR88-89,WT2G和WT10G上的一系列对比实验表明,该模型具有较好的鲁棒性,且能够使检索效果得到显著提升.
-
关键词
带权邻近度
度量方法
BM25
查询词重要性
信息检索
-
Keywords
weighted proximity
measure method
BM25
term significance
information retrieval
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-