基于伪反馈的有效XML查询扩展

Effective XML Query Expansion Based on Pseudo Relevance Feedback

下载PDF

导出

摘要伪反馈(pseudo relevance feedback,PRF)一直以来都被认为是一种有效的查询扩展技术。然而传统的伪反馈容易带来主题漂移,从而影响检索性能。如何确定高质量的相关文档集,以及如何从相关文档集中挑选有用的扩展词项,是解决伪反馈中查询主题漂移的两个重要方面。对此,针对XML(extensible markup language)文档,提出了一个解决框架:一方面,研究了XML伪反馈文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于检索结果聚类和两阶段排序模型相结合的高质量XML伪相关文档查找技术;另一方面,针对CO(content only)查询,对词项扩展进行了研究,提出了带结构语义的词项权值计算方法。一系列的相关实验数据表明,所提的XML伪反馈查询扩展方法能有效地减少查询主题漂移现象,获得更好的检索质量。 Pseudo relevance feedback (PRF) has been perceived as an effective solution for automatic query expansion.However, traditional pseudo relevance feedback can result in the query representation“drifting”away from the original query and a decreased retrieval performance. Therefore, the key issues in applying PRF are to identify the real relevant documents in the top retrieved results without any other assistant information, and expend the query based on the these relevant documents. This paper presents a solution framework from extensible markup language (XML) data. Firstly, this paper considers the XML content and structure features, and proposes a good XML query scheme based on pseudo relevance feedback documents by combining search results clustering with a two- stage ranking model. Furthermore, this paper explores the XML query expansion of CO (content only) query, and gives the term weight computation with structure. The experimental results show that the proposed scheme can reduce the topic drift effectively and obtain the better retrieval quality.

作者钟敏娟万常选刘德喜江腾蛟刘爱红 ZHONG Minjuan;WAN Changxuan;LIU Dexi;JIANG Tengjiao;LIU Aihong(School of Information Technology, Jiangxi University of Finance and Economics, Nanchang 330013, China;Jiangxi Key Laboratory of Data and Knowledge Engineering, Jiangxi University of Finance and Economics, Nanchang 330013, China)

机构地区江西财经大学信息管理学院江西财经大学数据与知识工程江西省高校重点实验室

出处《计算机科学与探索》 CSCD 北大核心 2016年第12期1673-1682,共10页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金Nos.61363039 61363010 71361012 61562032 国家社会科学基金No.12CTQ042 江西省自然科学基金Nos.20142BAB217014 20142BAB207010 江西省高校人文社会科学研究规划基金项目No.TQ1504~~

关键词 XML伪反馈检索结果聚类排序查询扩展 XML pseudo relevance feedback search results clustering ranking query expansion

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1丁国栋,白硕,王斌.一种基于局部共现的查询扩展方法[J].中文信息学报,2006,20(3):84-91. 被引量：44
2黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865. 被引量：70
3钟敏娟.基于内容与结构语义相融合的XML检索结果聚类[J].情报学报,2012,31(5):515-525. 被引量：5
4钟敏娟,万常选,刘德喜,廖述梅.基于检索结果聚类的XML伪相关文档查找[J].计算机科学,2013,40(10):172-177. 被引量：1

二级参考文献46

1孔令波,唐世渭,杨冬青,王腾蛟,高军.XML数据的查询技术[J].软件学报,2007,18(6):1400-1418. 被引量：72
2Buckley C.,Singhal A.,Mitra M.,and Salton G.New retrieval approaches using SMART[A].In:proceedings of the 4th Text Retrieval Conference (TREC-4)[C],D.K.Harman,Ed.National Institute of Standards and Technology,Gaithersburg,MD,1995,25-48.
3Xu J.X.and Croft W.B.Improving the Effectiveness of Information Retrieval with Local Context Analysis[J].ACM Transactions on Information Systems,2000,18 (1):79-112.
4van Rijsbergen,C.J.Information Retrieval(2nd ed.)[M].Butterworths,London,UK,1979.
5Sparck Jones K.Automatic Keyword Classification for Information Retrieval[M].Butterworths,London,1971.
6Deerwester S.,Dumai S.T.,Furnas G.W.,Landauer T.K.,and Harshman R.Indexing by latent semantic analysis[J].J.Am.Soc.Inf.Sci.1990,41(6):391-407.
7Qiu Y.and Frei H.P.Concept based query expansion[A].In:proceedings of the 16th Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR'93)[C],1993,160-169.
8Jing Y.and Croft W.B.An association thesaurus for information retrieval[A].In:proceedings of the Intelligent Multimedia Information Retrieval Systems (RIAO'94)[C],1994,146 -160.
9Buckley C.,Salton G.,Alan J.,and Singhal A.Automatic query expansion using SMART[A].In:proceedings of the 3rd Text Retrieval Conference (TREC -3)[C],1995,69 -80.
10Rocchio J.Relevance feedback in information retrieval[A].In:The Smart Retrieval System-Experiments in Automatic Document Processing[M],1971.313 -323.

共引文献110

1黄子越,万常选.XML检索中基于聚类的查询词扩展[J].电子科技大学学报,2009,38(S1):29-33. 被引量：1
2黄名选,严小卫.基于查询语义树的语义查询扩展研究[J].情报理论与实践,2007,30(6):844-846. 被引量：4
3夏磊,周竹荣.基于互信息的问句语义扩展研究[J].计算机工程与设计,2008,29(1):163-166. 被引量：3
4李卫疆,赵铁军,王宪刚.基于统计机器翻译模型的查询扩展[J].电子与信息学报,2008,30(3):725-729. 被引量：2
5李卫疆,Zhao,Tiejun,Wang,Xian＇gang.A new approach to query expansion in information retrieval[J].High Technology Letters,2008,14(1):77-80. 被引量：2
6黄名选,黄发良.一种基于词间关联规则挖掘的查询扩展方法[J].图书情报工作,2008,52(3):132-134. 被引量：2
7王宝勋,王晓龙,刘秉权,李鹏.一种基于无监督学习的词变体识别方法[J].中文信息学报,2008,22(3):32-36. 被引量：3
8崔骏,张选平,高由兵.基于概念格的查询扩展词推荐[J].微电子学与计算机,2008,25(5):158-160. 被引量：1
9万常选,鲁远.基于权重查询词的XML结构查询扩展[J].软件学报,2008,19(10):2611-2619. 被引量：21
10黄名选,张师超.一种有效的信息检索模型[J].计算机应用研究,2008,25(8):2345-2348. 被引量：1

1李晶,顾国强.一种改进的FCM检索结果聚类算法研究[J].软件产业与工程,2014(5):39-41.
2何伟,徐新立,朱建民.带目录结构的Word文档转换成PDF的介绍[J].现代机械,2011(2):65-67.
3闫蓉,高光来.基于伪文档的伪相关反馈方法[J].中文信息学报,2016,30(6):156-163. 被引量：2
4郑新立,徐云青,骆昌日.LSI模型在信息检索中的应用[J].计算机技术与发展,2006,16(10):160-162. 被引量：1
5柏晗,成颖,柯青.网络检索结果聚类研究综述[J].情报理论与实践,2015,38(10):138-144. 被引量：2
6骆雄武,万小军,杨建武,吴於茜.基于后缀树的Web检索结果聚类标签生成方法[J].中文信息学报,2009,23(2):83-88. 被引量：9
7陈毅恒,秦兵,宋凡,刘挺,李生.基于ontology抽取优化初始选择的检索结果聚类[J].电子学报,2008,36(B12):166-170. 被引量：8
8庞观松,张黎莎,蒋盛益,邝丽敏,吴美玲.一种基于名词短语的检索结果多层聚类方法[J].山东大学学报（理学版）,2010,45(7):39-44. 被引量：3
9陈毅恒,秦兵,刘挺,王平,李生.基于潜在语义索引和自组织映射网的检索结果聚类方法[J].计算机研究与发展,2009,46(7):1176-1183. 被引量：4
10卢仁猛.检索结果聚类算法研究综述[J].计算机光盘软件与应用,2014,17(18):109-110.

计算机科学与探索

2016年第12期

浏览历史

内容加载中请稍等...

基于伪反馈的有效XML查询扩展

参考文献4

二级参考文献46

共引文献110

相关作者

相关机构

相关主题

浏览历史