一种基于上下文的中文信息检索查询扩展被引量：25

Query Expansion Based on the Context in Chinese Information Retrieval

下载PDF

导出

摘要在中文信息检索的研究和实践中 ,由于查询中所使用的词可能与文件集中使用的词不匹配而导致一些相关的文件不能被成功地检索出来 ,这是影响检索效果的一个很关键的问题。查询扩展可以在一定程度上解决这种词的不匹配现象 ,然而 ,实验表明 ,通常简单的查询扩展并不能稳定地提高中文信息检索的检索效果。本论文中提出并实现了一种基于上下文的查询扩展方法 ,可以根据查询的上下文对扩展词进行选择 ,是一种相对“智能”的查询扩展方法。在TREC - 9中文信息检索测试集上进行的实验表明 ,相对于通常简单的查询扩展 ,基于上下文的查询扩展方法取得了具有统计意义提高的检索效果。 Term mismatch between queries and documents is a fundamental problem in Chinese Information Retrieval (IR),which affects the effectiveness of retrieval results.Query expansion in IR can deal with this kindof problem in some degree.However,experiments show that the common query expansion in IR cannot get steady retrieval results.In this paper,we propose and realize query expansion based on the context,which can choose the expansion words according to the context of the query.Experiment results with TREC 9 show that query expansion based on the context is a smarter method.Compared with the results of common query expansion,query expansion based on the context can get statistically significant improvement.

作者贺宏朝何丕廉高剑峰黄昌宁

机构地区天津大学电子信息工程学院微软(亚洲)研究院

出处《中文信息学报》 CSCD 北大核心 2002年第6期32-37,45,共7页 Journal of Chinese Information Processing

基金天津市自然科学基金项目 (99380 0 111)

关键词查询扩展上下文中文信息检索测试集扩展方法信息检索系统 query expansion based on the context Chinese information retrieval

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1[1]Miller G A, et al. Introduction to WordNet:an on-line lexical database, International Journal of Lexicography, 1990,3(4) :235 - 312
2[2]Rila Mandala,Takenobu Tokunaga,Hozumi Tanaka,Combining multiple evidence from different types of thesaurus for query expansion,SIGIR, 1999:191 - 197
3[3]Voorhees E M, Harman D K,The sixth Test REtrieval Conferenee(TREC-6) ,Gaithersburg,NIST, 1998
4[4]Salton G, The SMART retrieval system-experiments in automatic document processing, Prentice Hall, 1971:115 -411
5[5]http: ∥ morph. ldc. upenn. edu/Projects/Chinese
6[6]Gao J F, Nie J Y, Zhang J, et al, Improving query translation for CLIR using statistical models, ACM SIGIR'01 ,New Orleans,2001:96- 104
7[7]David Hull, Using statistical testing in the evaluation of retrieval performance, In Proc. of the 16th ACM/ SIGIR Conference, 1993: 329 - 338

同被引文献183

1刘晓莉,彭波.基于概率模型的名人网页相关度评价[J].清华大学学报（自然科学版）,2005,45(S1):1887-1891. 被引量：2
2李敏强,李智.基于约束聚类的一种概念学习方法[J].系统工程学报,2004,19(5):482-488. 被引量：3
3张敏,宋睿华,马少平.基于语义关系查询扩展的文档重构方法[J].计算机学报,2004,27(10):1395-1401. 被引量：55
4温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
5吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：48
6李国臣,罗云飞.采用优先选择策略的中文人称代词的指代消解[J].中文信息学报,2005,19(4):24-30. 被引量：33
7代六玲,黄河燕,陈肇雄.一种文本分类的在线SVM学习算法[J].中文信息学报,2005,19(5):11-15. 被引量：13
8张振亚,王进,程红梅,王煦法.基于余弦相似度的文本空间索引方法研究[J].计算机科学,2005,32(9):160-163. 被引量：53
9王耀南,余群明,袁小芳.混沌神经网络模型及其应用研究综述[J].控制与决策,2006,21(2):121-128. 被引量：12
10张选平,蒋宇,袁明轩,马琮,梁平.一种基于概念的信息检索查询扩展[J].微电子学与计算机,2006,23(4):110-114. 被引量：13

引证文献25

1徐莹,杜习英.一种基于遗传算法的查询优化方法[J].电脑知识与技术（过刊）,2007(20):524-526. 被引量：1
2左家莉,王明文,王希.基于Markov网络的信息检索扩展模型[J].清华大学学报（自然科学版）,2005,45(S1):1847-1852. 被引量：9
3张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
4郑庆华,王朝静,孙霞.一种基于结构化语料库的概念语义网络自动生成算法[J].计算机研究与发展,2005,42(3):478-485. 被引量：7
5李智,李敏强.基金项目评审管理中智能交互式文档检索[J].研究与发展管理,2005,17(3):106-110. 被引量：5
6余正涛,樊孝忠,宋丽荣.基于特定问题类别的汉语问答系统查询扩展[J].北京理工大学学报,2005,25(10):880-884. 被引量：3
7吕碧波,赵军.基于相关文档池建模的查询扩展[J].中文信息学报,2006,20(3):78-83. 被引量：7
8章成志,苏兰芳,苏新宁.基于多语境的相关词自动提取系统的设计与实现[J].现代图书情报技术,2006(9):23-28. 被引量：6
9在发展中追求和谐——从统计数字看浙江科学发展[J].今日浙江,2006(20):22-23.
10武子英,郑家恒.现代汉语缩略语自动识别的方法研究[J].计算机工程与设计,2007,28(16):4052-4054. 被引量：8

二级引证文献82

1张琳,胡杰,应力,浦丽娜.汉语问答系统概念查询扩展研究[J].郑州大学学报（理学版）,2009,41(1):69-72. 被引量：1
2朱宏.基于Web平台的智能CAI系统研究[J].哈尔滨商业大学学报（自然科学版）,2005,21(4):486-488. 被引量：1
3付雪峰,刘邱云,王明文.基于互信息的粗糙集信息检索模型[J].山东大学学报（理学版）,2006,41(3):17-19. 被引量：2
4曹瑛,王明文,陶红亮.基于Markov网络的检索模型[J].山东大学学报（理学版）,2006,41(3):101-105. 被引量：5
5胡昌平,李阳晖.面向用户的交互式信息服务组织分析[J].图书馆论坛,2006,26(6):188-193. 被引量：23
6牛洪梅,吐尔根,伊不拉音.维吾尔语的词性标注校对初探[J].微型电脑应用,2006,22(12):45-47. 被引量：1
7章成志,苏新宁.面向信息检索的词汇知识发现[J].现代图书情报技术,2007(1):10-14. 被引量：3
8周文,徐国梁.翻译记忆中语句相似度计算方法的研究[J].计算机应用,2007,27(5):1210-1213. 被引量：6
9黄名选,严小卫.基于查询语义树的语义查询扩展研究[J].情报理论与实践,2007,30(6):844-846. 被引量：4
10陈莉莉,周竹荣.基于贝叶斯网络和互信息的检索用户模型[J].计算机工程与设计,2008,29(5):1057-1060. 被引量：4

1李亮,张树生,白晓亮,邵立.基于遗传算法的三维CAD模型多特征融合和检索[J].制造业自动化,2013,35(3):78-81. 被引量：4
2专为企业设计[J].电脑时空,2013(10):16-16.
3李卫疆,赵铁军,王宪刚.基于上下文的查询扩展[J].计算机研究与发展,2010,47(2):300-304. 被引量：32
4李玉林.将Word中的常用命令打包集中使用[J].电脑入门,2009(8):42-44.
5赵琦,姚庆梅.基于ARM及嵌入式操作系统的通信管理机[J].山东建筑大学学报,2009,24(1):54-58. 被引量：8
6张芳玲,赵淑英.公共场合的计算机病毒防治[J].灾害学,1995,10(4):24-27.
7林强.多个电视监控系统集中使用中防干扰技术的探讨[J].电子技术与软件工程,2016(5):126-126.
8尹贻安.网络机房的维护模式探究[J].民营科技,2015(3):69-69.
9佳能智能黑立方iC MF226dn[J].办公自动化,2015,0(14):33-33.
10郭武斌,周宽久,苏振魁.基于词序方法的文本相似度计算模型[J].情报学报,2008,27(6):857-862. 被引量：7

中文信息学报

2002年第6期

浏览历史

内容加载中请稍等...

一种基于上下文的中文信息检索查询扩展被引量：25

参考文献7

同被引文献183

引证文献25

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

一种基于上下文的中文信息检索查询扩展 被引量：25

参考文献7

同被引文献183

引证文献25

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

一种基于上下文的中文信息检索查询扩展被引量：25