信息检索中一种基于词语—主题词相关度的语言模型被引量：3

A Term-Subject-Association-Based Language Model for Information Retrieval

下载PDF

导出

摘要本文提出一种基于词语-主题词相关关系的语言模型TSA-LM(Term-Subject Association Based Language Model),它的基本思想是把一篇文档分成两个文档块,一部分是由领域主题词表中的主题词构成的主题词文档块,另一部分是由非主题词构成的非主题词文档块,分别计算两个文档块和查询的似然程度。对非主题词文档块,假设词语间独立无关,沿用经典的语言模型计算;对主题词文档块,把查询词语和主题词相关关系引入语言模型中来估计该文档块和查询的似然程度。词语-主题词相关关系采用词语-主题词相关度来衡量。词语-主题词相关度的计算除了来源于对文档中词语-主题词共现性的观察外,还来源于宏观上对词语-文档-主题词归属关系的观察。公开数据集上的检索实验结果表明,基于词语-主题词相关关系的语言模型可以有效提高检索效果。 We propose a Term-Subject-Association-based Language Model （TSA-LM） for document retrieval. Its main idea is to divide a document into two parts： one is only composed of subject words （named as subject block）, and the other contains no subject words （named as non-subject block）. Query-likelihood of a document is measured by the combination of the query-likelihood of the two blocks. For non-subject block, we follow classical language model. For subject block, we use the language model smoothed by term-subject association. The term-subject association is weighted by term-subject co-occurrence and term-document-subject labeling relationship. The experimental results on public dataset show that TSA-LM improves search effectiveness.

作者田萱杜小勇李海华

机构地区中国人民大学信息学院

出处《中文信息学报》 CSCD 北大核心 2007年第6期43-51,共9页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60496325 60573092) 国家科技攻关课题资助(2005BA112A02)

关键词计算机应用中文信息处理语言模型主题词词语-主题词相关关系词语文档-主题词归属关系词语主题词共现关系 computer application Chinese information processing language model subject word term-subject association term-document-subject attachment term-subject co-occurrence

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Jay M. Ponte, Croft W. Bruce. A Language Modeling Approach to Information Retrieval [A]. In: Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval[C]. Melbourne, Australia: ACM Press, 1998.
2John Lafferty, Chengxiang Zhai. Document Language Models, Query Models, and Risk Minimization for Information Retrieval [A]. In: Proceedings of the 24th annual international ACM search and development in SIGIR conference on Reinformation retrieval [C].New Orleans, Louisiana, United States : ACM Press, 2001.
3Renxu Sun, Chai-Huat Ong, Tat-Seng Chua L. Mining Dependency Relations for Query Expansion in Passage Retrieval[A].In: SIGIR'06: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval [C]. New York, NY, USA, 2006, 382-389.
4鲁松,白硕.自然语言处理中词语上下文有效范围的定量描述[J].计算机学报,2001,24(7):742-747. 被引量：47
5Hui Fang, Tao Tao, ChengXiang Zhai. A Formal Study of Information Retrieval Heuristics [A]. In: Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval[C]. Sheffield, United Kingdom: ACM Press, 2004.
6http://www. ischol. berkeley. edu/- hearst/irbook/cfc. html
7Dragon Toolkit Homepage, http://www. ischool.drexel. edu/drnbio/dragontool/
8.[EB/OL].http://trec.nist. gov/,(Accesse0May23,2005).

二级参考文献2

1白硕，语言学知识的计算机辅助发现，1995年
2方开泰，实用多元统计分析，1989年

共引文献47

1于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
2卢志茂,刘挺,郎君,李生.神经网络和贝叶斯网络在汉语词义消歧上的对比研究[J].高技术通讯,2004,14(8):15-19. 被引量：9
3陈笑蓉,秦进.特征和语言模型结合的中文文本查错[J].计算机应用,2004,24(B12):259-261. 被引量：1
4丁尚友.中小学图书馆(室)的业务管理[J].齐齐哈尔大学学报（哲学社会科学版）,2005(3):138-138.
5付鸿鹄.基于W eb的开放领域问答系统研究[J].现代图书情报技术,2005(9):36-40. 被引量：3
6刘挺,卢志茂,郎君,李生.Chinese word sense disambiguation based on neural networks[J].Journal of Harbin Institute of Technology(New Series),2005,12(4):408-414.
7李楠,孙济庆.支持语义检索的知识检索模型[J].情报学报,2005,24(6):708-712. 被引量：12
8卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
9刘里,何中市.基于关键词语的文本特征选择及权重计算方案[J].计算机工程与设计,2006,27(6):934-936. 被引量：12
10曲维光,吉根林,穗志方,周俊生.基于语境信息的组合型分词歧义消解方法[J].计算机工程,2006,32(17):74-76. 被引量：10

同被引文献30

1袁薇,高淼.搜索引擎系统中个性化机制的研究[J].微电子学与计算机,2006,23(2):68-72. 被引量：9
2罗杰,陈力,夏德麟,王凯.基于新的关键词提取方法的快速文本分类系统[J].计算机应用研究,2006,23(4):32-34. 被引量：17
3任纪生,王作英.一种新的基于主题的语言模型自适应方法[J].中文信息学报,2006,20(4):82-87. 被引量：3
4姜维,关毅,王晓龙,刘秉权.基于支持向量机的音字转换模型[J].中文信息学报,2007,21(2):100-105. 被引量：6
5章森.基于混合字词网格的汉语音字转换问题的求解[J].计算机学报,2007,30(7):1145-1153. 被引量：5
6中国图书馆分类法.中图分类号查询[EB/OL].[2013-08-19].http://www.ztflh.com.
7Wu G Q,Zheng F.Reducing Language Model Size byImportance-based Pruning and rank-based Quantization. Proceedings of Oriental-COCOSDA . 2003
8张瑞强,王作英,张建平.带拼音纠错的汉语音字转换技术[J].清华大学学报（自然科学版）,1997,37(10):9-11. 被引量：4
9梅勇,徐秉铮.一种基于马尔可夫模型的汉语语音识别后处理中的音字转换方法[J].中文信息学报,1997,11(4):66-72. 被引量：3
10刘海娟,张佳骥,陈勇.语言模型在话题跟踪中的应用[J].无线电工程,2008,38(9):20-23. 被引量：2

引证文献3

1周莹.基于关键词相关度的搜索引擎设计——以天津电大远程教育资源库为例[J].天津电大学报,2011,15(3):43-46. 被引量：1
2吴建荣,陈洪梅,姚建民,熊思勇.自然语言检索扩展词库的构建方法[J].中国科技资源导刊,2013,45(6):67-71.
3张志强,张太红,吴倩,于志敏.基于语言模型的一种音字转换高效解码算法[J].智能计算机与应用,2016,6(5):38-41.

二级引证文献1

1叶文全.微课管理系统站内搜索增强研究与实现[J].数字技术与应用,2017,35(10):35-36.

1CAI Ke-ke,BU Jia-jun,CHEN Chun,QIU Guang.A novel dependency language model for information retrieval[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2007,8(6):871-882. 被引量：1
2王挺进,赵永威,李弼程.N步长距离视觉语言模型的图像分类方法[J].信息工程大学学报,2014,15(4):453-458.
3黎志升,王煦法.基于Language Model的地理信息检索模型(英文)[J].中国科学技术大学学报,2010,40(2):203-209. 被引量：3
4黄云,张彬连,颜一鸣.基于可区分语言模型的微博在线话题检测[J].计算机应用研究,2014,31(12):3539-3542. 被引量：2
5袁里驰.Vari-gram language model based on word clustering[J].Journal of Central South University,2012,19(4):1057-1062.
6陈勇,CHAN Kwok-ping.Improved world-based language model[J].Journal of Harbin Institute of Technology(New Series),2004,11(1):114-120.
7钱揖丽,荀恩东,宋柔.基于SLM的二叉树在语音停顿预测中的应用[J].计算机工程,2006,32(19):23-25. 被引量：2
8Mei Yong Xu Bingzheng Wang Qunsheng(Dept. of Radio Engineering, SCUT, Guangzhou 510641).A KIND OF HYBRID LANGUAGE MODEL EMPLOYED IN POST PROCESSING OF CHINESE SPEECH RECOGNITION[J].Journal of Electronics(China),1998,15(3):221-225.
9SI Yujing,LI Ta,PAN Jielin,YAN Yonghong.A Prefix Tree Based n-best List Re-scoring Strategy for Recurrent Neural Network Language Model[J].Chinese Journal of Electronics,2014,23(1):70-74. 被引量：3
10刘秉权,Wang,Xiaolong,Wang,Yuying.Incorporating Linguistic Rules in Statistical Chinese Language Model for Pinyin-to-character Conversion[J].High Technology Letters,2001,7(2):8-13. 被引量：2

中文信息学报

2007年第6期

浏览历史

内容加载中请稍等...

信息检索中一种基于词语—主题词相关度的语言模型被引量：3

参考文献8

二级参考文献2

共引文献47

同被引文献30

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

信息检索中一种基于词语—主题词相关度的语言模型 被引量：3

参考文献8

二级参考文献2

共引文献47

同被引文献30

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

信息检索中一种基于词语—主题词相关度的语言模型被引量：3