基于LDA主题模型的分布式信息检索集合选择方法被引量：22

A LDA Topic Model Based Collection Selection Method for Distributed Information Retrieval

下载PDF

导出

摘要该文针对分布式信息检索时不同集合对最终检索结果贡献度有差异的现象,提出一种基于LDA主题模型的集合选择方法。该方法首先使用基于查询的采样方法获取各集合描述信息;其次,通过建立LDA主题模型计算查询与文档的主题相关度;再次,用基于关键词相关度与主题相关度相结合的方法估计查询与样本集中文档的综合相关度,进而估计查询与各集合的相关度;最后,选择相关度最高的M个集合进行检索。实验部分采用Rm、P@n和MAP作为评价指标,对集合选择方法的性能进行了验证。实验结果表明该方法能更准确的定位到包含相关文档多的集合,提高了检索结果的召回率和准确率。 Considering that different collections have different contributions to the final search results, a LDA topic model based collection selection method is proposed for distributed information retrieval. Firstly, the method acquires information about the representation of each collection by query-based sampling. Secondly, a method using the LDA topic model is proposed to estimate the relevance between the query and a document. Thirdly, a method based on both term and topic is proposed to estimate the relevance between the query and the sample documents, by which the relevance between the query and collections can be estimated. Finally, M collections with the highest relevance are selected for retrieving. Experiment results demonstrates that the proposed method can improve the accura cy and recall of search results.

作者何旭峰陈岭陈根才钱坤吴勇王敬昌

机构地区浙江大学计算机科学与技术学院浙江鸿程计算机系统有限公司

出处《中文信息学报》 CSCD 北大核心 2017年第3期125-133,共9页 Journal of Chinese Information Processing

基金 "核高基"国家科技重大专项(2010ZX01042-002-003) 国家自然科学基金(60703040 61332017) 浙江省重大科技专项(2011C13042 2013C01046) 中国工程科技知识中心(CKCEST-2014-1-5)

关键词集合选择分布式信息检索 LDA collection selection distributed information retrieval LDA

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘颖,陈岭,陈根才,赵江奇,王敬昌.基于历史点击数据的集合选择方法[J].浙江大学学报（工学版）,2013,47(1):23-28. 被引量：2
2张俊林,孙乐,孙玉芳.基于主题语言模型的中文信息检索系统研究[J].中文信息学报,2005,19(3):14-20. 被引量：4
3刘振鹿,王大玲,冯时,张一飞,方东昊.一种基于LDA的潜在语义区划分及Web文档聚类算法[J].中文信息学报,2011,25(1):60-65. 被引量：19

二级参考文献32

1Sahon G, Wong A, Yang C. A vector space model for automatic indexing [J]//Communications of the ACM, 1975, 18(11): 613-620.
2Hinneburg A, Aggarwal C, Keim D. What Is the Nearest Neighbor in High Dimensional Spaces [C]// Proceeding of the 26th VLDB Conference, 2000: 506-515.
3Dumais S, Furnas G. , Landauer T, Scott D, et al. Using I.atent Semantic Analysis to Improve Access to Textual Information [C]//Proceedings of Computer Human Interaction, 1988: 281-285.
4Hofmann T. Probabilistic Latent Semantic Indexing [C]//Proeeedings of the 22th Annual International SIGIR Conference on Research and Development in Information Retrieval, 1999:50-57.
5Blei D, Ng A, Jordan M. Latcnt Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3(5) : 993-1022.
6Phan X, Nguyen L, Horiguchi S. Learning to classify short and sparse text & web with hidden topics from large scale data collections [C]//Proceedings of 2008 WWW Conference, 2008: 91-100.
7Titov I, McDonald. Modeling online reviews with multi-grain topic models [C]//Proceedings of 2008 WWW Conference, 2008: 111-120.
8谭松波,王月粉.中文文本分类语料库.Tan CorpV1.0.www.Searchforum.org.cn/tansongbo/corpus.htm.
9J.Ponte and W.B.Croft, A Language Modeling Approach to Information Retrieval[A]. In: Proceedings of the 1998 ACM SIGIR Conference on Research and Development in Infommfion Retrieval[C]. 1998, 275-281.
10A. Berger and J.I.afferty. InfonmlJon retrieval as statistical translation[A]. In: Proceedings of the 1999 ACM SIGIR Conference on Research and Development in Information Retrieval[ C]. 1999,222- 229.

共引文献22

1文健,李舟军.基于聚类语言模型的生物文献检索技术研究[J].中文信息学报,2008,22(1):61-66. 被引量：3
2黄颖.LDA及主题词相关性的新事件检测[J].计算机与现代化,2012(1):6-9. 被引量：4
3余一骄,刘芹.基于语义的中文网页检索[J].计算机科学,2012,39(8):79-87. 被引量：4
4邹志华,田生伟,禹龙,冯冠军.改进的维吾尔语Web文本后缀树聚类[J].中文信息学报,2013,27(2):118-126. 被引量：1
5王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：97
6赵一,李昭,陈鹏,何泾沙,何克清.一种面向领域的Web服务语义聚类方法[J].小型微型计算机系统,2019,40(1):81-88. 被引量：5
7刘启华.基于LDA的文本语义检索模型[J].情报科学,2014,32(8):38-43. 被引量：8
8赵北庚.基于R语言的LDA算法在房租预测中的应用[J].电脑编程技巧与维护,2015(4):67-68.
9黄炜,姚嘉威.网络舆情事件的主动感知实践[J].现代情报,2015,35(10):7-11. 被引量：4
10陈攀,杨浩,吕品,王海晖.基于LDA模型的文本相似度研究[J].计算机技术与发展,2016,26(4):82-85. 被引量：12

同被引文献206

1中国心血管健康与疾病报告编写组,王增武,胡盛寿.中国心血管健康与疾病报告2019概要[J].中华老年病研究电子杂志,2020(4):4-15. 被引量：938
2王哲,徐燕文.基于差异化融合的语义信息检索模型仿真[J].微电子学与计算机,2015,32(1):146-149. 被引量：2
3石晶,李万龙.基于LDA模型的主题词抽取方法[J].计算机工程,2010,36(19):81-83. 被引量：47
4李畅,王永良,冯晓洁,聂峰.作战文书关键信息抽取方法[J].兵工自动化,2011,30(5):26-29. 被引量：8
5才让卓玛,才智杰.基于语料库的藏语高频词抽取研究[J].计算机工程,2012,38(15):56-58. 被引量：3
6张瑾.基于改进TF-IDF算法的情报关键词提取方法[J].情报杂志,2014,33(4):153-155. 被引量：63
7储鹏飞,孙昕毅,李天阳.电能计量业务监督系统设计与应用[J].自动化与仪表,2019,34(1):6-11. 被引量：8
8丁梦晓,毕强,许鹏程,李洁,牟冬梅.基于用户兴趣度量的知识发现服务精准推荐[J].图书情报工作,2019,63(3):21-29. 被引量：20
9顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
10张一洲.基于用户兴趣的个性化信息检索方法研究[J].现代情报,2015,35(6):25-28. 被引量：4

引证文献22

1李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
2於馨彦,孙瑞玲.医院特定患者信息资源快速检索仿真研究[J].计算机仿真,2017,34(12):389-392. 被引量：3
3邬培.电子商务平台用户资源信息快速查询仿真[J].计算机仿真,2018,35(8):397-400.
4官小龙.跨领域模式下语料库信息智能筛选仿真研究[J].计算机仿真,2018,35(9):311-314. 被引量：1
5秦菲.大数据处理下医院重症患者信息快速检索仿真[J].计算机仿真,2019,36(3):371-374. 被引量：1
6黄立冬.分布式搜索引擎中关键词倒排索引方法仿真[J].计算机仿真,2019,36(8):380-383. 被引量：5
7屈娟娟.大数据网络用户浏览隐式反馈信息检索仿真[J].计算机仿真,2019,36(9):430-433. 被引量：8
8李志杰.无线网络中多源交互信息关键特征检索方法研究[J].电子设计工程,2020,28(1):103-107. 被引量：1
9赵飞.分布式多数据库信息资源联动更新方法研究[J].新一代信息技术,2019,2(13):89-93. 被引量：1
10张鹏程.基于LDA用户兴趣模型的远程教育课程推荐方法研究[J].现代电子技术,2020,43(3):173-176. 被引量：4

二级引证文献127

1张季,康乐乐,李博.移动应用评论挖掘研究综述[J].知识管理论坛,2021(6):339-350. 被引量：2
2冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
3彭德军,曹树斌,马平,赵俊达.煤矿安全隐患信息关键语义智能提取方法研究[J].煤炭工程,2022,54(S01):224-229. 被引量：2
4赵旭剑,王崇伟,金培权,张晖,杨春明,李波.面向Web的故事脉络挖掘研究综述[J].中文信息学报,2021,35(11):13-33. 被引量：2
5杨月.数字图书馆交互式信息分类检索模型设计[J].科技通报,2021,37(12):112-116. 被引量：2
6靳嵩,朱艳,吴可嘉,孟祥松,赵乾菊,王颖.基于BERT的海上船舶安全隐患分类[J].船舶工程,2023,45(S01):381-384.
7王景田,杨赴云,张月英.单胺氧化酶抑制剂及其相互作用[J].中国药学杂志,2000,35(5):351-353. 被引量：16
8李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
9任学军.医院特定患者实时财务结算信息智能管理系统设计[J].自动化与仪器仪表,2019(1):106-109. 被引量：2
10周秋红.基于人工智能的医院档案信息库资源多层次检索机器设计[J].自动化与仪器仪表,2019,0(10):187-190. 被引量：1

1曾慧,李斯琦,汪慧娟,刘冀伟.基于梯度方向直方图的热核特征提取方法[J].仪器仪表学报,2017,38(4):844-852. 被引量：3
2肖刘明镜,周志,邹小军,胡俊峰.一种基于领域本体的稿件—审阅人相关度度量方法[J].中文信息学报,2017,31(2):163-168. 被引量：1
3魏文渊,田爽.“视频结构化”推进智能安防走进2.0时代[J].中国安防,2017(5):31-34. 被引量：3
4李兴亮,毛睿.基于近期最远遍历的支撑点选择[J].南京大学学报（自然科学版）,2017,53(3):483-496. 被引量：5
5陈星宇,周展,黄俊文,陶达.基于关键词挖掘的客户细分方法[J].深圳大学学报（理工版）,2017,34(3):300-305. 被引量：3
6王洪伟,孟园.在线评论质量有用特征识别:基于GBDT特征贡献度方法[J].中文信息学报,2017,31(3):109-117. 被引量：14

中文信息学报

2017年第3期

浏览历史

内容加载中请稍等...

基于LDA主题模型的分布式信息检索集合选择方法被引量：22

参考文献3

二级参考文献32

共引文献22

同被引文献206

引证文献22

二级引证文献127

相关作者

相关机构

相关主题

浏览历史

基于LDA主题模型的分布式信息检索集合选择方法 被引量：22

参考文献3

二级参考文献32

共引文献22

同被引文献206

引证文献22

二级引证文献127

相关作者

相关机构

相关主题

浏览历史

基于LDA主题模型的分布式信息检索集合选择方法被引量：22