基于主题模型的深层网数据源选择算法被引量：3

Deep Web resource selection using topic model

下载PDF

导出

摘要联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题。针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法。首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序。通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题。在TREC Fed Web 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较。在Fed Web 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在Fed Web 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%。另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性。 Federated search is a widely-used technique to find information on Deep Web. Given a user query, one of the challenges for a federated search system is to select a set of resources that are most likely to return relevant results for the query. Most existing resource selection methods are based on text-matching between the sample documents of the resource and the query, which typically suffer the problem of missing vocabulary or incomplete information. To alleviate the problem of incomplete information, Latent Diriehlet Allocation （LDA） topic model approach for resource selection was proposed. First, topic probability distributions for resources and query were inferred using LDA topic model approach. Then the similarities between the topic distributions of resources and query were calculated to rank the resources. By mapping both resources and the query into the low dimensional topic space, the problem of missing information caused by the sparsity of high dimensional word space was alleviated. Experiments were conducted on the test sets of TREC FedWeb 2013 and 2014 Tracks, and the results were compared with that of other participants in the Tracks. The experimental results on the TREC FedWeb 2013 Track show that the LDA based approach outperforms the best result of other participants by 24%; and the results on the TREC FedWeb 2014 Track show that it outperforms the best results of the traditional text-matching-based resource selection methods using either small- or big-document strategies by 22% for small-document methods and 43% for big-document methods respectively. In addition, using sampled snippets rather than documents to generate big-document representation for resources can significantly improve the efficiency of the system, thus enables the proposed approach more feasible and applicable in practice.

作者王秋月曹巍史少晨

机构地区中国人民大学信息学院

出处《计算机应用》 CSCD 北大核心 2015年第9期2553-2559,2595,共8页 journal of Computer Applications

基金国家自然科学基金资助项目(61202331 61472425) 软件工程国家重点实验室开放研究基金资助项目(SKLSE2012-09-33)

关键词深层网主题模型隐含狄利克雷分布数据源选择联邦搜索 deep Web topic model Latent Dirichlet Allocation （LDA） data resource selection federated search

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献30

1BERGMAN M K. The deep Web: surfacing hidden value [ J]. Jour- nal of Electronic Publishing, 2001,7(1) : 113 - 153.
2HE B, PATEL M, ZHANG Z, et al. Accessing the deep Web: a survey [ J]. Communications of ACM, 2007, 50(5) : 94 - 101.
3MADHAVAN J, JEFFERY S, COHEN S, et al. Web-scale data in- tegration: you can only afford to pay as you go [ EB/OL]. [ 2015- 01-04]. http://citeseerx, ist. psu. edu/viewdoc/download? doi = 10.1.1.66. 9358&rep = repl &type = pdf.
4CAFARELLA M J, HALEVY A, MADHAVAN J. Structured data on the Web [J]. Communications of ACM, 2011,54(2):72 -79.
5MADHAVAN J, KO D, KOT L, et al. Google's deep Web crawl [ J]. Proceedings of the Very Large Data Base Endowment, 2008, 1 (2) : 1241 - 1252.
6ARGUELLO J, CALLAN J, DIAZ F. Classification-based resource selection [ C] // Proceedings of the 18th ACM Conference on Infor- mation and Knowledge Management. New York: ACM, 2009:1277 - 1286.
7SHAN J, MAN L. Simple may be best- a simple and effective method for federated Web search via search engine impact factor es- timation [ EB/OL]. [ 2015- 01- 06]. http://trec, nist. gov/pubs/ trec23/papers/pro-ECNU_federated, pdf.
8CALLAN J, CONNELL M. Query-based sampling of text databases [ J]. ACM Transactions on Infomaation Systems, 2011,19(2) : 97 - 130.
9HIEMSTRA D, DEMEESTER T, TRIESCHNIGG D. TREC federa- ted Web search track [ EB/OL]. [ 2015- 01- 03]. https://sites. google, eom/site/treefedweb/.
10CALLAN J P, LU Z, CROFT W B. Searching distributed collec- tions with inference networks [ C]//Proceedings of the 18th Annu- M International ACM SIGIR Conference on Research and Develop- ment in Information Retrieval. New York: ACM, 1995:21 -28.

同被引文献21

1魏守华,吴贵生.区域科技资源配置效率研究[J].科学学研究,2005,23(4):467-473. 被引量：55
2杨道玲.深网信息资源采集初探[J].图书馆杂志,2006,25(12):19-22. 被引量：12
3雷会珠,陈桂荣,琚彤军.信息熵在竞争情报计量分析中的应用[J].情报杂志,2008,27(5):73-75. 被引量：10
4黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：219
5范举,周立柱.基于关键词的深度万维网数据库选择[J].计算机学报,2011,34(10):1797-1804. 被引量：11
6曾硕勋,张龙,肖琬蓉.基于DEA的甘肃科研机构资源配备效率评价研究[J].科技进步与对策,2012,29(3):45-48. 被引量：5
7王莉亚,张志强.基于信息熵的信息整合主题演化研究[J].图书情报工作,2012,56(6):102-106. 被引量：7
8张宇,宋巍,刘挺,李生.基于URL主题的查询分类方法[J].计算机研究与发展,2012,49(6):1298-1305. 被引量：14
9李鹏,王斌,石志伟,崔雅超,李恒训.Tag-TextRank:一种基于Tag的网页关键词抽取方法[J].计算机研究与发展,2012,49(11):2344-2351. 被引量：56
10贺德方.中国科技报告制度的建设方略[J].情报学报,2013,32(5):452-458. 被引量：63

引证文献3

1剧晓红,赵一方,裴雷,孙建军.基于科技报告的地区科技专长监测及其政策应用[J].图书与情报,2017(5):40-46. 被引量：3
2邓松,万常选.基于主题与概率模型的非合作深网数据源选择[J].软件学报,2017,28(12):3241-3256. 被引量：1
3姚晓鹏,高圣兴,薛君志,陆敏超.全局模式下的深网数据抽取与挖掘[J].计算机应用与软件,2018,35(2):91-95. 被引量：1

二级引证文献5

1黄晓林,王辉,夏艳红.基于科技报告的湖南省新材料产业研发现状复杂网络分析[J].天津科技,2019,46(1):65-69. 被引量：1
2陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214. 被引量：14
3黄薪萌,陈磊,王纳伟,赵旭,程劲,高力.我国科技报告研究的现状综述[J].技术与市场,2021,28(7):66-68. 被引量：1
4朱彦君.中国科学家在公共卫生领域的国际合作趋势分析[J].大学图书情报学刊,2022,40(2):116-125.
5余向前.基于XML的电力营销数据智能抽取方法研究[J].自动化仪表,2023,44(1):92-95. 被引量：2

1黄浩军,王胜清.一种基于维基百科的文本表示方法[J].计算机工程与应用,2015,51(14):127-130. 被引量：1
2吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127. 被引量：49
3王春龙,张敬旭.基于LDA的改进K-means算法在文本聚类中的应用[J].计算机应用,2014,34(1):249-254. 被引量：21
4李晓毅,徐兆棣,孙笑微.贝叶斯网络的参数学习研究[J].沈阳农业大学学报,2007,38(1):125-128. 被引量：20
5陈广福,蔡国永,林航,王瑞丽,刘国宾.多Agent系统中基于狄利克雷分布的信任模型[J].计算机工程,2011,37(14):128-130. 被引量：1
6温腊,芮建武,何婷婷,郭亮.利用并行GPU对分层分布式狄利克雷分布算法加速[J].计算机应用,2013,33(12):3313-3316. 被引量：2
7张付志,刘明业.一种基于元搜索引擎的数字图书馆系统集成框架[J].北京理工大学学报,2004,24(8):708-711. 被引量：3
8温光玉,唐雁,吴梦蝶,黄智兴.基于图像上下文语义信息的场景分类方法[J].四川大学学报（自然科学版）,2013,50(6):1223-1229. 被引量：3
9葛琳,季新生,卫红权,江涛.基于LDA模型的在线网络信息内容安全事件分类[J].四川大学学报（工程科学版）,2014,46(3):70-79. 被引量：4
10唐黎哲,冯大为,李东升,李荣春,刘锋.以LDA为例的大规模分布式机器学习系统分析[J].计算机应用,2017,37(3):628-634. 被引量：5

计算机应用

2015年第9期

浏览历史

内容加载中请稍等...

基于主题模型的深层网数据源选择算法被引量：3

参考文献30

同被引文献21

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于主题模型的深层网数据源选择算法 被引量：3

参考文献30

同被引文献21

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于主题模型的深层网数据源选择算法被引量：3