实体信息集成检索的深网数据源选择被引量：2

Deep Web Data Source Selection for Entity Information Integrated Retrieval

下载PDF

导出

摘要在深网集成检索中,用户通常希望仅向少量数据源提交查询即可获得高质量的检索结果,因而数据源选择成为关键问题。为提升实体信息集成检索的效率,提出一种考虑相关性和重复度的数据源选择方法。给出基于主题与情感词的深网数据源摘要构建方法,利用用户反馈识别实体信息的主题类别,根据情感词度量数据源内容之间的重复性,并结合主题相关性和内容重复度设计相应的深网数据源计分策略。实验结果表明,该方法可以基于小数据摘要获得较高的准确率与召回率,为实体信息集成检索提供有效支撑。 People usually want to submit queries to only a few data sources to obtain high quality search results, so data source selection becomes a key issue in Deep Web integrated retrieval. To enhance the efficiency of entity data integrated retrieval,this paper designs a data source selection method based on relevance and repeatability. Firstly, it proposes a summary construction method based on subject and emotional words. The above method identifies subject category of entity information based on user feedback and calculates the data repeatability between two Deep Webs based on emotional words. Then, it proposes a Deep Web data source scoring strategy based on query subject relevance and repetition of content. Experimental result shows that the proposed method has higher accuracy and recall, although using a small data summary. It can orovide an effective suonort to entity infnrrnation integrated retrieval.

作者邓松

机构地区江西财经大学软件与通信工程学院

出处《计算机工程》 CAS CSCD 北大核心 2016年第10期75-79,共5页 Computer Engineering

基金国家自然科学基金资助项目(61462037 61563016) 江西省自然科学基金资助项目(20142BAB217014 20142BAB207009) 江西省研究生创新基金资助项目(YC2012-B021)

关键词与主题词主题词与特征词和直方图的关键数据源选择深网实体信息集成用户反馈 data source selection Deep Web entity information integration user feedback

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1李道申,刘勇.基于本体的DeepWeb数据源发现方法[J].计算机工程,2012,38(4):52-54. 被引量：1
2万常选,邓松,刘喜平,廖国琼,刘德喜,江腾蛟.Web数据源选择技术[J].软件学报,2013,24(4):781-797. 被引量：16
3Balakrishnan R,Kambhampati S. Source Rank: Relevance and Trust Assessment for Deep Web Sources Based on Inter-source Agreement [ C ]//Proceedings of the 20th International Conference on World Wide Web. New York, USA :ACM Press,2011:227-236.
4Dong X L, Saha B, Srivastava D. Less Is More: Selecting Sources Wisely for Integration [ C ]//Proceedings of the 39th International Conference on Very Large Data Bases. [ S. 1. ] :Morgan Kaufmann Publishers,2013 : 37-48.
5Rekatsinas T, Dong X L. Finding Quality in Quantity: The Challenge of Discovering Valuable Sources for Integration [ C ]//Proceedings of the 7th Biennial Con- ference on Innovative Data Systems Research. New York, USA:ACM Press ,2015 : 1-7.
6邓松,万常选,刘喜平,廖国琼.基于用户反馈的深网数据源选择[J].小型微型计算机系统,2012,33(11):2367-2371. 被引量：3
7Rekatsinas T, Dong X L. Characterizing and Selecting Fresh Data Sources [ C ]//Proceedings of 2014 ACMSIGMOD International Conference on Management of Data. New York, USA : ACM Press ,2014:919-930.
8范举,周立柱.基于关键词的深度万维网数据库选择[J].计算机学报,2011,34(10):1797-1804. 被引量：11
9Wang Ying, Zuo Wanli, He Fengling, et al. Ontology- assisted Deep Web Source Selection [J]- Computer Science for Environmental Engineering and Ecolnformatics, 2011,159(2) :66-71.
10万常选,邓松,刘德喜,江腾蛟,刘喜平.面向混合类型关键词查询的非合作结构化深网数据源选择[J].计算机研究与发展,2014,51(4):905-917. 被引量：6

二级参考文献62

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2王源,吴晓滨,涂从文,刘滨,章元峰,王金娥.后控规范的计算机处理[J].现代图书情报技术,1993(2):4-7. 被引量：30
3王兰成,李超.改进的中文同义词相似匹配方法[J].中国图书馆学报,2005,31(3):61-64. 被引量：6
4余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
5宋明亮.汉语词汇字面相似性原理与后控制词表动态维护研究[J].情报学报,1996,15(4):261-271. 被引量：19
6Madhavan J, Cohen S, Dong X, Halevy A, Jeffery S, Ko D, Yu C. Web-scale data integration: You can afford to pay as you go//Proceedings of the CIDR. Asilomar, USA, 2007: 342-350.
7Madhavan J, Ko D, Kot L, Ganapathy V, Rasmussen A, Halevy A. Google's deep web crawl. PVLDB, 2008, 1: 1241- 1252.
8He H, Meng W, Yu C, Wu Z. Automatic integration of Web search interfaces with wise integrator. VLDB Journal, 2004, 12: 256- 273.
9He B, Zhang Z, Chang K C-C. Knocking the door to the deep web: Integrating web query interfaces//Proceedings of theSIGMOD. Paris, France, 2004:913-914.
10Zhang Z, He B, Chang K C C. Light weight domain based form assistant: Querying Web databases on the Fly//Proceedings of the VLDB. Trondheim, Norway, 2005:97-108.

共引文献71

1姚瑶,王战红,石磊.一种基于页面聚类的Web概念化建模新方法[J].微电子学与计算机,2015,32(1):156-160. 被引量：2
2万常选,邓松,刘喜平,廖国琼,刘德喜,江腾蛟.Web数据源选择技术[J].软件学报,2013,24(4):781-797. 被引量：16
3丁传羽,陈军华,夏海峰.基于关键词的深度万维网数据库查询[J].计算机与数字工程,2013,41(4):616-618. 被引量：1
4李宝林.浅析网站性能优化技术[J].电子设计工程,2014,22(2):5-6. 被引量：2
5万常选,邓松,刘德喜,江腾蛟,刘喜平.面向混合类型关键词查询的非合作结构化深网数据源选择[J].计算机研究与发展,2014,51(4):905-917. 被引量：6
6邓松,万常选,吁亮,刘德喜,雷刚,王映龙.非合作结构化深网数据源摘要的动态更新[J].微电子学与计算机,2014,31(4):36-39. 被引量：1
7夏海峰,陈军华.基于语义相似度计算的Deep Web数据库查询[J].微型机与应用,2014,33(8):64-67. 被引量：2
8曾小燕,周统钢.累积反馈学习的简单贝叶斯舆情信息分类技术[J].嘉应学院学报,2014,32(5):18-22.
9丁洁,王日芬.基于特征项的文献共现网络在学术信息检索中的应用[J].图书情报工作,2014,58(15):135-141. 被引量：3
10杨毅.浅谈网站性能提升的途径[J].计算机光盘软件与应用,2014,17(14):149-150.

同被引文献11

1刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
2万常选,邓松,刘德喜,江腾蛟,刘喜平.面向混合类型关键词查询的非合作结构化深网数据源选择[J].计算机研究与发展,2014,51(4):905-917. 被引量：6
3娄定风,章桂明,罗时龙,刘新娇,陈冬美,李萱,薛亚,陈志粦,向才玉,叶奕优.基于数据库的图示多元检索方法的研究[J].植物检疫,2016,30(2):50-54. 被引量：2
4冯雪,于戈,马宗民,詹永丰.DICOM数据的语义查询及优化[J].计算机工程与科学,2016,38(8):1676-1681. 被引量：6
5周新,张孝,薛忠斌,王珊.一种基于共享执行策略的间隔查询优化技术[J].软件学报,2016,27(12):3067-3084. 被引量：3
6林媛.非结构化网络中有价值信息数据挖掘研究[J].计算机仿真,2017,34(2):414-417. 被引量：22
7陈国艳.网络数据库中的高效检索节点图设计与分析[J].现代电子技术,2017,40(5):139-142. 被引量：1
8包科,沈叶忠.光纤网络中的离群异常数据检测方法研究[J].激光杂志,2017,38(8):189-192. 被引量：2
9张晓民,祁薇,张俊,桂小庆.T-STAR:一种基于关键词的关系数据库时态信息检索方法[J].计算机应用研究,2017,34(10):3051-3056. 被引量：12
10伍璇,周栋.基于多语义关系的个性化查询扩展方法[J].模式识别与人工智能,2017,30(11):1039-1047. 被引量：4

引证文献2

1袁国华,寇晶晶,李芳.基于领域特征和用户查询取样的Deep Web数据源描述方法[J].图书情报工作,2017,61(15):138-145.
2赖永凯.大数据中多记录动态信息优化定位查询仿真[J].计算机仿真,2019,36(6):368-372.

1杨世军,张瑞斌.基于SOA的异构数据源统一检索系统模型[J].湖北大学学报（自然科学版）,2009,31(2):137-140. 被引量：5
2叶亚娜,肖婵,耿骞.数字资源的集成检索与资源调度[J].中国教育网络,2007(11):66-67. 被引量：3
3罗玉华,左军,李岩.SVM及其在文本分类中的应用[J].科技信息,2010(3):49-50. 被引量：3
4王成良,桑银邦.Deep Web集成系统中同类主题数据源选择方法[J].计算机应用研究,2011,28(9):3364-3367. 被引量：1
5孙亭,丁杰.异构政务信息资源集成检索技术研究[J].计算机工程与应用,2017,53(2):103-106. 被引量：5
6胡锦城,李实英,李仁发.基于高稳定SURF特征的交通标志识别[J].计算机应用研究,2012,29(8):3179-3181. 被引量：5
7李亚子,蒋君,李书宁.数字图书馆集成检索系统中分页策略研究[J].现代图书情报技术,2008(11):19-23. 被引量：1
8姚飞,陈武,窦天芳,赵阳,姜爱蓉.清华大学图书馆新版英文网站的构建[J].大学图书馆学报,2009,27(5):34-36. 被引量：4
9杜奕智.数据摘要的应用研究[J].信息技术,2003,27(10):42-43.
10孙素云.基于元数据集成检索系统的设计与实现[J].广东轻工职业技术学院学报,2007,6(2):10-13. 被引量：1

计算机工程

2016年第10期

浏览历史

内容加载中请稍等...

实体信息集成检索的深网数据源选择被引量：2

参考文献16

二级参考文献62

共引文献71

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

实体信息集成检索的深网数据源选择 被引量：2

参考文献16

二级参考文献62

共引文献71

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

实体信息集成检索的深网数据源选择被引量：2