一种基于图模型的Web数据库采样方法被引量：29

A Graph-Based Approach for Web Database Sampling

下载PDF

导出

摘要 Web数据库中,海量的信息隐藏在具有特定查询能力的查询接口后面,使人无法了解一个Web数据库内容的特征,比如主题的分布、更新的频率等,这就为DeepWeb数据集成带来了巨大的挑战.为了解决这个问题,提出了一种基于图模型的Web数据库采样方法,可以通过查询接口从Web数据库中以增量的方式获取近似随机的样本,即每次查询获取一定数量的样本记录,并且利用已经保存在本地的样本记录生成下一次的查询.该方法的一个重要特点是不受查询接口中属性表现形式的局限,因此是一种一般的Web数据库采样方法.在本地的模拟实验和真实Web数据库上的大量实验表明,该方法可以在较小代价下获得高质量的样本. A flood of information is hidden behind the Web-based query interfaces with specific query capabilities, which makes it difficult to capture the characteristics of the Web database, such as the topic and the frequency of updates. This poses a great challenge for Deep Web data integration. To address this problem, a graph-based approach WDB-Sampler for Web database sampling is proposed in this paper, which can incrementally obtain sample records from a Web database through its query interface. That is, a number of samples are obtained for the current query, and one of them is transformed into the next query. The important characteristic of this approach is it can adapt to different kinds of attributes on the query interfaces. The extensive experiments on the local simulation Web databases and the real Web databases prove that the approach can achieve high-quality samples from a Web database at a lower cost.

作者刘伟孟小峰凌妍妍

机构地区中国人民大学信息学院

出处《软件学报》 EI CSCD 北大核心 2008年第2期179-193,共15页 Journal of Software

基金 Supported by the National Natural Science Foundation of China under Grant No.60573091 (国家自然科学基金) the National High-Tech Research and Development Plan of China under Grant No.2007AA01Z155 (国家高技术研究发展计划(863)) the Beijing Natural Science Foundation of China under Grant No.4073035 (北京市自然科学基金) the Program for New Century Excellent Talents in University of China (新世纪优秀人才支持计划)

关键词 DEEP WEB WEB数据库数据库采样 deep Web Web database database sampling

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献19

1Chang KCC, He B, Li CK, Patel M, Zhang Z. Structured databases on the Web: Observations and implications. SIGMOD Record, 2004,33(3):61-70.
2BrightPlanet.com. The deep Web: Surfacing hidden value. 2000. http://brightplanet.com
3He H, Meng WY, Yu C, Wu ZH. WISE-Integrator: An automatic integrator of Web search interfaces for e-commerce. In: Proc. of the 29th Int'l Conf. on Very Large Data Bases. San Fransisco: Morgan Kaufmann Publishers, 2003.357-368.
4Wu WS, Yu C, Doan AH, Meng WY. An interactive clustering-based approach to integrating source query interfaces on the deep Web. In: Proc. of the 24th ACM SIGMOD Int'l Conf. on Management of Data. Paris: ACM Press, 2004. 95-106.
5Peng Q, Meng WY, He H, Yu C. WISE-Cluster: Clustering e-commerce search engines automatically. In: Proc. of the 6th ACM Int'l Workshop on Web Information and Data Management. Washington: ACM Press, 2004. 104-111.
6He B, Tao T, Chang KCC. Clustering structured Web sources: A schema-based, model-differentiation approach. In: Proc. of the 9th Int'l Conf. on Extending Database Technology. Heraklion: Springer-Verlag, 2004. 536-546.
7Zhao HK, Meng WY, Wu ZH, Raghavan V, Yu C. Fully automatic wrapper generation for search engines. In: Proc. of the 14th Int'l World Wide Web Conf. Chiba: ACM Press, 2005.66-75.
8Zhai YH, Liu B. Web data extraction based on partial tree alignment. In: Proc. of the 14th Int'l World Wide Web Conf. Chiba: ACM Press, 2005.76-85.
9Chang KCC, He B, Zhang Z, Toward large scale integration: Building a MetaQuerier over databases on the Web. In: Proc, of the 2rid Int'l Conf. on Innovative Data Systems Research. Asilomar, 2005, 44-55.
10Chaudhuri S, Das G, Srivastava U. Effective use of block-level sampling in statistics estimation. In: Proc. of the 24th ACM SIGMOD Int'l Conf. on Management of Data. Paris: ACM Press, 2004. 287-298.

同被引文献309

1缪嘉嘉,李爱平,贾焰,吴泉源.Deep Web集成中数据模式映射失效检测方法研究[J].计算机研究与发展,2008,45(z1):222-227. 被引量：2
2余伟,李石君,洪辉,田建伟.基于覆盖关系的Deep Web数据源排名[J].计算机研究与发展,2007,44(z3):29-34. 被引量：4
3陈向东,李平.基于色彩特征的CAMSHIFT视频图像汽车流量检测[J].沈阳工业大学学报,2015,37(2):183-188. 被引量：9
4黄晓冬.Invisible Web研究综述[J].情报科学,2004,22(9):1144-1148. 被引量：19
5王琳,商周,王学伟.数据采集系统的发展与应用[J].电测与仪表,2004,41(8):4-8. 被引量：125
6古月徐,杨忠,龚华军.基于DSP的飞行控制器的设计与半物理仿真[J].自动化技术与应用,2005,24(2):28-32. 被引量：19
7宋峻峰,张维明,肖卫东,唐九阳.基于本体的信息检索模型研究[J].南京大学学报（自然科学版）,2005,41(2):189-197. 被引量：44
8黄慧,毛宇光,刘正涛.一种支持次协调数据库的UcQL语言[J].计算机工程与应用,2006,42(10):158-161. 被引量：6
9赵朋朋,高岭,崔志明.基于查询接口特征的Deep Web数据源自动分类[J].微电子学与计算机,2006,23(10):47-50. 被引量：11
10邓维维,彭宏,郑启伦.基于数据流的移动数据挖掘研究综述[J].计算机应用研究,2007,24(1):5-9. 被引量：6

引证文献29

1TIAN Jianwei, LI Shijun, TANG Xiaoyue School of Computer, Wuhan University, Wuhan 430072, Hubei, China.Web Database Sampling Approach Based on Attribute Correlation[J].Wuhan University Journal of Natural Sciences,2010,15(4):297-302.
2李巍巍.大数据技术应用研究[J].自动化与仪器仪表,2016(7):195-196. 被引量：3
3姜芳艽,孟小峰.Deep Web数据集成中查询处理的研究与进展[J].计算机科学与探索,2009,3(2):113-129. 被引量：4
4苗忠义,胡鹏昱,崔志明.用Capture-Recapture方法估计Web数据库大小[J].计算机应用研究,2009,26(5):1754-1756.
5赵志宏,黄蕾,刘峰,陈振宇.Deep Web搜索技术进展综述[J].山东大学学报（工学版）,2009,39(2):15-20. 被引量：5
6高明,王继成,李江峰.基于语义支持的Deep Web数据抽取[J].计算机科学,2010,37(3):156-158. 被引量：1
7段青玲,杨仁刚,华松青.基于动态学习的Deep Web数据源选择算法[J].郑州大学学报（理学版）,2010,42(1):5-8. 被引量：3
8张卓,李石君,张乃洲,田建伟.基于格空间的受限Deep Web数据抽取算法[J].模式识别与人工智能,2011,24(1):130-137. 被引量：3
9郭建兵,崔志明,陈明,赵朋朋.一种基于范围型属性的Deep Web数据提取方法[J].计算机应用与软件,2013,30(2):54-57. 被引量：2
10郑东,施化吉.主题分布在Deep Web数据库选择中的应用[J].计算机工程与应用,2013,49(10):136-139.

二级引证文献794

1张丛铄.基于大数据的研究生心理危机预警机制的构建[J].中国新通信,2020,0(2):80-81. 被引量：2
2吴嘉琪.一种基于ELK框架的地理信息动态时空数据获取与挖掘方法[J].测绘通报,2020(1):45-49. 被引量：2
3谢月锋,董现垒,陈卉,王燕,刘志成.利用网络痕迹信息即时预测儿童腹泻流行趋势[J].医学信息（医学与计算机应用）,2016,29(29):1-4.
4韩益亮,卢万谊,武光明,杨晓元.适用于网络大数据的属性基广义签密方案[J].计算机研究与发展,2013,50(S2):23-29. 被引量：2
5邓波,张玉超,金松昌,林旺群.基于MapReduce并行架构的大数据社会网络社团挖掘方法[J].计算机研究与发展,2013,50(S2):187-195. 被引量：10
6梁俊杰,熊亚军.以固态硬盘为缓存的存储技术研究[J].微电子学与计算机,2015,32(1):40-44. 被引量：2
7方巍,文学志,毕硕本.Deep Web语义搜索系统设计[J].武汉理工大学学报,2010,32(16):106-109.
8颜无瑕,曹宝香.Deep Web中一种基于本体和BP网络的模式匹配方法[J].济南大学学报（自然科学版）,2011,25(1):23-26.
9刘彦红,曹宝香.带有不确定性的数据集成[J].山东师范大学学报（自然科学版）,2010,25(4):39-42.
10侯毅.基于Deep Web的主题搜索引擎的系统设计[J].数字技术与应用,2011,29(2):81-81.

1万玉丹.通过缩小文件长度实现数据库采样[J].微电脑世界,1996(10):87-87.
2王晓玲.一种基于图模型的Web数据库采样方法分析[J].计算机光盘软件与应用,2013,16(13):119-119. 被引量：1
3任建国,闫好奎,郭锐.小容量检测中数据采集处理软件系统的设计[J].计量与测试技术,2013,40(6):33-33.
4牟占生.由DBF记录生成PROLOG事实的方法[J].计算机农业应用,1994(4):32-33.
5张炯,徐华太,梁兴中,张华文,徐兴业.原始记录软件在计量检定工作中的应用[J].中国计量,2009(3):115-116. 被引量：2
6微软申请新专利：根据健康记录生成虚拟人物[J].上海信息化,2010(1):95-95.
7王成志.实验项目管理系统工具的设计[J].集美大学学报（自然科学版）,2001,6(1):93-96. 被引量：1
8田慧娟,宿为.基于LabVIEW的光面环规检定记录生成系统设计[J].计量技术,2016(6):73-75.
9任洪庆,卢建朱,许娇阳.基于Bloom Filter的加密数据库字段认证方案[J].计算机工程与设计,2011,32(3):818-821. 被引量：2
10王长明.如何加强自动校准软件的质量管理[J].中国计量,2009(3):88-90.

软件学报

2008年第2期

浏览历史

内容加载中请稍等...

一种基于图模型的Web数据库采样方法被引量：29

参考文献19

同被引文献309

引证文献29

二级引证文献794

相关作者

相关机构

相关主题

浏览历史

一种基于图模型的Web数据库采样方法 被引量：29

参考文献19

同被引文献309

引证文献29

二级引证文献794

相关作者

相关机构

相关主题

浏览历史

一种基于图模型的Web数据库采样方法被引量：29