基于层次树模型的Deep Web数据提取方法被引量：14

Retrieving Deep Web Data Based on Hierarchy Tree Model

下载PDF

导出

摘要网络在成为信息查询和发布平台的同时,海量的信息隐藏在查询受限的Web数据库中,使得人们无法有效地获取这些高质量的数据记录.传统的Deep Web搜索研究主要集中在通过关键字接口获取Web数据库内容.但是,由于Deep Web具有多属性和top-k的特点,基于关键字的方法具有固有的缺点,这就为Deep Web查询和检索带来了挑战.为了解决这个问题,提出了一种基于层次树的DeepWeb数据获取方法,该方法可以无重复和完整地提取Web数据库中的数据记录.该方法首先把Web数据库模型化为一棵层次树,Deep Web数据获取问题就转化为树的遍历问题.其次,对树中的属性排序,缩小遍历空间;同时,利用基于属性值相关度的启发规则指导遍历过程提高遍历效率.最后,在本地模拟数据库和真实Web数据库上的大量实验证明,这种方法可以达到很好的覆盖度和较高的提取效率. While the Web provides a platform for information search and dissemination,massive information is hidden behind in the query restricted Web databases,which makes it difficult to obtain these high-quality data records.The current research on Deep Web search has focused on crawling the Deep Web data via Web interfaces with Key words：queries.However,these keywords-based methods have inherent limitations because of the multi-attributes and top-k features of the Deep Web.This poses a great challenge for Web information search and retrieval.To address this problem,we propose an approach for siphoning structured data based on hierarchy tree,which can retrieve all the data non-repeatedly in the hidden databases.Firstly,we model the hidden database as a hierarchy tree.Under this theoretical framework,data retrieving is transformed into a traversing problem in the hierarchy tree.Secondly,we also propose techniques to narrow the query space and obtain the attribute values by sorting the attributes according to the ascending order.Thirdly,we leverage the mutual information to measure the attribute values dependency.Based on the attribute values dependency,we narrow the traversal space by using heuristic rule to guide the traversal process.Finally,we conduct extensive experiments over real Deep Web sites and controll databases to illustrate the coverage and efficiency of our techniques.

作者田建伟李石君

机构地区软件工程国家重点实验室(武汉大学) 武汉大学计算机学院

出处《计算机研究与发展》 EI CSCD 北大核心 2011年第1期94-102,共9页 Journal of Computer Research and Development

基金国家自然科学基金项目(60970018)

关键词隐藏数据库数据提取多属性值接口 top-k元组互信息 hidden database data retrieval multi-attribute interfaces top-k tuple mutual information

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献17

1Bergman M K. The Deep Web: Surfacing hidden value [J]. Journal of Electronic Publishing, 2001, 7(1): 1174-1175.
2Chang K C C, He B, Li C, et al. Structured databases on the Web: Observations and implications [J]. SIGMOD Record, 2004, 33(3): 61-70.
3Liu W, Meng X F, Meng W Y. Deep Web data integration, WAMDM-TR-2006-3 [OL]. [ 2010-01-10]. http://idke. rue. edu. cn/reports/report2006/seminar% 20summary[Deep] 20Web. pdf.
4Barbosa L, Freire J. An adaptive crawler for locating hidden Web entry points [C] //Proc of the 16th Int Conf on World WideWeb(WWW). NewYork: ACM, 2007: 441-450.
5Barbosa L, Freire J. Searching for hidden-Web databases [C] //Proc of the 8th ACM SIGMOD Int Workshop on Web and Databases (WebDB). New York: ACM, 2005: 1-6.
6He Hal, Meng Weiyi, Clement T Y, et al. WISE- Integrator: A system for extracting and integrating complex Web search interfaces of the Deep Web [C]//Proc of the 31st Int Conf on Very Large Data Bases(VLDB). New York: ACM, 2005: 1314-1317.
7Wu Wensheng, AnHai Doan, Clement T Y. WebIQ: learning from the Web to match Deep-Web query interfaces [C] //Proc of the 22nd Int Conf on Data Engineerlng(ICDE), Washington D C: IEEE Computer Society Press, 2006: 44- 54.
8Madhavan J, Ko D, Kot L, et al. Google's Deep Web crawl [J]. PVLDB, 2008, 1(2): 1241-1252.
9Cui Tao, David W Embley. Automatichidden-Web table interpretation by sibling page comparison [C] //Proc of the 26th Int Conf on Conceptual Modeling (ER). Berlin: Springer, 2007:560-581.
10Liu W, Mcng X F, Meng W Y. VIDE: A vision based approach for Deep Web data extraction [J]. IEEE Transactions on Knowledge and Data Engineering (TKDE), 2010, 22(3): 447-460.

二级参考文献7

1Meng X F, Lu H J, Wang H Y, et al. SG-WRAP: A schemaguided wrapper generator demonstration. In: Proc of ICDE'2002. Los Alamitos, CA: IEEE Computer Society Press, 2002.331 ～332
2Meng X F, Hu D D, Li C. Schema guided wrapper maintenance for Web-data extraction. In: Proc of ACM WIDM' 2003. New York: ACM Press, 2003. 1～8
3Meng X F, Wang H Y, Hu D D, et al. Sg-wram: Schema guided wrapper maintenance. In: Proc of ICDE' 2003. Los Alamitos,CA: IEEE Computer Society Press, 2003. 750～752
4Meng X F, Lu H J, Wang H Y, et al. Schema-guided data extraction from the Web. Journal of Computer Science and Technology, 2002, 17(4): 377～388
5V Crescenzi, G Mecca, P Merialdo. ROADRUNNER: Towards automatic data extraction from large Web sites. In: Proc of VLDB'2001. San Francisco, CA: Morgan Kaufmann, 2001. 109～118
6A Arasu, H Garcia-Molina. Extracting structured data from Web pages. In: Proc of ACM SIGMOD'03. New York: ACM Press,2003. 337～348
7St(e)phane Grumbach, Giansalvatore Mecca. In search of the lost schema. In: Proc of ICDT'1999. Berlin: Springer, 1999. 314～331

共引文献20

1邓绪斌,朱扬勇.ReDE:一个基于正则表达式的生物数据抽取方法[J].计算机研究与发展,2005,42(12):2184-2191. 被引量：8
2李石君,欧伟杰,简伟,黄河.基于有限状态自动机提取不规范表结构Web信息[J].武汉大学学报（工学版）,2005,38(6):128-132.
3陈海山,吴芸.广义表的二叉链式存储表示及其算法设计[J].计算机工程与应用,2005,41(35):38-41. 被引量：4
4李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
5张瑞,李石君.网上表格数据到XML的自动转换[J].计算机工程与应用,2007,43(2):190-192. 被引量：5
6贾长云,程永上.HTML表格向XML的智能转换[J].计算机工程,2009,35(14):32-34. 被引量：3
7陈远斌.一种基于扩展DOM树的Web数据自动抽取方法[J].应用科技,2009,36(8):52-55. 被引量：1
8袁鸿雁.基于本体的HTML表格识别技术的研究[J].长春工程学院学报（自然科学版）,2010,11(1):108-110.
9陈洪平,方巍,李林,崔志明.复杂Web页的Wrapper自动化生成技术研究[J].微电子学与计算机,2010,27(4):62-65.
10王宇,谭松波,廖祥文,曾依灵.基于扩展领域模型的有名属性抽取[J].计算机研究与发展,2010,47(9):1567-1573. 被引量：13

同被引文献89

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3张奥千,宋韶旭,王建民.基于数据质量规则的缺失结果解释约减[J].计算机研究与发展,2013,50(S1):221-229. 被引量：2
4金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
5姚天顺,张俐,高竹.WordNet综述[J].语言文字应用,2001(1):27-32. 被引量：33
6文继军,王珊.SEEKER:基于关键词的关系数据库信息检索[J].软件学报,2005,16(7):1270-1281. 被引量：46
7张慧颖,曲著伟.基于子树匹配的交互式Web数据抽取方法[J].计算机工程,2006,32(9):78-80. 被引量：8
8李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
9SHIN D-H. The effects of trust, security and privacy in social networ- king: a security-based approach to understand the pattern of adoption [ J]. Interacting with Computers ,2010,22 (5) :428-438.
10AMITAY E, CARMEL D, HAREL N, et al. Social search and dis- covery using a unified approach [ C ]//Proc of the 20th ACM Confe- rence of Hypertext and Hypermedia. [ S. 1. ] :ACM, 2009:199-208.

引证文献14

1原福永,韩丽,赵英梅.社交网络中模块关系树的相似性算法的研究[J].计算机应用研究,2012,29(2):698-700.
2王文焕,赵卓峰.关系数据库的关键词查询性能优化[J].计算机与数字工程,2012,40(11):18-20. 被引量：1
3赵海霞,李道申,刘勇,赵嘉诚.一种Deep Web查询结果的实体抽取方法[J].计算机工程与应用,2012,48(36):160-163. 被引量：4
4郭建兵,崔志明,陈明,赵朋朋.一种基于范围型属性的Deep Web数据提取方法[J].计算机应用与软件,2013,30(2):54-57. 被引量：2
5马友忠,孟小峰,姜大昕.移动应用集成:框架、技术与挑战[J].计算机学报,2013,36(7):1375-1387. 被引量：16
6王旭仁,杨硕,何发镁,王彦丽,张为群.Web页面细粒度数据抽取方法研究[J].计算机工程与设计,2014,35(2):700-704.
7余伟,李石君,杨莎,胡亚慧,刘晶,丁永刚,王骞.Web大数据环境下的不一致跨源数据发现[J].计算机研究与发展,2015,52(2):295-308. 被引量：24
8王闪,谭良.Web大数据环境下的相似重复数据清理[J].计算机工程与设计,2017,38(3):646-651. 被引量：14
9王嵘冰,党小婉,徐红艳,冯勇.基于模板的Deep Web实体识别信息抽取方法研究[J].辽宁大学学报（自然科学版）,2017,44(2):97-104.
10周忠瑞,周海荣,吴天飞,沈彩飞,俞伟柯.基于广电网络大数据平台数据元管理[J].中国有线电视,2018(4):464-467. 被引量：5

二级引证文献69

1杨杰.软件工程开发市场调查与分析[J].信息通信,2013,26(2):292-292.
2刘平丽.基于软件开发中软件需求的研究[J].电子技术与软件工程,2014(2):98-98.
3刘杰.一种基于自动特征权值的实体相似度计算方法[J].重庆科技学院学报（自然科学版）,2014,16(3):157-160. 被引量：2
4高继梅.隐私保护数据库中自适应重复数据删除仿真[J].计算机仿真,2019,36(1):239-242. 被引量：1
5王娜.基于Web的工程技能考试系统的设计与实现[J].自动化与仪器仪表,2019(2):92-95. 被引量：2
6康昱.互联网技术的应用研究[J].计算机光盘软件与应用,2014,17(15):143-144.
7余勃,郭宏,栗忠强,徐景,张若凡.基于AppCan的跨平台手机英语学习系统的设计与实现[J].教育教学论坛,2014(46):276-278. 被引量：1
8胡兵.企业移动应用的设计及实践[J].信息技术与标准化,2014(12):60-63. 被引量：2
9梁达.移动应用集成管理系统的设计与实现[J].大众科技,2015,17(3):19-20. 被引量：1
10张旭凤,邓璧莹,赵西超.基于Android/IOS平台的移动物流系统设计[J].商场现代化,2015(10):38-39.

1郭建兵,崔志明,陈明,赵朋朋.一种基于范围型属性的Deep Web数据提取方法[J].计算机应用与软件,2013,30(2):54-57. 被引量：2
2于瑛英,薛毅,池宏.一种提高SVM训练速度的新方法[J].数理统计与管理,2008,27(3):409-417. 被引量：3
3连立贵,金凤,蔡家楣.数据仓库中的数据提取[J].计算机工程,2001,27(9):61-62. 被引量：16
4王宗平.一种简单易行的汉字点阵数据提取方法[J].电子技术应用,1993,19(6):41-42. 被引量：1
5刘志英.ORACLE数据库中提高时间响应的几种方法[J].计算机应用,1996,16(2):64-65. 被引量：1
6刘志英.ORACLE数据库中提高时间响应的几种方法[J].计算机系统应用,1996,5(11):44-45. 被引量：1
7谭明超,刁兴春,曹建军,冯径.基于有向无环图的函数依赖一致性数据生成[J].北京理工大学学报,2014,34(6):592-596.
8李新焕,陈婧,王兰花,赵应丁.社交网络数据提取方法研究与实现[J].网络安全技术与应用,2017(4):104-106. 被引量：1
9林治,王睿.基于强化学习的Deep Web数据提取方法[J].计算机与数字工程,2015,43(2):299-302.
10范增伟,李海鹰.铁路运输模拟数据库接口子系统的设计开发[J].铁路计算机应用,2005,14(12):1-3.

计算机研究与发展

2011年第1期

浏览历史

内容加载中请稍等...

基于层次树模型的Deep Web数据提取方法被引量：14

参考文献17

二级参考文献7

共引文献20

同被引文献89

引证文献14

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

基于层次树模型的Deep Web数据提取方法 被引量：14

参考文献17

二级参考文献7

共引文献20

同被引文献89

引证文献14

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

基于层次树模型的Deep Web数据提取方法被引量：14