Deep Web数据采集查询构造方法研究被引量：2

Research on Query Construction Method for Deep Web Data Crawling

下载PDF

导出

摘要网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到这些数据,影响了获取到的知识资源的覆盖率,如何高效地采集这些数据并加以利用非常具有挑战性。为此对现有的Deep Web数据采集的查询构造方法进行了详细分析,分别介绍了针对不同类型的表单对应的Deep Web数据采集查询构造方法;总结了现有表层化方式的Deep Web数据采集查询构造方法的优缺点,并对Deep Web数据采集查询构造方法的未来工作进行了展望,以推动Deep Web数据采集技术的进一步发展。 Network big data bring a great challenge to the knowledge acquisition because of large-scale, heterogeneity,dynamic and high noise. Specially, many websites data are hidden in Web databases behind the HTML forms, called Deep Web data, which can only be dynamically accessed by performing form submissions. These data can not be covered by Web crawlers as a result of using hyperlinks to collect resources, which affects the coverage of knowledge resources. Therefore, how to efficiently crawl these data and make use of them is challenging. This paper firstly presents a detailed analysis of the existing Deep Web data acquisition query construction methods, and introduces the Deep Web data acquisition query construction methods according to the different types of forms. Secondly, this paper concludes the advantages and limitations of the existing methods. Finally, this paper proposes the future work to promote the development of the Deep Web crawling techniques.

作者林海伦杨晓刚熊锦华王元卓贾岩涛程学旗

机构地区中国科学院计算技术研究所网络数据科学与技术重点实验室新华社技术局实验室

出处《计算机科学与探索》 CSCD 北大核心 2015年第9期1025-1033,共9页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金Nos.61173008 61232010 61303244 61402442 国家重点基础研究发展计划(973计划)Nos.2014CB340401 2013CB329602 北京市科技新星计划项目No.Z121101002512063 北京市自然科学基金No.4154086~~

关键词 DEEP WEB 查询接口查询构造网络爬虫 Deep Web query interface query construction Web crawler

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献24

1孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2393
2王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：714
3Bergman M K. White paper: the Deep Web: surfacing hidden value[J]. Journal of Electronic Publishing, 2001, 7(1).
4Chang K C C, He Bin, Li Chengkai B, et al. Structured databases on the Web: observations and implications[J]. ACM SIGMOD Record, 2004, 33(3): 61-70.
5He Bin, Patel M, Zhang Zhen, et al. Accessing the Deep Web: a survey[J]. Communications of the ACM, 2007, 50(5): 94-101.
6Madhavan J, Jeffery S, Cohen S, et al. Web-scale data integration: you can only afford to pay as you go[C]//Proceedings of the 3rd Biennial Conference on Innovative Data Systems Research, Asilomar, USA, Jan 7-10, 2007: 342-350.
7刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
8Bhalerao N, Shinde D S K. Deep Web crawl for Deep Web extraction[J]. International Journal of Engineering Research and Technology, 2013, 2(3).
9Shestakov D. Current challenges in Web crawling[C]//LNCS 7977: Proceedings of the 13th International Conference on Web Engineering, Aalborg, Denmark, Jul 8-12, 2013. Berlin, Heidelberg: Springer, 2013: 518-521.
10Gupta S, Bhatia K K. Deep questions in the "deep or hidden" Web[C]//Proceedings of the 2nd International Conference on Soft Computing for Problem Solving, Jaipur, India, Dec 28-30, 2012: 821-829.

二级参考文献295

1.[EB/OL].http://www.cogsci.Princeton.edu,.
2Fetterly D,Manasse M,Najork M,Wiener J L.A largescale study of the evolution of Web pages//Proceedings of the 12th International World Wide Web Conference.Budapest,2003:669-678
3Chang K C,He B,Li C,Patel M,Zhang Z.Structured databases on the Web:Observations and Implications.SIGMOD Record,2004,33(3):61-70
4Cope J,Craswell N,Hawking D.Automated discovery of search interfaces on the Web//Proceedings of the 14th Australasian Database Conference(ADC 2003).Adelaide,2003:181-189
5Zhang Z,He B,Chang K C.Understanding Web query interfaces:Best-effort parsing with hidden syntax//Proceedings of the 23rd ACM SIGMOD International Conference on Management of Data.Paris,2004:107-118
6Arasu A,Garcia-Molina H.Extracting structured data from Web pages//Proceedings of the 22nd ACM SIGMOD International Conference on Management of Data.San Diego,2003:337-348
7Crescenzi V,Mecca G,Merialdo P.RoadRunner:Towards automatic data extraction from large Web sites//Proceedings of the 27th International Conference on Very Large Data Bases.Italy,2001:109-118
8Wittenburg K,Weitzman L.Visual grammars and incremental parsing for interface languages//Proceedings of the IEEE Symposium on Visual Languages (VL).Skokie,1990:111-118
9He H,Meng W,Yu C T,Wu Z.WISE-integrator:An automatic integrator of Web search interfaces for e-commerce//Proceedings of the 29th International Conference on Very Large Data Bases.Berlin,2003:357-368
10Peng Q,Meng W,He H,Yu C T.WISE-cluster:Clustering e-commerce search engines automatically//Proceedings of the 6th ACM International Workshop on Web Information and Data Management.Washington,2004:104-111

共引文献3105

1韩莹莹,钟专,褚月娇,康春阳,李东霓,王志佳,刘晓阳,张白羽.基于大数据智能化背景下神经病学实践教学体系构建的探索[J].中国实验诊断学,2023,27(8):1006-1009.
2李坪.大数据赋权正当性证成[J].中山大学法律评论,2020(1):3-21. 被引量：1
3孙昊鹏.大数据在新冠肺炎疫情中的应用和缺失[J].郑州师范教育,2020,9(3):91-96. 被引量：1
4闫妍.刍议大数据时代背景下全面预算管理对提升项目储备精益化管理水平的价值[J].质量与市场,2020,0(1):19-21. 被引量：6
5叶青.违法立案的检察监督机制研究[J].国家检察官学院学报,2024,32(1):53-68. 被引量：1
6刘厚营.大数据在安保工作情报分析中的应用[J].工程技术研究,2018,3(1):243-244. 被引量：1
7肖楠,陈红梅.从融媒体到智媒体:一种技术驱动下的传媒经济发展路径[J].新闻知识,2020(9):19-22. 被引量：3
8杨东,郑清洋.从TikTok事件看数字人民币的路径选择:从流量入口到金融优势的转化[J].新疆师范大学学报（哲学社会科学版）,2021,42(4):126-135. 被引量：6
9张丛铄.基于大数据的研究生心理危机预警机制的构建[J].中国新通信,2020,0(2):80-81. 被引量：2
10刘生龙,张晓明,杨竺松.互联网使用对农村居民收入的影响[J].数量经济技术经济研究,2021,38(4):103-119. 被引量：68

同被引文献24

1张礼中,张永波,周小元,粱国玲.地质灾害信息系统的设计与实现[J].地质论评,2000,46(z1):155-159. 被引量：8
2刘传正,李铁锋,温铭生,王晓朋,杨冰.三峡库区地质灾害空间评价预警研究[J].水文地质工程地质,2004,31(4):9-19. 被引量：70
3李广水,郑滔,宋丁全.面向服务数据挖掘的关键技术在.NET下的实现研究[J].计算机工程与设计,2009,30(20):4654-4657. 被引量：3
4陈蓓青,黄俊.涉水地质灾害多源数据管理与应用探讨[J].人民长江,2012,43(8):98-100. 被引量：4
5化柏林.多源信息融合方法研究[J].情报理论与实践,2013,36(11):16-19. 被引量：63
6宫夏屹,李伯虎,柴旭东,谷牧.大数据平台技术综述[J].系统仿真学报,2014,26(3):489-496. 被引量：124
7刘经南,方媛,郭迟,高柯夫.位置大数据的分析处理研究进展[J].武汉大学学报（信息科学版）,2014,39(4):379-385. 被引量：105
8李清泉,李德仁.大数据GIS[J].武汉大学学报（信息科学版）,2014,39(6):641-644. 被引量：180
9董金义,史正涛,洪亮,吴宏,李瑞冬.舟曲县城区灾后重建地质灾害监测预警及治理工程[J].测绘科学,2014,39(6):79-82. 被引量：4
10刘军旗.工程地质数据处理方法探讨——以水利枢纽工程为例[J].工程地质学报,2014,22(5):989-996. 被引量：4

引证文献2

1陈晓燕,唐年庆.大数据环境下的Web网络风险估计[J].现代电子技术,2017,40(24):56-58. 被引量：4
2吴润泽,程温鸣,刘军旗,杨建英.三峡库区地质灾害防治信息系统及预警指挥系统数据管理模式探讨[J].中国地质灾害与防治学报,2018,29(5):102-107. 被引量：3

二级引证文献7

1白涛,辛锐,孔明,左琦.共享网络不协调目标信息脆弱性风险评估仿真[J].计算机仿真,2018,35(12):208-211. 被引量：1
2刘维嘉.基于大型Web网络的环境污染追查系统设计研究[J].环境科学与管理,2018,43(6):82-85.
3高鹏,朱晓丽.基于大数据的计算机网络风险及防护措施[J].山东农业工程学院学报,2019,36(4):28-29. 被引量：1
4张夏毅.旱灾背景下牧民群体的脆弱性分析——以锡林郭勒盟为例[J].内蒙古科技与经济,2019,0(9):11-12.
5杨照峰,樊爱宛,彭统乾.基于大数据环境下的计算机网络安全体系搭建思路探究[J].信息技术与信息化,2019,0(11):148-150. 被引量：7
6霍光杰,操丽,豆靖涛,颜紫婷.省级地质环境“一张图”信息系统设计与实现[J].河南科学,2020,38(2):221-227. 被引量：4
7刘军旗,刘强,刘千慧,张夏林,林晨,周鑫,李国策.大数据时代地质灾害数据管理及应用模式探讨[J].地质科技通报,2021,40(6):276-282. 被引量：13

1张扬嵩.递归查询构造树形结果集的通用方法[J].电脑编程技巧与维护,2011(15):18-20.
2韩增锟.基于Web技术的智能家居远程监控系统[J].微型机与应用,2012,31(3):76-78. 被引量：4
3丁迎.VFP如何按任意组合条件查询表单[J].电脑编程技巧与维护,2003(10):89-89. 被引量：2
4张志昌,张宇,高立琦,袁新成,胡晓光,刘挺,李生.2005年863信息检索评测哈尔滨工业大学信息检索研究室技术报告[J].中文信息学报,2006,20(B03):83-90.
5丁海燕.利用Dreamweaver实现动态HTML表单菜单[J].昆明冶金高等专科学校学报,2012,28(5):19-22. 被引量：1
6Robert Argand.在JSP中处理HTML表单参数的正确方法[J].个人电脑,2001(1):129-129.
7张洁,卢德唐.异构数据集成方案的优化设计与实现[J].计算机辅助工程,2008,17(1):77-80. 被引量：6
8曹馨宇,曹存根.从Web获取部分整体关系语料的方法[J].中文信息学报,2011,25(5):17-23. 被引量：4
9李宗花,吴克力.旅游目的地营销系统(DMS)中异构数据集成中间件的设计[J].淮阴师范学院学报（自然科学版）,2009,8(4):288-292.
10何来坤.使用PHP4访问HTML表单[J].杭州师范学院学报（自然科学版）,2004,3(1):53-55.

计算机科学与探索

2015年第9期

浏览历史

内容加载中请稍等...

Deep Web数据采集查询构造方法研究被引量：2

参考文献24

二级参考文献295

共引文献3105

同被引文献24

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

Deep Web数据采集查询构造方法研究 被引量：2

参考文献24

二级参考文献295

共引文献3105

同被引文献24

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

Deep Web数据采集查询构造方法研究被引量：2