一种基于Ajax的爬虫模型的设计与实现被引量：3

DESIGN AND IMPLEMENTATION OF A CRAWLER MODEL BASED ON AJAX

下载PDF

导出

摘要 Ajax技术给传统的爬虫带来了巨大的挑战,为了能够提取出在Ajax程序中隐藏的WEB资源,需要解决两大关键问题:JavaScript脚本解析和每一次脚本事件触发后的页面状态信息的保存。提出一种适合Ajax的爬虫模型,在模型中设计了一个嵌入的脚本解析引擎和使用了有向状态图,有效地解决了上述的两个关键问题。实验结果显示该爬虫模型能够有效地提取出Ajax程序中的隐藏资源。 Ajax technology brings to a great challenge on traditional crawler.In order to find the Hidden Web resource made by Ajax,two key problems have to be resolved：JavaScript parsing and storing every page＇s state information after every JavaScript＇s event triggered.The paper presents a crawler model suitable for Ajax,in which an embedded script-parsing engine and a directed state graphics have been designed;it has effectively settled above two problems.The experimental result shows that the crawl model could acquire the Hidden Web resource in the Ajax application effectively.

作者范轩苗郑宁范渊

机构地区杭州电子科技大学计算机学院杭州亚龙信息科技有限公司

出处《计算机应用与软件》 CSCD 2010年第1期96-99,共4页 Computer Applications and Software

基金浙江省自然科学基金(Y106176)

关键词爬虫脚本解析引擎有向状态图 Crawler Script-parsing engine Directed status graphics

分类号 TP393 [自动化与计算机技术—计算机应用技术] TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Raghavan S, Garcia-Molina H. Crawling the hidden web [ C ]//Roma, Italy:Prec. of the 27th International Conference on Very Large Data- Bases(VLDB) ,2001:129 - 139.
2Barbosa L, Freire J. Anadaptive crawler for locating hidden-web entry points [ C ]//Alberta, Canada: Proc. of the 16th international conference on World Wide Web,2007:441 -450.
3Ntoulas A, Zerfos P, Cho J. Downloading textual hidden web content through key word queries [ C ]//North California, USA : Proc. of the 5th ACM/IEEE-CS joint conference on Digital libraries,2005:100- 109.
4Alvarez M, Raposo J, Pan A, et al. Crawling the Content Hidden Behind Web Forms [ J]. Lecture Notes in Computer Science,2007,4702:322 -333.
5Alvarez M, Pan A, Raposo J, et al. Crawling Web Pages with Support for Client-Side Dynamism[ C ]//HongKong, China: Proc. of the 7th International Conference on Web Age Information Management (WAIM06). 2006 : 252 - 262.
6王映,于满泉,李盛韬,王斌,余智华.JavaScript引擎在动态网页采集技术中的应用[J].计算机应用,2004,24(2):33-36. 被引量：36
7Moailla. Tutorial: Embedding Rhino [ EB/OL]. 2006 - 11 - 14. http ://www. mozilla, org/rhino/tutorial, html.
8Mozilla. Rhino documentation [ EB/OL]. 2008 - 4 - 14. http ://developer. rnozilla, org/en/docs/Rhino documentation.

二级参考文献4

1[1]Eich B. JavaScript C Engine Embedder's Guide[EB/OL]. Http://www.mozilla.org/js/spidermonkey/apidoc/jsguide.html, mozilla.org, march 16, 2000.
2[2]ECMA. ECMA-Script Language Specification Edition 3[EB/OL]. Http://www.mozilla.org/js/language/E262 3.pdf, European Computer manufacturer Association, march 24, 2000.
3[3]Netscape. JavaScript C Engine API Reference[EB/OL]. http://developer.netscape.com/docs/manuals/javascriptapi/index.htm, Netscape Communications Corp., December 17, 1998.
4[4]Netscape. JavaScript 1.5 References[EB/OL]. http://devedge.netscape.com/library/manuals/2000/javascript/1.5/guide/, Netscape Communications Corp., September 28, 2000.

共引文献35

1陈健瑜.网页动态页面采集关键技术研究[J].硅谷,2009,2(12):68-68. 被引量：1
2王莎.基于Internet的EDI[J].中国科技信息,2006(6):227-227. 被引量：2
3李政,孟德光,董艳英,鲁艳丽,姚素玲.网络课程通用术语查询系统设计[J].河北科技师范学院学报,2006,20(3):44-47.
4金晓鸥,钟宝燕,李翔.基于Rhino的JavaScript动态页面解析研究与实现[J].计算机技术与发展,2008,18(2):1-4. 被引量：18
5曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
6曾伟辉,李淼.基于JavaScript切片的AJAX框架网络爬虫技术研究[J].计算机系统应用,2009,18(7):169-171. 被引量：10
7胡燕,嵇启春,赵佳,王瑞.开放式实验室管理信息系统设计[J].现代计算机,2009,15(8):141-142. 被引量：1
8陈源恩,陈志伟,曾文华.脚本语言在核磁共振谱仪软件系统中的应用[J].福建电脑,2010,26(1):3-4. 被引量：1
9万久士,李翔,林祥.基于JSSh的动态网页获取研究与实现[J].信息安全与通信保密,2010,7(4):93-95. 被引量：4
10段青玲,杨仁刚,朱杨.一种表单Ajax信息项提取方法[J].计算机工程,2011,37(3):44-46.

同被引文献15

1彭轲,廖闻剑.基于浏览器服务的网络爬虫[J].硅谷,2009,2(4). 被引量：7
2Wikipedia. Web crawler [EB/OL]. [2013-05-30]. http ://en.wiki- pedia.org/wiki/Web_crawler.
3University of Toronto. HTML and XHTML document type defi- nitions [EB/OL]. [2013-04-23]. http://www.utoronto.ca/webdocs/ HTMLdocs/HTML_Spec/html.html.
4Wikipedia. Regular expression [EB/OL]. [2013-04-23]. http://en. wikipedia.org/wiki/Regular_expression.
5World Wide Web Consortium. Document object model [EB/OL]. [2013-04-23]. http ://www.w3.org/DOM.
6ALVAREZ M, RAPOSO J, PAN A, et al. DeepBot: a focused crawler for accessing hidden web content [C]// Proceedings of DEECS 2007. New York, USA: ACM, 2007: 18-25.
7I WebKit Open Source Project. The WebKit open source project [EB/OL]. [2013-03-24]. http://www.webkit.org.
8WebKit Open Source Project. JavaScriptCore [EB/OL]. [2013- 03-24]. http ://trac.webkit.org/wiki/JavaScriptCore.
9w3af. w3af-open source web application security scanner [EB/ OL]. [2013-04-16]. http://www.w3af.org.
10GIRARDI C, RICCA F, TONELLA P. Web crawlers com- pared [J]. International Journal of Web Information Systems, 2006, 2(2): 85-94.

引证文献3

1郭津丞,冯超,张磊.基于WebKit的网络爬虫[J].现代电子技术,2013,36(18):62-64. 被引量：3
2田晓辉.面向垂直的搜索引擎的设计[J].福建电脑,2014,30(11):29-30.
3贺杰.基于Webdriver爬虫技术的研究[J].科技广场,2016(10):27-31. 被引量：1

二级引证文献4

1孙龙,李彦.基于AJAX的深网爬虫设计[J].现代计算机,2017,23(19):72-75.
2王雪瑞,刘渊.面向国内直播行业的分布式弹幕爬虫研究[J].计算机应用与软件,2018,35(2):134-140. 被引量：5
3巫宇超,鲍正德,唐娅雯.基于Python的网络爬虫[J].计算机系统网络和电信,2019,1(2):277-281.
4杨松,刘佳欣.基于Python多重解析的图像爬虫的设计与实现[J].工业控制计算机,2021,34(2):99-101. 被引量：3

1林远.跨平台手机移动中间件[J].杭州电子科技大学学报（自然科学版）,2011,31(5):151-154. 被引量：2
2施磊磊,施化吉,宋玉平,束长波.基于Hadoop的分布式主题网络爬虫的设计与实现[J].信息技术,2015,39(7):109-112. 被引量：2
3万文兵.面向主题搜索的网络爬虫信息采集策略研究[J].软件导刊,2015,14(11):68-70. 被引量：2
4牵着蜗牛去散步.玩转VBS脚本编程[J].黑客防线,2008(5):111-114.
5张红云,刘炜,熊前兴.一种基于语义本体的网络爬虫模型[J].计算机应用与软件,2009,26(11):101-103. 被引量：4
6黄蓝会.基于在线社会网络采集数据的研究[J].宝鸡文理学院学报（自然科学版）,2014,34(3):57-59. 被引量：1
7王凤红.简单分布式网络爬虫模型的设计与分析[J].中国现代教育装备,2008(4):76-78. 被引量：8
8李道丰,黄凡玲,刘水祥,黄安妮.基于行为语义分析的Web恶意代码检测机制研究[J].计算机科学,2016,43(8):110-113. 被引量：8
9林红静,黄梦醒.基于微博信息的关键词库爬虫策略[J].海南大学学报（自然科学版）,2016,34(2):112-120. 被引量：3
10陈浩.一种QL脚本的解析模块的分析研究[J].电脑知识与技术,2014,0(7):4361-4363.

计算机应用与软件

2010年第1期

浏览历史

内容加载中请稍等...

一种基于Ajax的爬虫模型的设计与实现被引量：3

参考文献8

二级参考文献4

共引文献35

同被引文献15

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于Ajax的爬虫模型的设计与实现 被引量：3

参考文献8

二级参考文献4

共引文献35

同被引文献15

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于Ajax的爬虫模型的设计与实现被引量：3