基于改进的网络蜘蛛算法抽取Web站点结构的方法被引量：5

Method of the Web Structure Recovery Based on the Improved Spider Algorithm

下载PDF

导出

摘要针对传统的Web站点结构恢复方法的局限性,提出了一种基于改进的网络蜘蛛算法的Web结构抽取方法,并实现了相应的工具WebAnalyzer。该方法通过深度优先搜索策略递归遍历Web站点,同时对网页的语法、标签进行分析,提取词法信息,在此基础上形成Web结构视图和词法表。实验表明,该方法能够快速准确地恢复Web站点结构图。 Due to the limitation of the traditional structure extraction based on the improved spider method, the paper presents a method of the web algorithm, and gives the implementation process of the tool named WebAnalyzer. This method visits the whole website in-depth first way, analyzes the tag of the HTML files and the syntax of the JavaScript, and pick-ups the lexical information. Based on this, the web structural view and lexieal table are formed. The experiment result shows that the methods can recover the Web structure quickly and exactly

作者刘继红吴军华任明鑫

机构地区南京工业大学电子与信息工程学院

出处《江南大学学报（自然科学版）》 CAS 2009年第5期555-559,共5页 Joural of Jiangnan University (Natural Science Edition)　

关键词 WEB应用逆向工程静态分析结构抽取 Web applications, reverse engineering, static analysis, structure extraction

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1张博,蔡皖东.面向主题的网络蜘蛛技术研究及系统实现[J].微电子学与计算机,2009,26(5):52-55. 被引量：13
2冯雁,王申康.Web站点层次结构抽取算法的分析和实现[J].浙江大学学报（工学版）,2005,39(10):1507-1511. 被引量：3
3周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
4印鉴,陈忆群,张钢.搜索引擎技术研究与发展[J].计算机工程,2005,31(14):54-56. 被引量：53
5欧阳柳波,李学勇,李国徽,王鑫.网络蜘蛛搜索策略进展研究[J].小型微型计算机系统,2005,26(4):703-706. 被引量：8
6于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
7李学勇,欧阳柳波,李国徽,钟敏娟.网络蜘蛛搜索策略比较研究[J].计算机工程与应用,2004,40(4):128-131. 被引量：17

二级参考文献108

1林海霞,原福永,陈金森.主题网络蜘蛛搜索策略贪婪性解决方法[J].微电子学与计算机,2006,23(z1):278-280. 被引量：4
2吴丽辉,王斌,余智华.一个基于Web的信息获取系统的框架与实现[J].微电子学与计算机,2004,21(10):121-123. 被引量：2
3周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
4[20]Diligenti M,Coetzee F M,Lawrence S et al.Focused crawling using context graphs[C].In:Proc of the International Conference on Very Large Database ( VLDB ′00 ), 2000: 527～534
5[21]Sutton R S,Barto A G.Reinforeement learning:an introduction[M].MA:MIT Press, 199822.Pant G,Srinivasan P,Menczer F.Exploration versus exploitation in topic driven crawler[C].In:Proc of The WWW-02 Workshop on Web Dynamics, 2002
6[17]Bharat K Henznger.lmproved algorithms for topic distillation in a hyperlinked environment[C].In:Proc of SIGIR Conference on Research and Development in Information Retrieval,1998
7[18]Dean J,Henzinger. Finding related pages in the World Wide Web [J].Computer Networks, 1999; 31 ( 11 ～ 16): 1467～1479
8[19]Davison B.Topical locality in the web[C].In:Proc of the 23th Annual International Conference Information Retrieval,Athens,2000:272～279
9[1]Murray B H,Moore A.Sizing the Intemet[M].A White Paper:Cyveillance, Inc, 2000
10[2]Lawrence S ,Giles L.Accessibility and distribution of information on the Web[J].Nature, 1999 ;400(8): 107～109

共引文献292

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2孟庆国,王友奎,田红红.政务服务中的智能化搜索:特征、应用场景和运行机理[J].电子政务,2020,0(2):21-33. 被引量：21
3郝卫,魏赟.基于知识图谱表示学习的推荐算法优化[J].智能计算机与应用,2020,10(4):22-26. 被引量：3
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
5马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
6郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
7杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
8彭轲,廖闻剑.基于浏览器服务的网络爬虫[J].硅谷,2009,2(4). 被引量：7
9贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
10柳婷.网络蜘蛛的简单设计与研究[J].大众商务,2010(16):189-189.

同被引文献31

1肖明军,张巍,邹翔,蔡庆生.一种多策略联合信息抽取方法[J].小型微型计算机系统,2005,26(4):614-617. 被引量：2
2冯雁,王申康.Web站点层次结构抽取算法的分析和实现[J].浙江大学学报（工学版）,2005,39(10):1507-1511. 被引量：3
3黄德才,戚华春.PageRank算法研究[J].计算机工程,2006,32(4):145-146. 被引量：69
4文求实,陈光忠.基于Web Services的数据库中间件在电网信息管理系统数据库中的应用[J].自动化技术与应用,2007,26(2):71-73. 被引量：1
5刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6-9. 被引量：41
6徐远超,刘江华,刘丽珍,关永.基于Web的网络爬虫的设计与实现[J].微计算机信息,2007,23(21):119-121. 被引量：36
7Liu N, Yang C. Mining web site' s topic hierarchy [ C ] // Proceedings of International World Wide Web Conference, Tokyo, Japan, 2005:980-981.
8Liu N, Yang C. A link classitication based approach to website topic hierarchy generation [ C ] // Proceedings of International World Wide Web Conference, May 8 - 12, 2007, Banff, Alberta, Canada, 2007 : 1127 - 1128.
9Yang C, Liu N. Web site topic-hierarchy generation based on link structure [ J ]. Journal of the American Society for Information Science and Technology2009,60(3) :495 508.
10Chen Z, LiuS, et al. Building a web thesaurus from web link structure [ C ] //Proceeding of the ACM SIGIR July 28 - August 1, Toronto, Canada,2003:48 - 55.

引证文献5

1谭龙江.基于贝叶斯网络的网站信息抽取模型[J].四川理工学院学报（自然科学版）,2011,24(1):58-61. 被引量：1
2于龙,尹浩.站点主题结构与导航归纳技术[J].国防科技大学学报,2012,34(5):90-95. 被引量：1
3连雁平,章甲午.网络蜘蛛模拟系统分析与设计[J].安阳工学院学报,2012,11(6):38-40.
4李璟,吴萍.区域性多机构海洋预报产品集成的初步研究[J].海洋信息,2013,28(1):24-27.
5董博,李翀,刘学敏,董科军.基于爬虫的数据监控系统[J].计算机系统应用,2017,26(10):53-60. 被引量：5

二级引证文献7

1赵攀,魏正曦,张弘.基于混合蛙跳的网络生存性计算方法[J].计算机工程与设计,2013,34(11):3801-3805.
2汝承森,唐晋韬,谢松县,李莎莎,王挺.关系抽取中远监督错误标注消除[J].国防科技大学学报,2018,40(3):148-152. 被引量：1
3叶长青,宋胡杨.一种基于JAVA爬虫的网络票务查询系统[J].电脑知识与技术,2018,14(12X):41-42. 被引量：1
4韩贝,马明栋,王得玉.基于Scrapy框架的爬虫和反爬虫研究[J].计算机技术与发展,2019,29(2):139-142. 被引量：24
5李世杰,高雅蓉.基于网络爬虫的网络平台用户数据获取与分析[J].计算机与网络,2020,46(1):68-71. 被引量：3
6王雪.基于爬虫技术的电影评论信息获取及可视化设计[J].河南科技,2021,40(18):14-16.
7田柳,龚光军,林黄智.一种面向网站内容安全的分布式监控系统的设计与实现[J].电脑知识与技术,2023,19(4):86-88.

1郭威.基于Web应用结构抽取技术研究[J].信息与电脑（理论版）,2011(9):113-115.
2王亮.基于XML异构数据库数据转换技术的研究[J].信息安全与技术,2012,3(8):77-79. 被引量：1
3寇香霞,任永功,宋奎勇.基于FIUT结构增量式频繁项集挖掘[J].计算机应用与软件,2012,29(7):105-108. 被引量：1
4朱莹莹,王宇嘉.基于偏好粒子群算法的移动机器人路径规划[J].上海工程技术大学学报,2014,28(4):337-341.
5孙霞,程宏斌.基于加权层次结构的XML文档相似度算法[J].武汉理工大学学报,2009,31(18):76-79. 被引量：1
6冯雁,王申康.Web站点层次结构抽取算法的分析和实现[J].浙江大学学报（工学版）,2005,39(10):1507-1511. 被引量：3
7刘念祖.面向对象数据库中的视图[J].上海第二工业大学学报,1998,15(1):10-15.
8闫融.递归遍历目录树的两个C函数[J].六盘水师范高等专科学校学报,2004,16(6):25-26. 被引量：1
9于战科,倪明放,汪泽焱,武欣嵘.整数线性规划的改进分支定界算法[J].计算机应用,2011,31(A02):36-38. 被引量：9
10卢晓蓉,陈传波,李兵.基于XML的多数据库系统集成数据模型[J].华中科技大学学报（自然科学版）,2002,30(8):18-20. 被引量：3

江南大学学报（自然科学版）

2009年第5期

浏览历史

内容加载中请稍等...

基于改进的网络蜘蛛算法抽取Web站点结构的方法被引量：5

参考文献7

二级参考文献108

共引文献292

同被引文献31

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于改进的网络蜘蛛算法抽取Web站点结构的方法 被引量：5

参考文献7

二级参考文献108

共引文献292

同被引文献31

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于改进的网络蜘蛛算法抽取Web站点结构的方法被引量：5