基于窗口比较的网站信息增量爬取方法被引量：1

Window Comparison Based Incremental Crawling Approach for Websites

下载PDF

导出

摘要目前在网站信息增量爬取中,采用布隆过滤器去重是比较有效的方法,但随着存入的元素数量增加,误算率随之增加。为此本文设计并实现了一种基于窗口比较的网站信息增量爬取方法,按照网站数据呈现顺序一次性爬取有限长度的数据,并按照网站数据的呈现顺序放入数据队列,在数据队列末端设定比较窗口,通过检查比较窗口内的数据与已爬取数据的重复度决定是否停止数据爬取。实验表明,针对增量爬取未严格按照时间排序网站信息时,本方法降低了爬取损耗。 Nowadays, Bloom filters are useful methods for the incremental crawling of websites. With the increasing of the stored items, the error rate is also enlarged. To solve this problem, we proposed a window comparison based incremental crawling approach, by which the information on the websites can be crawled within the limited length, and it will be stored in the data queue based on the dis- play location in the website. A window is set at the end of the queue, which is used to check how much data is crawled by several times and whether the crawling process should be terminated. The simulation shows that, this approach can reduce the cost of the crawling for the website in which the incremented data is not displayed based on the updated time.

作者刘学麻朴方尤佳莉脱立恒

机构地区中国科学院声学研究所国家网络新媒体工程技术研究中心中国科学院大学

出处《网络新媒体技术》 2017年第4期24-27,共4页 Network New Media Technology

基金中国科学院战略性先导科技专项(编号:XDA06040602)

关键词增量爬取爬取效率 HASH 布隆过滤器 incremental crawling, crawling efficiency, Hash, Bloom filter

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1周舟,付文亮,嵩天,刘庆云.一种基于并行Bloom Filter的高速URL查找算法[J].电子学报,2015,43(9):1833-1840. 被引量：6
2蔡欣宝,郭若飞,赵朋朋,崔志明.Web论坛数据源增量爬虫的研究[J].计算机工程,2010,36(9):285-287. 被引量：5

二级参考文献26

1李魁,程学旗,郭岩,张凯.WWW论坛中的动态网页采集[J].计算机工程,2007,33(6):80-82. 被引量：11
2Cai Rui,Yang Jiangming,Lai Wei,et al.iRobot:An Intelligent Crawler for Web Forums[C]//Proc.of the 17th International World Wide Web Conference.Beijing,China:[s.n.],2008.
3Cho J,Garcia M H.The Evolution of the Web and Implications for an Incremental Crawler[C]//Proc.of the 26th Int'l Conf.on Very Large Data Bases.Cairo,Egypt:[s.n.],2000.
4Cho J,Garcia M H.Estimating Frequency of Change[J].ACM Trans.on Internet Technology,2003,3(3):256-290.
5Brewington B,Cybenko G.Keeping up with the Changing Web[J].IEEE Computer,2000,33(5):52-58.
6Zheng Shuyi.Joint Optimization of Wrapper Generation and Template Detection[C]//Proc.of the 13th ACM Int'l Conf.on Knowledge Discovery and Data Mining.San Jose,CA,USA:[s.n.],2007.
7Cho J,Garcia M H.Synchronizing a Database to Improve Freshness[C]//Proc.of 2000 ACM SIGMOD International Conference on Management of Data.Dallas,Texas,USA:[s.n.],2000.
8Broder A Z, et al. Efficient URL caching for world wide web crawling[ A ]. Proc of WWW 2003 [ C ]. Budapest, Hungary: ACM, 2003.679 - 689.
9Fan L, et al. Summary cache: a scalable wide-area web cachesharing protocol[ J ]. IEEE/ACM Trans on Networking, 2000,8 (3) :281 - 293.
10Huang N F,et al.A fast URL lookup engine for content-aware multi-gigabit switches [ A ]. Proc of AINA 2005 [ C ]. Taipei, Taiwan: IEEE Computer Society, 2005.641 - 646.

共引文献9

1陈翰,韩永峰,李弼程.基于突发事件热度的站点地图构建算法[J].计算机应用研究,2012,29(8):2943-2947. 被引量：6
2杨眉.网页更新预测算法研究现状[J].软件导刊,2013,20(4):57-59. 被引量：2
3胡改丽,陈婷,陈福集,郑小雪.我国网络舆情热度分析文献综述[J].情报科学,2016,34(1):160-166. 被引量：13
4黄诚.一种高速URL过滤算法的研究与应用[J].现代计算机,2016,22(2):13-16. 被引量：2
5王鹏,张良,周舟,刘庆云,方滨兴.一种高并发网络环境下快速流表查找方法[J].电子学报,2017,45(4):974-981. 被引量：1
6冯凯,陈军,王鹃,王勇.基于统计学的Web论坛增量更新策略研究[J].计算机应用与软件,2017,34(6):31-36. 被引量：1
7李龙飞,贺占庄,史阳春.基于布鲁姆过滤器的面向IP包识别的CPBF算法[J].华南理工大学学报（自然科学版）,2017,45(7):90-97.
8LI Gezi,CHEN Xiaogang,LI Shunfen,MA Bin,SONG Zhitang.FPGA-Enhanced Data Processing System Using PCM Technology[J].Chinese Journal of Electronics,2020,29(4):766-771.
9魏中贺,潘岩,高鹰,高阳.基于IBFBP的IPv6路由查找算法[J].华中科技大学学报（自然科学版）,2016,44(S1):94-98.

同被引文献14

1遆佳,李霁.基于视觉信息传达的网页界面设计研究[J].包装工程,2017,38(2):243-245. 被引量：8
2屈建萍,李汉超.高校网站建设规划设计与网页制作方法浅析[J].中国管理信息化,2017,20(1):155-156. 被引量：3
3杜鹏.基于信息架构的数字校园信息接入系统设计[J].自动化与仪器仪表,2017(2):80-82. 被引量：3
4胡向东,刘可,张峰,林家富,付俊,郭智慧.基于页面敏感特征的金融类钓鱼网页检测方法[J].网络与信息安全学报,2017,3(2):31-38. 被引量：8
5任军利.网站管理地址泄露下网页信息快速加密仿真[J].计算机仿真,2017,34(5):269-272. 被引量：3
6冯燕,邱博瑨.网页页面布局动态生成方法[J].科学家,2017,5(11):141-142. 被引量：1
7陈天伟.基于DOM的移动终端布局解析器的设计与实现[J].移动通信,2017,41(16):86-89. 被引量：1
8顾问,曹阳.基于jsoup的Web页面自适应转换系统的实现[J].电子技术与软件工程,2017(18):200-202. 被引量：3
9王健,张金.基于节点权重的网页去噪方法的研究[J].计算机技术与发展,2017,27(10):83-86. 被引量：2
10陈明坤.试析动态网站制作方法与技巧[J].电脑与电信,2017(8):85-87. 被引量：2

引证文献1

1文星.基于移动终端适配技术的网站页面信息显示方法[J].自动化与仪器仪表,2019,0(12):126-129. 被引量：2

二级引证文献2

1张燕,姚江.基于视觉传达的网页界面信息显示系统设计[J].现代电子技术,2022,45(2):125-128. 被引量：4
2张胜男,吴嘉惟,牛连强,杨坤.移动网页模块化样式模板匹配方法[J].计算机科学与应用,2020,10(6):1234-1242.

1谢添轩,魏争.中国互联网金融职位特征与人才需求研究——基于招聘网站数据的内容分析[J].江苏科技信息,2017,34(18):6-8. 被引量：3
2梁建胜,谢志伟.基于视频推荐技术的无线网络视频服务器设计[J].计算机测量与控制,2017,25(7):269-272. 被引量：1
3廖峰林.智能型电动执行机构分体安装应用研究[J].现代工业经济和信息化,2017,7(13):70-71. 被引量：1

网络新媒体技术

2017年第4期

浏览历史

内容加载中请稍等...

基于窗口比较的网站信息增量爬取方法被引量：1

参考文献2

二级参考文献26

共引文献9

同被引文献14

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于窗口比较的网站信息增量爬取方法 被引量：1

参考文献2

二级参考文献26

共引文献9

同被引文献14

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于窗口比较的网站信息增量爬取方法被引量：1