期刊文献+

海量音频分布式网络爬虫系统的研究与实现

Research and Implementation of the Web Crawler Based on the Distributed System
下载PDF
导出
摘要 随着互联网信息量的日益剧增,基于分布式的网络爬虫系统已经成为未来的一个重要发展趋势.文章利用提供的初始URL种子,通过分布式网络爬虫系统抓取海量音频,同时也对分布式网络爬虫中的媒体音频真实地址解析,URL去重、分布式任务调度、sniffer嗅探等技术进行了研究和探索.实验结果表明,基于分布式的海量音频爬虫系统能以较少的时间代价准确地抓取海量符合需求的音频. With the sharp increase of information on the Internet, the web crawler system which is based on the distributed system has become an important development trend in the future. In this paper, the proposed distributed web crawler system can be employed to collect massive audio by using the initial URL seeds. In addition, how to analyze the real address of the audio by using sniffer technique, how to implement the task scheduling in distributed system and how to remove the duplicated URLs are also investigated. Experiments show that the web crawler based on the distributed system can collect a large number of audio from the Internet exactly in a short time.
出处 《韩山师范学院学报》 2015年第6期28-34,共7页 Journal of Hanshan Normal University
基金 广东省自然科学基金项目(项目编号:2014A030310038) 广东省教育厅科研项目(项目编号:2013KJCX0127) 广东省2013年高等教育教学改革项目
关键词 主从分布式网络爬虫 海量音频 Boom Filter 二次哈希 sniffer网络嗅探 distributed web crawler Massive Audio Boom Filter Hash sniffer
  • 相关文献

参考文献7

二级参考文献15

  • 1汪涛,樊孝忠,顾益军,刘林.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893. 被引量:10
  • 2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量:155
  • 3肖明忠,闵博楠,王佳聪,代亚非.一个实用的针对URL的哈希函数[J].小型微型计算机系统,2006,27(3):538-541. 被引量:3
  • 4池静,倪健,王华,邢秀娥.Bloom Filter和Weighted Bloom Filter的比较与研究[J].河北师范大学学报(自然科学版),2006,30(4):398-402. 被引量:4
  • 5张军.分布式系统技术内幕[M].北京:首都经济贸易大学出版社,2006.
  • 6叶允铭,马范援,于水,等.Igloo 分布式爬虫系统的性能优化[R].全国搜索引擎和网上信息挖掘学术研讨会,2003,单本,P1.
  • 7WRichardStevens 范建华.TCP/IP祥解卷一:协议[M].北京:机械工业出版社,..
  • 8.深入学习sniffer[EB/OL].http://www.linuxeden.com/edu/doctext.php?docid=911,.
  • 9.sniffer安全技术专题[EB/OL].http://www.chinaitlab.com/www/special/sniffer.asp,.
  • 10.用WinPcap实现Sniffer[EB/OL].http://kaka.rootcn.com/shadowstar/essay/security/sniffer2.htm.,.

共引文献14

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部