海量音频分布式网络爬虫系统的研究与实现

Research and Implementation of the Web Crawler Based on the Distributed System

下载PDF

导出

摘要随着互联网信息量的日益剧增,基于分布式的网络爬虫系统已经成为未来的一个重要发展趋势.文章利用提供的初始URL种子,通过分布式网络爬虫系统抓取海量音频,同时也对分布式网络爬虫中的媒体音频真实地址解析,URL去重、分布式任务调度、sniffer嗅探等技术进行了研究和探索.实验结果表明,基于分布式的海量音频爬虫系统能以较少的时间代价准确地抓取海量符合需求的音频. With the sharp increase of information on the Internet, the web crawler system which is based on the distributed system has become an important development trend in the future. In this paper, the proposed distributed web crawler system can be employed to collect massive audio by using the initial URL seeds. In addition, how to analyze the real address of the audio by using sniffer technique, how to implement the task scheduling in distributed system and how to remove the duplicated URLs are also investigated. Experiments show that the web crawler based on the distributed system can collect a large number of audio from the Internet exactly in a short time.

作者谢泽辉李建忠

机构地区韩山师范学院数学与统计学院

出处《韩山师范学院学报》 2015年第6期28-34,共7页 Journal of Hanshan Normal University

基金广东省自然科学基金项目(项目编号:2014A030310038) 广东省教育厅科研项目(项目编号:2013KJCX0127) 广东省2013年高等教育教学改革项目

关键词主从分布式网络爬虫海量音频 Boom Filter 二次哈希 sniffer网络嗅探 distributed web crawler Massive Audio Boom Filter Hash sniffer

分类号 TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Internet Society of China.中国互联网发展报告(2014)[J].互联网天地,2014,0(6):73-78. 被引量：10
2陈鸳.基于标准协议的流媒体平台的研究和实现[D].上海:上海交通大学,2009.
3胡毅.搜索引擎优化及其应用研究[D].昆明:云南大学,2011:4-9.
4吴小惠.分布式网络爬虫URL去重策略的改进[J].平顶山学院学报,2009,24(5):116-119. 被引量：3
5刘波涛,赵刚,冯翠丽,唐乐.Sniffer原理解析及其WinPcap实现[J].华东交通大学学报,2005,22(5):96-99. 被引量：1
6吴小惠.分布式网络爬虫系统的任务调度策略改进[J].上饶师范学院学报,2010,30(3):87-91. 被引量：1
7GUO Songtao, DONG JianXiong. A Large Scale URL Verification Pipeline Using Hadoop[C], Shanghai: Data Mining Work- shops(ICDMW), 2011 IEEE 11th International Conference on, 2011 : 1-5.

二级参考文献15

1汪涛,樊孝忠,顾益军,刘林.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893. 被引量：10
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：155
3肖明忠,闵博楠,王佳聪,代亚非.一个实用的针对URL的哈希函数[J].小型微型计算机系统,2006,27(3):538-541. 被引量：3
4池静,倪健,王华,邢秀娥.Bloom Filter和Weighted Bloom Filter的比较与研究[J].河北师范大学学报（自然科学版）,2006,30(4):398-402. 被引量：4
5张军.分布式系统技术内幕[M].北京:首都经济贸易大学出版社,2006.
6叶允铭,马范援,于水,等.Igloo 分布式爬虫系统的性能优化[R].全国搜索引擎和网上信息挖掘学术研讨会,2003,单本,P1.
7WRichardStevens 范建华.TCP/IP祥解卷一:协议[M].北京:机械工业出版社,..
8.深入学习sniffer[EB/OL].http://www.linuxeden.com/edu/doctext.php?docid=911,.
9.sniffer安全技术专题[EB/OL].http://www.chinaitlab.com/www/special/sniffer.asp,.
10.用WinPcap实现Sniffer[EB/OL].http://kaka.rootcn.com/shadowstar/essay/security/sniffer2.htm.,.

共引文献14

1杨靖韬,陈会果.对网络爬虫技术的研究[J].科技创业月刊,2010,23(10):170-171. 被引量：5
2郝丹,周津慧,关贝,王衍喜,韩继欣.文献跨库检索中去重方法研究与应用[J].现代图书情报技术,2011(7):116-120. 被引量：10
3胡元,任保卫,何春莲,肖力铭.SEO技术在高校网站设计与开发中的应用研究[J].中国教育技术装备,2013(12):48-49. 被引量：2
4杨赣川.高校网站推广与SEO技术的融合[J].四川文理学院学报,2015,25(2):51-54. 被引量：2
5朱婧.国内外可穿戴行业发展动态与趋势[J].广东科技,2015,24(14):9-12. 被引量：12
6王静.中美网页归档项目的对比研究[J].档案与建设,2015(7):19-23. 被引量：14
7李毓丽,赵连芬.面向移动应用优化技术研究[J].数字技术与应用,2015,33(10):104-105.
8谢冰心,李佩君,庄益玲.基于手机终端的高职英语主客体交互教学模式研究[J].湖南科技学院学报,2015,36(12):153-155. 被引量：3
9庄益玲,谢冰心.基于智能手机的高职英语听力移动学习[J].桂林师范高等专科学校学报,2016,30(1):118-122. 被引量：4
10姜寒秋.传播学视角下的警察权威重塑探析——以涉警视频为例[J].辽宁公安司法管理干部学院学报,2016(4):18-22.

1Tang Yuankai.A Robotic Boom[J].Beijing Review,2015,58(50):26-29.
2成功,李小正,赵全军.一种网络爬虫系统中URL去重方法的研究[J].中国新技术新产品,2014(12):23-23. 被引量：14
3杨瑞,胡弘思,张文波,姚天昉.一种分布式网络爬虫的设计与实现[J].江西师范大学学报（自然科学版）,2013,37(4):382-386. 被引量：2
4【紧急!】NVIDIA364.72驱动被曝安全隐患:严重可导致显卡BOOM[J].电脑迷,2016,0(2):2-3.
5陈军,谢立,孙钟秀,彭湘林,郑宇华.基于知识处理的分布式任务调度[J].计算机工程与应用,1990,26(10):94-97. 被引量：2
6郑谦益,张灯银,居悌.局域网环境下的分布式任务调度[J].南京邮电学院学报,1998,18(2):78-81.
7Mobile Payment Boom[J].Beijing Review,2013,56(32):39-39.
8任昱凤.分布式主题爬虫的研究与设计[J].计算机光盘软件与应用,2015,18(1):11-12. 被引量：1
9Lucy,吕哲.IT新旧势力对决Mobile Boom时代[J].英语沙龙（高中）,2011(9):48-51.
10孙伟东,马宗民.基于数据依赖和触发器的简单子任务调度算法[J].辽宁大学学报（自然科学版）,2009,36(2):146-150.

韩山师范学院学报

2015年第6期

浏览历史

内容加载中请稍等...

海量音频分布式网络爬虫系统的研究与实现

参考文献7

二级参考文献15

共引文献14

相关作者

相关机构

相关主题

浏览历史