基于Python的专业网络爬虫的设计与实现被引量：31

下载PDF

导出

摘要网络爬虫,又称网页蜘蛛、网络机器人。随着计算机技术的高速发展,互联网中的信息量越来越大,搜索引擎应运而生。传统的搜索引擎会有返回结果不精确等局限性。为了解决传统搜索引擎的局限性,专用型网络爬虫在互联网中越来越常见。同时,专用型网络爬虫具有专用性,可以根据制定的规则和特征,最后只体现和筛选出有用的信息。

作者姜杉彪黄凯林卢昱江张俊杰曾志高刘强

机构地区湖南工业大学计算机与通信学院

出处《企业科技与发展》 2016年第8期17-19,共3页 Sci-Tech & Development of Enterprise

基金 2015年湖南省科技计划项目(项目编号:2015GK3024)"基于物联网的药品质量安全追溯系统" 湖南工业大学教学改革项目(项目编号:2013B11)"基于移动互联网的网络教学资源建设与成效研究" 湖南省教育厅科学研究项目(编号:13C036)"WEB数据挖掘在网络学习资源推荐系统中的应用研究"

关键词 PYTHON 网络爬虫数据挖掘搜索引擎

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：37
2叶允明,于水,马范援,宋晖,张岭.分布式Web Crawler的研究:结构、算法和策略[J].电子学报,2002,30(12A):2008-2011. 被引量：23

二级参考文献17

1陈红英,杨宜民.基于多智能体的网络信息系统的原理与实现[J].微电子学与计算机,2005,22(3):57-59. 被引量：2
2吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：48
3余一娇.Google Linux Cluster的系统结构分析[EB/OL].(2006 -09 -02).http://www.uplooking.com/content/view/229/2/.
4Paterson L.HTML4编程指南[M].徐征,冯文镛,陈晓良,等译.杭州:浙江科学技术出版社,2002:10-45.
5Eichmann D. The RBSE Crawler-Balancing Effective Search Against Web Load[C]// Proc of the 1st Int'l World Wide Web Conf, 1994 : 113-120.
6McBryan O A. GENVL and WWW: Tools for Taming the Web[C]//Proc of the 1st Int'l World Wide Web Conf, 1994 : 70-90.
7Pinkerton B. Finding What People Want: Experiences with the WebCrawler[C]//Proc of the 2nd Int'l World Wide Web Conf,1994.
8Cowie J, Lehnert W. Information Extraction[J]. Communications of the ACM, 1999,1 (1) : 80-91.
9Shapiro D. Value-Driven Agents: [Ph D Thesis]. [D]. Stanford: Stanford University. 2001:23-128.
10Barroso A,Dean J, Hlzle U. Web Search for a Planet: The Google Cluster Architecture[J]. IEEE Micro, 2003,23 (2) : 22-28.

共引文献58

1何晓阳,吴治蓉,连丽红.Google算法认识中易产生的几个误区[J].数字图书馆论坛,2005(8):37-38.
2梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
3刘世涛.简析搜索引擎中网络爬虫的搜索策略[J].阜阳师范学院学报（自然科学版）,2006,23(3):59-62. 被引量：15
4张洪斌,危胜军.基于超图的并行信息采集系统任务划分方法[J].广西师范大学学报（自然科学版）,2008,26(1):212-215.
5孟祥乾,叶允明,邓斌.基于流水线负载平衡模型的并行爬虫研究[J].计算机工程,2009,35(2):34-36. 被引量：2
6吐尔洪.吾司曼,维尼拉.木沙江.维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现[J].新疆大学学报（自然科学版）,2009,26(1):103-106. 被引量：2
7方东权,吴天吉,李翠霞.“三农”信息资源整合与服务平台的设计与实现[J].中国农学通报,2009,25(4):277-282. 被引量：12
8白鹤,汤迪斌,王劲林.分布式多主题网络爬虫系统的研究与实现[J].计算机工程,2009,35(19):13-16. 被引量：20
9何毅.基于Web的建筑业主题搜索引擎技术[J].吉林广播电视大学学报,2009(6):126-128.
10刘淑梅,夏亮,许南山.主题搜索引擎网络爬虫搜索策略的研究与实现[J].计算机系统应用,2010,19(3):49-52. 被引量：13

同被引文献113

1林岳,段海波.基于TRIZ和领域本体的计算机辅助创新设计平台框架[J].机械设计与研究,2005,21(2):15-18. 被引量：11
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
3孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
4李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：37
5王凤红.简单分布式网络爬虫模型的设计与分析[J].中国现代教育装备,2008(4):76-78. 被引量：8
6张佑龙,夏仕安,汪贵章,戚浩.安徽省测震台网系统构成[J].防灾科技学院学报,2008,10(1):52-54. 被引量：6
7曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
8王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
9荣光,张化祥.一种Deep Web爬虫的设计与实现[J].计算机与现代化,2009(3):31-34. 被引量：5
10周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：90

引证文献31

1扎西吉,才智杰.一种藏语语料网页数据的采集方法[J].通讯世界,2017,23(9):115-116. 被引量：1
2王碧瑶.基于Python的网络爬虫技术研究[J].数字技术与应用,2017,35(5):76-76. 被引量：16
3魏冬梅,何忠秀,唐建梅.基于Python的Web信息获取方法研究[J].软件导刊,2018,17(1):41-43. 被引量：24
4孙冰.基于Python的多线程网络爬虫的设计与实现[J].网络安全技术与应用,2018(4):38-39. 被引量：14
5周问宇,王磊.基于网络爬虫的手机离线ACM题库的设计与实现[J].电脑编程技巧与维护,2018(7):71-73.
6阮阳,刘禹,韩港成,康晓凤.基于爬虫的定向数据检索系统[J].软件,2018,39(5):118-120. 被引量：5
7刘杰,葛晓玢,闻顺杰.基于Python的网络爬虫系统的设计与实现[J].信息与电脑,2018,30(12):92-93. 被引量：4
8崔玉娇,孙结冰,祁晓波,凌强,朱勇.基于Python的51-job数据抓取程序设计[J].无线电通信技术,2018,44(4):416-419. 被引量：6
9丁忠祥,杨彦红,杜彦明.基于Scrapy框架影视信息爬取的设计与实现[J].北京印刷学院学报,2018,26(9):92-97. 被引量：2
10严斐,肖璞.Python框架下基于主题的数据爬取技术研究与实现[J].计算机时代,2018(11):10-13. 被引量：3

二级引证文献163

1刘娟娟,杨根福.移动端儿童数字阅读行为采集与可视化研究[J].内江科技,2021,42(5):18-19.
2谈帅,唐天琪,高雅.网络众源地理信息获取与整合方法研究[J].现代测绘,2021(2):53-58.
3项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
4李红.基于python的房屋信息数据分析[J].探索科学,2019,0(3):215-216.
5周峦,林芸,陈露诗.剖宫产术中出血相关因素的探讨[J].广东医学,2000,21(5):420-421. 被引量：1
6聂晶.Python在大数据挖掘和分析中的应用优势[J].广西民族大学学报（自然科学版）,2018,24(1):76-79. 被引量：45
7于韬,李伟,代丽伟.基于Python的新浪新闻爬虫系统的设计与实现[J].电子技术与软件工程,2018(9):188-188. 被引量：7
8刘杰,葛晓玢,闻顺杰.基于Python的网络爬虫系统的设计与实现[J].信息与电脑,2018,30(12):92-93. 被引量：4
9崔玉娇,孙结冰,祁晓波,凌强,朱勇.基于Python的51-job数据抓取程序设计[J].无线电通信技术,2018,44(4):416-419. 被引量：6
10云洋.基于Scrapy的网络爬虫设计与实现[J].电脑编程技巧与维护,2018(9):19-21. 被引量：2

1宫婷.计算机软件设计中嵌入式实时软件的应用探究[J].中国外资,2013(23):280-280. 被引量：21
2左雄辉,糜麒.个性化搜索引擎研究[J].计算机工程与应用,2005,41(17):190-192. 被引量：14
3当动物们的QQ被盗之后[J].天天爱学习（六年级）,2013(22):20-20.
4詹华.当动物们的QQ被盗[J].意林（少年版）,2013(3):50-50.
5王玉龙.搜索引擎个性化关键技术刍议[J].计算机光盘软件与应用,2011(13):101-101.
6聂勇军,魏世民,廖启征.基于CORBA技术的网络机器人的远程控制系统[J].计算机应用,2004,24(S1):398-400. 被引量：4
7王政,常一志,张建光.串行通信在网络机器人控制中的应用研究[J].应用科技,2002,29(2):19-21.
8王建华.嵌入式计算机技术及应用分析[J].电子制作,2014,22(2X):88-88.
9吴文杰,刘桥,蒋梁中.网络机器人技术及其在机械制造业中的应用[J].机床与液压,2005,33(5):16-18. 被引量：1
10熊燕妮,黄凯.垂直搜索引擎蜘蛛系统的设计与实现[J].计算机光盘软件与应用,2011(2):156-156.

企业科技与发展

2016年第8期

浏览历史

内容加载中请稍等...

基于Python的专业网络爬虫的设计与实现被引量：31

参考文献2

二级参考文献17

共引文献58

同被引文献113

引证文献31

二级引证文献163

相关作者

相关机构

相关主题

浏览历史

基于Python的专业网络爬虫的设计与实现 被引量：31

参考文献2

二级参考文献17

共引文献58

同被引文献113

引证文献31

二级引证文献163

相关作者

相关机构

相关主题

浏览历史

基于Python的专业网络爬虫的设计与实现被引量：31