社区网络爬虫的设计与实现被引量：10

Design and Implementation of the Social Network Crawler

下载PDF

导出

摘要社区互联网是以用户创造内容为主的新型互联网,具有很高的统计价值,由于权限和数据更新频繁等限制,传统的网络爬虫很难获取这一部分数据,设计并实现了一种可以自动登录并可以根据更新频率快慢智能抓取数据的爬虫,不同于以往爬虫以页面为粒度,该爬虫以人为最小粒度,并以人与人之间的关系为抓取依据,在获取这类数据上有很好的性能。 Social network is a new type of intemet based on users＇ creating contents ,which is of higlaly statistical value. Because of the limit of access and frequent updating, traditional web crawlers are difficult to obtain this part of data. This paper designs and implements an automatic crawler which can login and intelligently grab reptiles of data according to the speed of update frequency. This crawler is different from before for it is based on one person but not page ,and it relies on the relationship between persons, so it is of very good performance for this type of data.

作者郭涛黄铭钧

机构地区哈尔滨工业大学计算机科学与技术学院

出处《智能计算机与应用》 2012年第4期65-67,共3页 Intelligent Computer and Applications

关键词社区互联网智能爬虫数据挖掘 Social Network Smart Web Crawler Data Mining

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1CAI R;YANG J M;LAI W.iRobot:an intelligent crawler for Web forums[A]北京,2008447-456.
2BREWINGTON B,CYBENKO G. How dynamic is the web[J].Computer Networks,2000.257-276.
3FETTERLY D,MANASSE M,NAJOR. A large-scale study of the evolution of Web pages[A].New York:acm Press,2003.669-678.
4孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22

二级参考文献3

1孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
2孟涛,闫宏飞,李晓明.一种评价搜索引擎信息覆盖率的模型及其验证[J].电子学报,2003,31(8):1168-1172. 被引量：5
3李晓明,凤旺森.两种对URL的散列效果很好的函数[J].软件学报,2004,15(2):179-184. 被引量：45

共引文献21

1陈晓志,董守斌,张凌,张元丰.基于URL类型和网页链接变化的信息采集更新算法[J].郑州大学学报（理学版）,2007,39(2):60-64. 被引量：1
2刘辉林,孟莉,杨松波,王光兴.专业搜索引擎数据更新的算法P^2FC[J].广西师范大学学报（自然科学版）,2007,25(2):222-225. 被引量：1
3徐和祥,王鑫印,王述云,胡运发.基于知识的Deep Web集成环境变化处理的研究[J].软件学报,2008,19(2):257-266. 被引量：6
4王大伟,张岩,曾皓,潘延辉.一个预测网页变化的增量式更新模型[J].微计算机信息,2009,25(6):153-154. 被引量：2
5徐文杰,陈庆奎.增量更新并行W eb爬虫系统[J].计算机应用,2009,29(4):1117-1119. 被引量：8
6陈丽君,林怀忠.搜索引擎页面刷新策略研究综述[J].计算机系统应用,2009,18(7):210-214. 被引量：5
7柴军飞.搜索引擎中的网络蜘蛛技术探析[J].今日科苑,2009(24):122-122.
8徐尚瑜.基于泊松过程的爬虫调度策略分析[J].现代计算机,2009,15(12):68-71. 被引量：1
9杜言琦,马军.基于版块的论坛增量搜集策略[J].中文信息学报,2010,24(3):62-68. 被引量：2
10杨颂,欧阳柳波.基于Heritrix的面向电子商务网站增量爬虫研究[J].软件导刊,2010,9(7):38-39. 被引量：6

同被引文献55

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
2高森.Python网络编程基础[M].北京:电子工业出版社.2007:326.
3Pieter N, Michiel H. Mining Twitter in the cloud: A casestudyEC]//Proceedin gs of the 2010 IEEE 3rd In- ternat ionalConference on Cloud Computing, CLOUD 2010. Miami, USA: IEEE Computer Society, 2010: 107-114.
4Boldi P, Codenotti B, Santini M. UbiCrawler: A scala- ble fully distributed web crawler[J]. Software: Prac- tice & Experience, 2004,34 : 711-726.
5Alex Martelli, Anna Ravenscroft, David Ascher. Py- thon Cookbook[M]. USA: O'Reilly Media, Inc,2005.
6MarkLutz.Learning Python[M].北京:机械工业出版总社,2009.
7MagnusLieHetland.Python基础教程[M].北京:人民邮电出版社,2014.
8李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：37
9李国成.网络搜索引擎的现状及发展探析[J].企业科技与发展（下半月）,2009(4):25-26. 被引量：3
10宋鑫坤,陈万米,朱明,桂春胜,程硕远,陈海波.基于正则表达式的语音识别控制策略研究[J].计算机技术与发展,2010,20(2):106-109. 被引量：3

引证文献10

1李俊丽.基于Linux的python多线程爬虫程序设计[J].计算机与数字工程,2015,43(5):861-863. 被引量：19
2陈琳,任芳.基于Python的新浪微博数据爬虫程序设计[J].信息系统工程,2016,29(9):97-99. 被引量：24
3曾凯.基于带偏好的宽度优先遍历算法的网页信息抓取方法研究[J].网络安全技术与应用,2017(11):57-59.
4李代祎,谢丽艳,钱慎一,吴怀广.基于Scrapy的分布式爬虫系统的设计与实现[J].湖北民族学院学报（自然科学版）,2017,35(3):317-322. 被引量：16
5张安启,罗批.基于Scrapy的微博爬虫设计[J].电子技术与软件工程,2018(13):187-189.
6杨国志,江业峰.基于python的聚焦网络爬虫数据采集系统设计与实现[J].科学技术创新,2018(27):73-74. 被引量：16
7胡海潮.基于新浪微博的爬虫程序设计与实现[J].无线互联科技,2018,15(9):40-42. 被引量：2
8马蕾,冯锡炜,窦予梓,高天铸,朱睿,吴衍兵.分布式爬虫的研究与实现[J].计算机技术与发展,2020,30(2):192-196. 被引量：8
9郑典江,孙瑞英,王逸涵.网络舆情负面效应的反思与引导研究——以“雪莉”事件为例[J].情报探索,2020(7):86-89.
10杨国军.基于Python的数据爬虫的设计与实现[J].数字技术与应用,2020,38(10):153-154. 被引量：6

二级引证文献88

1项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
2郭华,陆平.利用python语言对室内热舒适环境进行数据分析[J].建筑与文化,2018(12):54-55. 被引量：2
3阳小兰,刘克刚,钱程,朱福喜.基于账户信用评价的恶意发帖检测系统研究[J].现代电子技术,2016,39(6):53-57.
4岳亚伟.一种充分利用现有资源的开放性作业查重系统设计[J].电子技术与软件工程,2016(10):193-193.
5陈琳,任芳.基于OpenAPI的Python空气质量监测数据程序设计[J].贵州气象,2016,40(3):78-81. 被引量：1
6陈琳,李容.基于动态Web的Python多线程空气质量数据程序设计[J].成都信息工程大学学报,2016,31(2):180-184. 被引量：6
7陈琳,任芳.基于Python的新浪微博数据爬虫程序设计[J].信息系统工程,2016,29(9):97-99. 被引量：24
8谢克武.大数据环境下基于python的网络爬虫技术[J].电子制作,2017,25(9):44-45. 被引量：50
9冯越,宋舒晗,李利敏,冯洪海.基于Web数据的水果食用之后不良反应的挖掘[J].电子技术与软件工程,2017(16):180-180.
10郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(23):248-249. 被引量：59

1周民,邱雅,王华彬.网络舆情分析中智能爬虫的设计[J].电脑知识与技术,2011,7(11X):8301-8302. 被引量：1
2刘佳,杜亚军.基于市场匹配的多Agent智能爬虫系统[J].西华大学学报（自然科学版）,2016,35(1):67-72.
3让虚拟与现实同行[J].新作文（高考在线）,2016,0(7):92-92.
4张文浩.社交网络：数据科学家眼中的金矿[J].程序员,2012(7):46-49. 被引量：2
5瑞星发布2010上半年安全报告钓鱼网站危害首超病毒和木马[J].计算机与网络,2010,36(15):6-7.
6新型互联网或将提速千百倍[J].海洋世界,2010(7):6-6.
7夏晶.云计算的关键技术及其在物联网中的应用研究[J].信息通信,2015,28(11):180-181. 被引量：4
8张欣.“我们给企业带来最优秀的管理平台”——Blogtronix用创新赢未来[J].电脑与电信,2010(8):5-7.
9赵夷平.传统搜索引擎和语义搜索引擎在Web2.0搜索中的差异性[J].图书馆学研究,2010(9):65-67.
10姚蕾.新型互联网技术下的安全方法分析[J].信息技术与信息化,2016(10):59-61.

智能计算机与应用

2012年第4期

浏览历史

内容加载中请稍等...

社区网络爬虫的设计与实现被引量：10

参考文献4

二级参考文献3

共引文献21

同被引文献55

引证文献10

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

社区网络爬虫的设计与实现 被引量：10

参考文献4

二级参考文献3

共引文献21

同被引文献55

引证文献10

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

社区网络爬虫的设计与实现被引量：10