国外科技网站反爬虫研究及数据获取对策研究被引量：10

Research on Foreign Science Websites’ Anti-crawling Technologies and Data Acquisition Strategies

下载PDF

导出

摘要当前,来自国外网站的互联网开源科技信息已经成为科技情报的重要表现形式和组成部分,利用垂直爬取技术抽取、集成、解析、跟踪、研究这些网页信息可帮助科研人员实时、全面、深入地了解领域内的研究现状。然而国内目前访问国外某些网站困难;且国外很多网站都加强了反爬虫技术策略与应用,爬虫技术总是不断被反爬虫技术超越,特定主题内容规模化信息获取尤为困难。采用简单的搜索方式难以获取,且有些信息具有很强的时效性,人工跟踪难度大、时间耗费多,不利于数据的长期积累。为此,我们重点针对开源信息获取的反爬虫技术开展了研究,提出针对性的解决方案,系统地介绍了反爬虫技术和爬虫技术的应用。 Currently,the Internet-based science information originating from foreign key websites has become an important form and an integral part of scientific intelligence.To extract,integrate and parse those web page information by using vertical crawling technology helps scientific researchers gain an overall but in-depth understanding of the up-to-date scientific achievements in various fields in real time.But it is difficult to have access to some of foreign websites as they have also increased the research and application of anti-crawling technology.With the crawling technology surpassed by anti-crawling technology,it becomes particularly difficult to obtain information on topicspecific contents in large scale.We analyze typical scientific websites based in foreign countries to give systematic introduction of crawling and anti-crawling technologies and corresponding solutions.

作者张晔孙光光徐洪云庞婷曲潇洋 ZHANG Ye;SUN Guangguang;XU Hongyun;PANG Ting;QU Xiaoyang(Northern Science and Technology Information Institute,Beijing 100089,China)

机构地区北方科技信息研究所

出处《竞争情报》 2020年第1期24-28,共5页 Competitive Intelligence

关键词爬虫反爬虫信息采集搜索引擎 PYTHON crawling anti-crawling search engine data acquisition python

分类号 TP391.3 [自动化与计算机技术—计算机应用技术] TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1张嘉琳.由Robots协议引发的不正当竞争问题思考——以3百大战为视角[J].法制与社会（旬刊）,2013(23):96-97. 被引量：2

二级参考文献6

1柳絮飞.网络爬虫攻防内幕.CFan杂志.第21期.
2百度百科.http://zhidao.baidu.com/question/474663816.html.
3姜妹.“美杜莎”后.爬虫协议引3百再战.中国电脑教育报.2013年3月4日.第023版.
4百度诉360不正当竞争案判决书.2013年4月27日.
5王京歌.从3Q对战看网络不正当竞争行为的法律规制[J].商丘师范学院学报,2012,28(4):51-54. 被引量：4
6张平.《反不正当竞争法》的一般条款及其适用——搜索引擎爬虫协议引发的思考[J].法律适用,2013(3):46-51. 被引量：54

共引文献1

1李龙.我国运动员不正当竞争行为的成因及道德规范研究[J].吉林体育学院学报,2015,31(5):22-24.

同被引文献82

1PENG Tao HE Fengling ZUO Wanli.A New Framework for Focused Web Crawling[J].Wuhan University Journal of Natural Sciences,2006,11(5):1394-1397. 被引量：3
2曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
3张雷,刘光复,刘志峰,黄海鸿.面向绿色设计的产品优化配置方法[J].农业机械学报,2008,39(9):122-128. 被引量：15
4方启明,杨广文,武永卫,朱安平,郑纬民.面向P2P搜索的可定制聚焦网络爬虫[J].华中科技大学学报（自然科学版）,2007,35(S2):148-152. 被引量：5
5李实,叶强,李一军,RobLaw.中文网络客户评论的产品特征挖掘方法研究[J].管理科学学报,2009,12(2):142-152. 被引量：130
6周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：95
7王晓伟,李剑峰,李方义,王黎明.机电产品生命周期评价指标与量化方法研究[J].山东大学学报（工学版）,2009,39(5):73-78. 被引量：16
8杨定中,赵刚,王泰.网络爬虫在Web信息搜索与数据挖掘中应用[J].计算机工程与设计,2009,30(24):5658-5662. 被引量：37
9屈展,李婵.JSON在Ajax数据交换中的应用研究[J].西安石油大学学报（自然科学版）,2011,26(1):95-98. 被引量：78
10于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23

引证文献10

1周峦,林芸,陈露诗.剖宫产术中出血相关因素的探讨[J].广东医学,2000,21(5):420-421. 被引量：1
2赖荣燊,肖人彬.基于客户评论与性能—结构映射的产品绿色创新设计方法[J].南昌工程学院学报,2020,39(3):1-7. 被引量：1
3潘洪涛.一种多源统一爬虫框架的设计与实现[J].软件工程,2021,24(4):30-33. 被引量：2
4张渊博.大数据时代的反爬虫技术[J].电子元器件与信息技术,2020,4(12):18-19. 被引量：3
5文铭,刘博.网络爬虫获取个人信息行为的法律规制研究[J].湖南行政学院学报,2021(4):43-52.
6李嘉恩.大数据反爬虫技术的应用分析[J].无线互联科技,2021,18(24):82-83. 被引量：5
7奚增辉,王卫斌,陆嘉铭,瞿海妮.应用主题爬虫的电力网络舆情数据采集[J].西安工程大学学报,2022,36(2):72-78. 被引量：7
8刘晓魁.网络爬虫技术与策略分析[J].网络安全技术与应用,2022(5):17-19. 被引量：9
9龙辉.基于Ajax的聚焦网络爬虫技术在科研项目管理系统中的应用[J].电子元器件与信息技术,2022,6(7):8-11. 被引量：4
10刘晓魁,肖树鹏.开放网络环境下的反爬虫技术研究[J].网络安全技术与应用,2024(7):19-22. 被引量：1

二级引证文献30

1乔显栋,任睿智,史贺龙,费嘉琛.气象网页数据反爬虫措施探讨[J].数字技术与应用,2024,42(2):112-114.
2李鲲程,费军旗,范春梅.基于Pyspider的网络爬虫架构的分析与优化[J].通信管理与技术,2022(6):9-12.
3张秀兰,陈环,翁俊英.剖宫产术中出血高危因素分析[J].河南外科学杂志,2009,15(4):34-35. 被引量：8
4肖人彬,赖荣燊,李仁旺.从大规模定制化设计到大规模个性化设计[J].南昌工程学院学报,2021,40(1):1-12. 被引量：15
5李嘉恩.大数据反爬虫技术的应用分析[J].无线互联科技,2021,18(24):82-83. 被引量：5
6马超勇,李秋贤,周全兴.面向网络爬虫的智能拦截系统[J].现代信息科技,2022,6(7):127-132.
7潘建宏,张帆,王磊,张俊茹,郝保中.基于多源异构的能源数据处理技术研究[J].电子设计工程,2022,30(16):143-147. 被引量：5
8龙辉.基于Ajax的聚焦网络爬虫技术在科研项目管理系统中的应用[J].电子元器件与信息技术,2022,6(7):8-11. 被引量：4
9于亮,钟宏伟,李海涛,陈海洋,杜欣然.基于数据挖掘的客户舆情预警监控系统设计[J].电子设计工程,2022,30(20):148-151. 被引量：3
10张慧敏,李晏,冯天天,杨益晟.碳中和背景下跨省电力交易空间结构及影响因素研究[J].智慧电力,2022,50(11):56-61. 被引量：6

1特朗普政府拟取消电动汽车的税费优惠[J].中国汽车市场,2019,0(4):115-115.
2Valley.小时候你做过这些“傻事”吗?[J].高中生之友（高考版）,2019,0(11):46-47.
3马艺珊.交互设计在移动端旅游APP中的应用探究[J].西部皮革,2020,42(1):50-51. 被引量：4
4左妍.“互联网+政务服务”环境下科技政务服务能力提升研究——以天津科技网为例[J].江苏科技信息,2019,36(36):22-25. 被引量：3
5周小丽.色彩元素在网页设计中的研究与运用微探[J].流行色,2019,0(11):92-93. 被引量：2
6唐宇,余迎.哈里伯顿公司首次推出3D随钻测井技术[J].测井技术,2019,43(5):456-456.
7喻文.米芾交游诗研究[J].名作欣赏（学术版）（下旬）,2020,0(2):117-118.
8《江苏中医药》论文层次标题及编号的编写要求[J].江苏中医药,2020,52(2):77-77.
9欢迎使用“食药云搜”专业信息搜索APP[J].中国医药导刊,2019,21(11):659-659.
10玉珍措.藏语首部翻译理论典籍《语合二卷》的主题及其影响[J].青海师范大学学报（藏文版）,2019(1):57-68.

竞争情报

2020年第1期

浏览历史

内容加载中请稍等...

国外科技网站反爬虫研究及数据获取对策研究被引量：10

参考文献1

二级参考文献6

共引文献1

同被引文献82

引证文献10

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

国外科技网站反爬虫研究及数据获取对策研究 被引量：10

参考文献1

二级参考文献6

共引文献1

同被引文献82

引证文献10

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

国外科技网站反爬虫研究及数据获取对策研究被引量：10