-
题名网络爬虫反爬策略研究
被引量:9
- 1
-
-
作者
胡俊潇
陈国伟
-
机构
中国传媒大学
-
出处
《科技创新与应用》
2019年第15期137-138,140,共3页
-
文摘
网络爬虫在工作时会对目标站点发送大量的请求,这样的爬虫工作方式决定了其会消耗不少目标站点的服务器资源,这对于一个服务器不大的中小型站点来说负载是巨大的,甚至会导致该站点直接崩溃。另外某些网站也不希望自己的内容被轻易的获取,如电商网站的交易额,这些数据是一个互联网产品的核心,因此采取一定的手段保护敏感的数据。因此很多网站都在站点中加入了反爬机制。例如User-Agent+Referer检测、账号登陆及Cookie验证等。文章讨论了几种主流的方法来避免爬虫被目标站点服务器封禁,从而保证爬虫的正常运行。
-
关键词
网络爬虫
反爬虫
抓取策略
-
Keywords
Web crawler
anti-crawler
crawling strategy
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名大数据技术在影视媒资系统中的应用
被引量:1
- 2
-
-
作者
刘雪
胡俊潇
张鹏洲
-
机构
中国传媒大学新媒体研究院
-
出处
《现代电影技术》
2019年第8期35-40,共6页
-
文摘
文章首先从分析大数据技术对影视产业影响的角度入手,对大数据技术进行概述并点明大数据对影视产业的结构性影响;其次对影视媒资系统的概念与功能进行简要介绍,并尝试分析影视媒资系统发展中遇到的问题及制约因素。在此基础上,提出基于大数据技术的影视媒资系统的改进方案,包括对应用于影视媒资系统中的大数据技术进行分析,最后提出可行的基于大数据技术的影视媒资系统架构。
-
关键词
影视媒资系统
大数据
数据挖掘
数据分析
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-