期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
网络爬虫行政、民事、刑事一体化治理路径构建研究
1
作者 冯宇轩 王震 《西安石油大学学报(社会科学版)》 2024年第1期100-106,共7页
网络爬虫作为一项衍生于数据化时代的新兴技术在当下已然具有不可估量的积极效能,然而其中更值得给予关注的是其背后盘根错节的法律风险。在对网络爬虫的概念以及其正反层面的影响进行剖析后可发现,在实行客观违法并合主观故意的基础上... 网络爬虫作为一项衍生于数据化时代的新兴技术在当下已然具有不可估量的积极效能,然而其中更值得给予关注的是其背后盘根错节的法律风险。在对网络爬虫的概念以及其正反层面的影响进行剖析后可发现,在实行客观违法并合主观故意的基础上,通过所爬取的数据类型映射的不同法益认定不同罪名的规制方式实然存在许多偏颇之处,因此需要通过健全行刑衔接机制、以广义授权整体外化客观行为、明晰所爬取数据法益实质归属等途径,联动行政、民事、刑事视域进行一体化治理,以创制网络爬虫治理的全新模式。 展开更多
关键词 网络爬虫 robots协议 反爬虫机制 数据法益 一体化治理
下载PDF
实时识别P2P-TV视频流的方法研究 被引量:2
2
作者 胡超 陈鸣 +1 位作者 许博 李兵 《电子与信息学报》 EI CSCD 北大核心 2011年第9期2219-2224,共6页
基于P2P的IPTV(P2P-TV)是当前发展最为迅速的因特网应用之一,实时识别P2P-TV视频流是管理网络P2P-TV流量和理解网络行为的关键一步。通过分析以PPLive为代表的P2P-TV体系结构、通信过程、报文结构以及系统特征,该文提出了一种实时的基... 基于P2P的IPTV(P2P-TV)是当前发展最为迅速的因特网应用之一,实时识别P2P-TV视频流是管理网络P2P-TV流量和理解网络行为的关键一步。通过分析以PPLive为代表的P2P-TV体系结构、通信过程、报文结构以及系统特征,该文提出了一种实时的基于爬虫的识别视频流CIVF算法和一种实时的基于协议特征的识别视频流PIVF算法,CIVF算法通过爬虫程序获取P2P-TV节点信息来识别P2P-TV视频流,而PIVF算法则基于视频流的通信时序和应用层负载特征实现实时识别。在因特网环境的试验分析结果表明,CIVF算法具有实现便捷但识别率不够高且节点信息残存时间较长的特点,PIVF算法则具有准确率较高、识别速度较快和扩展性强的特点。 展开更多
关键词 实时识别 P2P P2P-TV 爬虫 协议特征
下载PDF
基于用户行为分析的PPTV点播系统测量研究 被引量:5
3
作者 胡鑫 陈兴蜀 +1 位作者 王海舟 刘磊 《微电子学与计算机》 CSCD 北大核心 2011年第8期97-101,共5页
利用基于协议分析和逆向工程的主动测量方法对PPTV点播系统进行了研究,通过对PPTV点播协议进行分析,获悉该协议的通信格式和语义信息,总结出了PPTV点播系统的工作原理,在此基础上设计并实现了基于分布式网络爬虫的PPTV点播系统主动测量... 利用基于协议分析和逆向工程的主动测量方法对PPTV点播系统进行了研究,通过对PPTV点播协议进行分析,获悉该协议的通信格式和语义信息,总结出了PPTV点播系统的工作原理,在此基础上设计并实现了基于分布式网络爬虫的PPTV点播系统主动测量平台,并对该平台获取的用户数据进行统计分析,获得了PPTV点播系统部分用户行为特征.研究结果对P2P点播系统的监控及优化提供了研究方法. 展开更多
关键词 P2P点播 协议分析 爬虫 主动测量 行为特征
下载PDF
PPLive网络电视系统的测量研究 被引量:5
4
作者 王海舟 陈兴蜀 王文贤 《计算机应用》 CSCD 北大核心 2009年第7期1988-1991,共4页
对PPL ive进行了系统的研究,提出了相应的爬虫设计方案,并以该爬虫为平台对PPL ive网络进行了相关的主动测量,最后给出了PPL ive用户行为特征的相关分析。研究结果为PPL ive或其他基于P2P的IPTV系统测量研究提供了有效的方法。
关键词 对等网络技术 PPLive协议 PPLive爬虫 用户行为
下载PDF
一种基于正反馈的对等网络拓扑获取方法 被引量:1
5
作者 王勇 云晓春 +1 位作者 李奕飞 王晓锋 《计算机研究与发展》 EI CSCD 北大核心 2007年第9期1550-1556,共7页
精确有效的对等网络测量方法是解决其建模和网络设计优化难题的重要基础.对等网络是In-ternet上的一层覆盖网络,网络协议多样,节点及节点间的关系变化迅速,获得精确完整的对等网络拓扑数据面临很大困难.研究对等网络协议特点、分析特定... 精确有效的对等网络测量方法是解决其建模和网络设计优化难题的重要基础.对等网络是In-ternet上的一层覆盖网络,网络协议多样,节点及节点间的关系变化迅速,获得精确完整的对等网络拓扑数据面临很大困难.研究对等网络协议特点、分析特定的对等网络结构实体成为认识对等网络拓扑特性的一种可选研究方案.以Gnutella网络为测量对象,构造了正反馈结构的分布式Gnutella拓扑测量系统D-crawler;分析了系统实现中的主要算法;定义了拓扑数据准确性和完整性评价指标;实验验证了测量系统的性能.实验结果表明,D-crawler系统具有较好的节点信息获取速度,能够得到反映Gnutella网络特征的拓扑数据,数据准确. 展开更多
关键词 对等网络 拓扑测量 Gnutella网络协议 分布式爬行器 拓扑特征
下载PDF
基于改进Kademlia协议的分布式爬虫 被引量:5
6
作者 陶耀东 向中希 《计算机系统应用》 2016年第4期156-161,共6页
随着互联网信息的爆炸式增长,搜索引擎和大数据等学科迫切需要一种高效、稳定、可扩展性强的爬虫架构来完成数据的采集和分析.本文借助于对等网络的思路,使用分布式哈希表作为节点间的数据交互的载体,同时针对网络爬虫自身的特点,对分... 随着互联网信息的爆炸式增长,搜索引擎和大数据等学科迫切需要一种高效、稳定、可扩展性强的爬虫架构来完成数据的采集和分析.本文借助于对等网络的思路,使用分布式哈希表作为节点间的数据交互的载体,同时针对网络爬虫自身的特点,对分布式哈希表的一种实现——Kademlia协议进行改进以满足分布式爬虫的需求.在此基础上设计并完善了具有可扩展性和容错性的分布式爬虫集群.在实际试验中,进行了单机多线程实验和分布式集群的实验,从系统性能角度和系统负载角度进行分析,实验结果表明了这种分布式集群方法的有效性. 展开更多
关键词 分布式哈希表 P2P 网络爬虫 KADEMLIA协议 去中心化
下载PDF
网络爬虫行为的入罪路径及其限度 被引量:1
7
作者 詹红星 王李 《北京邮电大学学报(社会科学版)》 2023年第1期94-103,共10页
恶意爬虫蕴含计算机信息系统破坏、计算机信息系统侵入、计算机信息系统数据泄露三重风险,有必要对其进行刑事规制。为避免刑事打击泛化,应依据网络爬虫运行流程对其作出情景化区分,根据不同情境下网络爬虫所含风险特征作法律性质辨析,... 恶意爬虫蕴含计算机信息系统破坏、计算机信息系统侵入、计算机信息系统数据泄露三重风险,有必要对其进行刑事规制。为避免刑事打击泛化,应依据网络爬虫运行流程对其作出情景化区分,根据不同情境下网络爬虫所含风险特征作法律性质辨析,以此建构恶意爬虫入罪路径,并划定刑事规制范围。当数据抓取行为违反授权判断型技术措施、所抓取数据已侵害数据安全法益、达到相当危害程度,则属于恶意网络爬虫,应予刑事规制。 展开更多
关键词 网络爬虫 技术风险 反爬虫措施 爬虫协议 刑法规制
下载PDF
网络爬虫对网络安全的影响及其对策分析 被引量:7
8
作者 梁雪松 张容 《计算机与数字工程》 2009年第12期86-88,166,共4页
网络爬虫已经广泛应用于互联网,能完成许多有用的工作,同时也会对网络安全产生一定的负面影响。文章论述了网络爬虫对网络安全构成的威胁,并重点提出对其不利影响的应对策略。
关键词 网络爬虫 搜索引擎 机器人排除协议 WEB日志
下载PDF
向量空间协议爬虫动态污点Bug数据补齐算法
9
作者 朱琳 《科技通报》 北大核心 2014年第10期205-207,共3页
采用网络协议爬虫方法对Web网页跨站脚本的动态污点Bug进行检测和数据补齐,根本上保证Web安全。传统方法采用主成分分析和驱动爬虫方法进行Bug数据补齐,当用户提交的数据没有经过严格的过滤和验证的时,Bug漏洞不能得到有效检测。提出一... 采用网络协议爬虫方法对Web网页跨站脚本的动态污点Bug进行检测和数据补齐,根本上保证Web安全。传统方法采用主成分分析和驱动爬虫方法进行Bug数据补齐,当用户提交的数据没有经过严格的过滤和验证的时,Bug漏洞不能得到有效检测。提出一种基于向量空间动态污点传播模型的Web协议爬虫算法,实现对动态污点Bug检测与数据补齐,构建向量空间模型,计算Bug数据和漏洞检测中的模糊关系的隶属度,提取动态污点Bug数据模态特征进行网络爬虫,优化对动态污点数据的检测性能。仿真实验结果表明,该算法能提高数据补齐的准确性,聚类性好,收敛性提高,保证了系统安全防御的实时性,在Web程序安全设计中应用前景广阔。 展开更多
关键词 向量空间 协议爬虫 Bug数据补齐
下载PDF
一种多源统一爬虫框架的设计与实现 被引量:2
10
作者 潘洪涛 《软件工程》 2021年第4期30-33,共4页
面向深层网数据的爬虫技术与反爬虫技术之间的对抗随着网站技术、大数据、异步传输等技术的发展而呈现此消彼长的趋势。综合对比当前主流的爬虫和反爬虫技术,针对高效开发、快速爬取的需求,MUCrawler(多源统一爬虫框架)被设计成一种可... 面向深层网数据的爬虫技术与反爬虫技术之间的对抗随着网站技术、大数据、异步传输等技术的发展而呈现此消彼长的趋势。综合对比当前主流的爬虫和反爬虫技术,针对高效开发、快速爬取的需求,MUCrawler(多源统一爬虫框架)被设计成一种可以面向多个网站数据源,以统一的接口形式提供爬虫开发的Python框架。测试结果显示,该框架不但能够突破不同的反爬虫技术获取网站数据,在开发效率、鲁棒性和爬取效率等方面也体现出较好的运行效果。 展开更多
关键词 Python开发 网络爬虫 浏览器行为 HTTP请求
下载PDF
大数据时代网络爬虫行为刑法规制限度研究 被引量:23
11
作者 童云峰 《大连理工大学学报(社会科学版)》 CSSCI 北大核心 2022年第2期88-97,共10页
网络爬虫技术具有中立性,网络爬虫行为有善恶之分。恶意网络爬虫行为侵犯数据法益,符合相关犯罪构成要件,确实存在一定的刑事风险。然而,我国刑法理论对爬虫行为入罪讨论过剩、出罪研究不足;司法实践对网络爬虫行为的法律适用从民事侵... 网络爬虫技术具有中立性,网络爬虫行为有善恶之分。恶意网络爬虫行为侵犯数据法益,符合相关犯罪构成要件,确实存在一定的刑事风险。然而,我国刑法理论对爬虫行为入罪讨论过剩、出罪研究不足;司法实践对网络爬虫行为的法律适用从民事侵权、不正当竞争上升为刑事犯罪,且刑事判决日趋递增,使得网络爬虫行为刑事风险不断扩张,导致网络爬虫技术被污名化,甚至有被扼杀之危险,这一趋势在行为认定方面不断突破罪刑法定原则底线。必须明确网络爬虫行为合法性边界,抓取开放数据和单纯违反行业规则的爬虫行为无需适用刑法,突破反爬防护措施和抓取非开放数据并非都要承担刑事责任,从形式违法和实质侵害两个维度,具体划定网络爬虫行为刑法规制的限度。 展开更多
关键词 网络爬虫 爬虫协议 反爬措施 数据犯罪 规制限度
下载PDF
网络数据爬取行为的刑法规制研究--以非法获取计算机信息系统数据罪为视角 被引量:12
12
作者 郭玮 《新疆社会科学》 CSSCI 2020年第3期91-97,151,共8页
网络爬虫虽促进了网络数据流通与高效利用,也对网络数据的独占权利产生巨大威胁。网络安全、网络秩序价值及数据保护应受到重视,随着数据保护日渐风行,非法获取计算机信息系统数据罪的司法犯罪化应继续推进。该罪的违法性认识对象应为... 网络爬虫虽促进了网络数据流通与高效利用,也对网络数据的独占权利产生巨大威胁。网络安全、网络秩序价值及数据保护应受到重视,随着数据保护日渐风行,非法获取计算机信息系统数据罪的司法犯罪化应继续推进。该罪的违法性认识对象应为法律精神或法秩序,违法性认识能力的判断应结合社会公众一般认知与行为人的个体情况,重点考察行业情况、相关先例以及客观行为。不同于“侵入”,爬取行为可视为“其他技术手段”,只有在对方设置的Robots协议有效或被爬取的数据用于不正当竞争的情形下,造成对方实际损失的爬取行为才具备刑事可罚性。 展开更多
关键词 网络爬虫 Robots协议 网络数据 不正当竞争
下载PDF
网络爬虫获取数据的商业秘密规制路径研究 被引量:4
13
作者 陈立彤 赵云虎 +2 位作者 刘骥 张建民 赵中星 《信息安全研究》 2020年第8期751-758,共8页
人类社会已经进入大数据时代,大数据获取是整个大数据产业链中的重要环节,通过网络爬虫获取数据是一种重要的数据获取方式.为了限制爬虫获取数据,企业会通过爬虫排除协议,以及采取其他技术措施的方式对网络爬虫进行反爬.司法实践中已经... 人类社会已经进入大数据时代,大数据获取是整个大数据产业链中的重要环节,通过网络爬虫获取数据是一种重要的数据获取方式.为了限制爬虫获取数据,企业会通过爬虫排除协议,以及采取其他技术措施的方式对网络爬虫进行反爬.司法实践中已经有相当数量的案例认定网络爬虫获取数据的行为构成了对计算机信息系统数据、个人信息、受版权保护的作品及邻接权保护客体等相关法益的侵害,但目前几乎没有将爬虫获取数据认定为侵害商业秘密的公开案例.爬虫排除协议是互联网领域普遍接受的商业习惯,具有法律上的约束力,且反爬技术措施的保护强度并不弱于司法解释所列举的保护措施的强度,通过商业秘密对网络爬虫获取数据的行为进行规制具有可行性. 展开更多
关键词 网络爬虫 爬虫排除协议 保密措施 商业秘密 数据 规制
下载PDF
基于网站访问行为的匿名爬虫检测 被引量:2
14
作者 邹建鑫 李红灵 《计算机技术与发展》 2017年第12期103-107,114,共6页
通过分析和研究网络爬虫访问网页内容的行为,针对恶意网络爬虫伪装成浏览器访问网站难以甄别、网站日志检测工具不支持匿名网络爬虫检测等问题,总结了一些基于机器人排斥协议和基于爬虫行为的恶意网络爬虫检测算法。通过这些网络爬虫检... 通过分析和研究网络爬虫访问网页内容的行为,针对恶意网络爬虫伪装成浏览器访问网站难以甄别、网站日志检测工具不支持匿名网络爬虫检测等问题,总结了一些基于机器人排斥协议和基于爬虫行为的恶意网络爬虫检测算法。通过这些网络爬虫检测算法的启发,提出一种基于爬虫行为的检测匿名爬虫算法。该算法主要根据人为访问网站与网络爬虫访问网站时间的长短、访问的周期等,对网络爬虫进行检测,同时对算法进行了实验验证。实验数据来自一个服务器的网络日志。应用Python对实验数据进行处理,从而对网络匿名爬虫进行检测,并与当前主流的匿名网络爬虫检测算法进行比较。结果表明,该算法能够检测出并发量小的匿名的网络爬虫。 展开更多
关键词 网络爬虫 网络机器人排斥协议 网站访问行为 匿名爬虫检测
下载PDF
移动互联网不良信息监控过滤技术的比较分析 被引量:1
15
作者 李磊 林津如 《移动通信》 2015年第9期44-48,共5页
针对智能终端的普及所带来的网络信息安全问题,分析了传统互联网与移动互联网的上网方式和接入方式的差别。着重阐述了移动互联网的监控方法,同时结合用户移动性管理的具体应用,提出了一套针对移动互联网不良信息的识别和治理方法。
关键词 深度包解析 中国移动互联网 爬虫技术 网络协议逆向解析技术
下载PDF
引入Scrapy框架的Python网络爬虫应用研究 被引量:5
16
作者 黎妍 肖卓宇 《福建电脑》 2021年第10期58-60,共3页
为了解决传统网络爬虫对大型Web网站信息提取效率不高的问题,本文提出了一种引入Scrapy框架的Python网络爬虫提取方法。通过对主流网站进行信息提取,本文的方法显示出了较好的应用效果,实现了对大型经典网站的信息提取。
关键词 网络爬虫 Requests API Scrapy框架 反爬虫 Robots协议
下载PDF
基于网络爬虫的电网大数据智能挖掘技术研究 被引量:10
17
作者 冯昊 劳咏昶 +2 位作者 叶玲洁 孙秋洁 康泰峰 《电子设计工程》 2019年第16期161-164,169,共5页
传统Libpcap电网大数据挖掘策略不能对网络占用资源进行按需分配,为解决此问题,设计基于网络爬虫的新型电网大数据智能挖掘技术模型。通过设置网络爬虫TCP/IP协议栈的方式,对电网大数据进行布局分配,进而达到校验与拷贝数据的目的,完成... 传统Libpcap电网大数据挖掘策略不能对网络占用资源进行按需分配,为解决此问题,设计基于网络爬虫的新型电网大数据智能挖掘技术模型。通过设置网络爬虫TCP/IP协议栈的方式,对电网大数据进行布局分配,进而达到校验与拷贝数据的目的,完成电网大数据的采集分析。在此基础上,利用最大挖掘权限匹配结果与网络爬虫聚类普的智能排序准则,解决层次结构间的挖掘数据传输问题,实现新型电网大数据智能挖掘技术模型的搭建。对比实验结果表明,与传统方法相比,应用所提技术模型后未占用网络资源上限提升明显,单位时间内资源分配量突破8.0×109T,网络占用资源实现了真正意义上的按需分配。 展开更多
关键词 网络爬虫 智能电网 数据挖掘 TCP/IP协议栈 校验拷贝 权限匹配
下载PDF
分布式爬虫系统中URL去重的设计与实现 被引量:2
18
作者 陈宇伦 周奎 《现代信息科技》 2019年第11期105-106,110,共3页
目前全球URL总数在350亿以上,在满足时效性的前提下,越来越多地选择采用分布式爬虫技术,它可以快速高效地从Web中获取有价值的数据。基于Redis数据库设计一种相关去重协议,实现URL去重,有利于提高分布式系统的稳定性和高效性,以及保持... 目前全球URL总数在350亿以上,在满足时效性的前提下,越来越多地选择采用分布式爬虫技术,它可以快速高效地从Web中获取有价值的数据。基于Redis数据库设计一种相关去重协议,实现URL去重,有利于提高分布式系统的稳定性和高效性,以及保持整个系统对URL去重的一致性。 展开更多
关键词 分布式爬虫系统 URL去重 URL去重协议
下载PDF
数字经济背景下数据爬取行为的不正当竞争规制--以司法裁判路径为视角
19
作者 林静 《福建金融管理干部学院学报》 2022年第4期47-52,64,共7页
当前司法实践对数据爬取纠纷采取静态的权利路径规制,从数据控制者享有的数据权利出发,以是否违反数据爬虫协议作为判定爬取行为正当性的关键因素,存在利益保护单向化问题,无法应对不断涌现的数据市场新型行为这一认定困境。鉴于国内外... 当前司法实践对数据爬取纠纷采取静态的权利路径规制,从数据控制者享有的数据权利出发,以是否违反数据爬虫协议作为判定爬取行为正当性的关键因素,存在利益保护单向化问题,无法应对不断涌现的数据市场新型行为这一认定困境。鉴于国内外数据爬取行为不正当竞争的裁判思路转变,司法机关在适用反不正当竞争法第2条规制数据爬取不正当竞争纠纷时,需要以公平、效率等竞争法基本价值为导向,转向以数据利益权衡为路径的结果导向型裁判思路。 展开更多
关键词 爬虫协议 竞争法规制 多元利益平衡 竞争发展 协同治理
下载PDF
Robots Exclusion and Guidance Protocol
20
作者 Dajie Ge Zhijun Ding 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2016年第6期643-659,共17页
With the rapid development of the Internet, general-purpose web crawlers have increasingly become unable to meet people's individual needs as they are no longer efficient enough to fetch deep web pages. The presence ... With the rapid development of the Internet, general-purpose web crawlers have increasingly become unable to meet people's individual needs as they are no longer efficient enough to fetch deep web pages. The presence of several deep web pages in the websites and the widespread use of Ajax make it difficult for generalpurpose web crawlers to fetch information quickly and efficiently. On the basis of the original Robots Exclusion Protocol(REP), a Robots Exclusion and Guidance Protocol(REGP) is proposed in this paper, by integrating the independent scattered expansions of the original Robots Protocol developed by major search engine companies.Our protocol expands the file format and command set of the REP as well as two labels of the Sitemap Protocol.Through our protocol, websites can express their aspects of requirements for restrictions and guidance to the visiting crawlers, and provide a general-purpose fast access of deep web pages and Ajax pages for the crawlers,and facilitates crawlers to easily obtain the open data on websites effectively with ease. Finally, this paper presents a specific application scenario, in which both a website and a crawler work with support from our protocol. A series of experiments are also conducted to demonstrate the efficiency of the proposed protocol. 展开更多
关键词 deep web AJAX crawler protocol
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部