期刊文献+
共找到1,727篇文章
< 1 2 87 >
每页显示 20 50 100
基于Scrapy框架的分布式网络爬虫系统设计
1
作者 何佳知 《电子产品世界》 2024年第6期31-34,共4页
为保证网络爬虫抓取效率和稳定性,通过应用Scrapy框架,完成对分布式网络爬虫系统的设计。首先,介绍网络爬虫工作原理、Scrapy框架等相关技术。其次,在设计系统架构和系统数据库的基础上,分别设计代理池服务、实体管道、网页判重、网页... 为保证网络爬虫抓取效率和稳定性,通过应用Scrapy框架,完成对分布式网络爬虫系统的设计。首先,介绍网络爬虫工作原理、Scrapy框架等相关技术。其次,在设计系统架构和系统数据库的基础上,分别设计代理池服务、实体管道、网页判重、网页下载等模块。最后,测试系统性能。结果显示,设计的系统具有网页抓取成功率高、运行效率高等特点,符合预期设计标准和要求,可以为相关人员提供有效的借鉴和参考。 展开更多
关键词 scrapy框架 分布式 网络爬虫系统
下载PDF
基于网络爬虫技术的网络招聘信息分析
2
作者 黄媛 《长江工程职业技术学院学报》 CAS 2024年第3期30-34,共5页
随着互联网技术的飞速发展,网上招聘信息的分析吸引了越来越多的人的注意。这些信息通常是非结构化的,并且包含大量的数据。为了获得结构化的岗位招聘信息,我们采用了爬虫技术进行数据类岗位的数据采集与分析,克服了传统分析方法的不足... 随着互联网技术的飞速发展,网上招聘信息的分析吸引了越来越多的人的注意。这些信息通常是非结构化的,并且包含大量的数据。为了获得结构化的岗位招聘信息,我们采用了爬虫技术进行数据类岗位的数据采集与分析,克服了传统分析方法的不足,分析了重点城市中该岗位的分类、学历要求、工作经验等,其结果为大专院校计算机类人才培养提供参考。 展开更多
关键词 网络爬虫 招聘信息 分析
下载PDF
基于OBE理念与PDCA循环的数据采集与网络爬虫课程教学创新设计
3
作者 王娜 张燕华 周章金 《信息与电脑》 2024年第15期250-252,256,共4页
数据采集与网络爬虫具有应用范围广、实用性强等特点,学生普遍学习兴趣较高。但传统教学模式侧重知识传授,难以满足社会对大数据人才的需求。成果导向教育(Outcome based education,OBE)理念强调学习成果,这与人才能力导向需求相吻合。... 数据采集与网络爬虫具有应用范围广、实用性强等特点,学生普遍学习兴趣较高。但传统教学模式侧重知识传授,难以满足社会对大数据人才的需求。成果导向教育(Outcome based education,OBE)理念强调学习成果,这与人才能力导向需求相吻合。计划–执行–检查–行动(Plan-Do-Check-Act,PDCA)循环是全面质量管理遵循的科学程序,它构成了持续改进的基本方法和框架。本文将OBE理念与PDCA循环相融合,以学生为核心,以成果为导向,以问题为抓手,对数据采集与网络爬虫课程中的教学设计、教学实施、教学评价和教学反思四个过程进行了创新设计,期望实现课程质量的持续改进,培养学生的编程能力、自主学习能力及分析解决问题的能力。 展开更多
关键词 OBE PDCA 数据采集与网络爬虫
下载PDF
Scrapy框架下分布式网络爬虫数据采集算法仿真 被引量:3
4
作者 刘多林 吕苗 《计算机仿真》 北大核心 2023年第6期504-508,共5页
为提高数据采集速度、避免重复采集,提出Scrapy框架下分布式网络爬虫数据采集算法。利用搜索引擎、调度器、下载器、数据解析等模块建立Scrapy框架,明确爬虫体系内包括分布式计算与储存两部分;为确保爬虫过程负载均衡,将爬虫速度作为评... 为提高数据采集速度、避免重复采集,提出Scrapy框架下分布式网络爬虫数据采集算法。利用搜索引擎、调度器、下载器、数据解析等模块建立Scrapy框架,明确爬虫体系内包括分布式计算与储存两部分;为确保爬虫过程负载均衡,将爬虫速度作为评价指标,计算节点权重;使用蚁群优化算法,采用伪随机规则,获取智能体的网页转移概率,确定爬取路径,更新每条路径的信息素浓度,根据目标函数距离选取目标解;综合分析数据特征向量,计算链接的主题相似度,将相似度较高的链接放入待爬取集合中,得出数据间的重合度影响因子,避免重复采集,当信息素浓度降到最低时停止爬虫操作,完成采集工作。仿真结果证明,所提方法爬准率与爬全率较高,可提升数据采集速度。 展开更多
关键词 分布式系统 网络爬虫 数据采集 节点权重
下载PDF
基于主题爬虫的网络舆情系统设计与实现
5
作者 江官星 黄卫 《无线互联科技》 2024年第14期33-35,50,共4页
网络舆情具有快速、广泛传播的特征,发酵扩散时间极短,若未及时发现并妥善处置,可能会引发网络舆情危机,造成严重的危害与影响。为净化网络环境,减少网络舆情爆发所产生的损失,文章以网络爬虫技术为基础,设计了基于主题爬虫的网络舆情... 网络舆情具有快速、广泛传播的特征,发酵扩散时间极短,若未及时发现并妥善处置,可能会引发网络舆情危机,造成严重的危害与影响。为净化网络环境,减少网络舆情爆发所产生的损失,文章以网络爬虫技术为基础,设计了基于主题爬虫的网络舆情监测管理系统。首先,文章阐述了此系统设计思路,分别介绍了系统架构设计、系统功能设计、系统安全设计3个方面内容。最后,文章依次给出了舆情采集、舆情监测、舆情分析、舆情预警、舆情处置5个主要功能的实现方法,旨在为相关部门科学监控与处置网络舆情提供可靠的软件系统。 展开更多
关键词 主题爬虫 网络舆情 系统设计 功能实现
下载PDF
网络爬虫行为侵犯公民个人信息入罪标准的认定现状与完善路径
6
作者 郭晓燕 王皓民 《广西警察学院学报》 2024年第4期66-75,共10页
司法实践中,网络爬虫行为侵犯公民个人信息的案件呈逐年增长趋势,其中侵犯公民个人信息罪是网络爬虫行为最常触犯的罪名。通过对相关案例进行梳理发现,法院在认定网络爬虫行为构成侵犯公民个人信息罪时存在一些问题:一是法院对“公民个... 司法实践中,网络爬虫行为侵犯公民个人信息的案件呈逐年增长趋势,其中侵犯公民个人信息罪是网络爬虫行为最常触犯的罪名。通过对相关案例进行梳理发现,法院在认定网络爬虫行为构成侵犯公民个人信息罪时存在一些问题:一是法院对“公民个人信息”的界定有扩大化倾向;二是关于“违反国家有关规定”的前置条件解释不清;三是对于“非法获取”认定不明。针对上述问题,首先需要明确对“公民个人信息”的界定要围绕“可识别性”展开,明确间接个人信息的边界;其次,基于罪刑法定的基本原则,需对“违反国家有关规定”进行限缩解释;最后,要在知情同意原则的基础上明确“非法获取”的边界。 展开更多
关键词 网络爬虫技术 侵犯公民个人信息罪 入罪认定标准
下载PDF
基于Java的网络爬虫算法的实现
7
作者 李晖 《电脑与信息技术》 2024年第3期1-4,共4页
该设计在实现多个抓取线程管理和利用线程池发送抓取网页的同时,采用非递归爬行算法,利用Java多线程技术和基于内存的作业队列来增加、分配和处理运行过程中的URL。搜索引擎简易客户端的设计最终采用JSP(Java Server Pages)技术完成。
关键词 网络爬虫 搜索引擎 JSP
下载PDF
网络爬虫行为版权侵权的行政规制 被引量:1
8
作者 莫张勤 卢易 《北京邮电大学学报(社会科学版)》 2024年第1期59-65,75,共8页
网络爬虫是一项能够根据指令自动搜索并抓取指定网络信息内容的新兴互联网技术,存在被滥用之风险。作为爬取网络版权数据信息的工具,网络爬虫行为版权侵权现象时有发生。目前,对于网络爬虫行为版权侵权的规制多见于民法与刑法领域,忽视... 网络爬虫是一项能够根据指令自动搜索并抓取指定网络信息内容的新兴互联网技术,存在被滥用之风险。作为爬取网络版权数据信息的工具,网络爬虫行为版权侵权现象时有发生。目前,对于网络爬虫行为版权侵权的规制多见于民法与刑法领域,忽视了行政规制。目前存在的网络爬虫行为侵权规制过于依赖司法手段、缺乏针对网络爬虫行为的必要规范以及行政机关针对网络爬虫行为的互联网监管缺失等问题,阻碍了网络爬虫行为版权侵权行政规制的应用与发展。对此,可以从构建网络爬虫行为版权侵权的全覆盖预警系统、完善网络爬虫行为版权规范内容和设置网络爬虫使用者自律管理义务等方面着手,充分利用行政手段遏制网络爬虫行为版权侵权,保护版权权利人的合法权益。 展开更多
关键词 网络爬虫 网络爬虫行为 版权侵权 行政规制
下载PDF
网络爬虫行政、民事、刑事一体化治理路径构建研究
9
作者 冯宇轩 王震 《西安石油大学学报(社会科学版)》 2024年第1期100-106,共7页
网络爬虫作为一项衍生于数据化时代的新兴技术在当下已然具有不可估量的积极效能,然而其中更值得给予关注的是其背后盘根错节的法律风险。在对网络爬虫的概念以及其正反层面的影响进行剖析后可发现,在实行客观违法并合主观故意的基础上... 网络爬虫作为一项衍生于数据化时代的新兴技术在当下已然具有不可估量的积极效能,然而其中更值得给予关注的是其背后盘根错节的法律风险。在对网络爬虫的概念以及其正反层面的影响进行剖析后可发现,在实行客观违法并合主观故意的基础上,通过所爬取的数据类型映射的不同法益认定不同罪名的规制方式实然存在许多偏颇之处,因此需要通过健全行刑衔接机制、以广义授权整体外化客观行为、明晰所爬取数据法益实质归属等途径,联动行政、民事、刑事视域进行一体化治理,以创制网络爬虫治理的全新模式。 展开更多
关键词 网络爬虫 robots协议 爬虫机制 数据法益 一体化治理
下载PDF
基于刑事合规视域的网络爬虫刑法规制研究
10
作者 杨心悦 储育明 《梧州学院学报》 2024年第4期1-8,共8页
恶意的网络爬虫具有侵犯刑法所保护的数据法益、个人信息权益和著作权利的刑事风险,有必要通过刑法进行规制。面对网络爬虫刑法风险不断扩张的情况,刑法规制必须在数据爬取方法为突破技术防护措施、数据爬取类型为开放数据和数据爬取类... 恶意的网络爬虫具有侵犯刑法所保护的数据法益、个人信息权益和著作权利的刑事风险,有必要通过刑法进行规制。面对网络爬虫刑法风险不断扩张的情况,刑法规制必须在数据爬取方法为突破技术防护措施、数据爬取类型为开放数据和数据爬取类型为违法数据3个层面作出限制要求。因此,引入刑事合规的理念,设立规范数据采集、个人信息以及著作权内容爬取的专项合规规则可以平衡犯罪打击与数据流通。通过限制网络爬虫爬取数据的刑事责任,规定爬取公开个人信息的可罚性和确定爬取受著作权保护内容的可罚性的方式,达到完善网络爬虫刑法规制的目的。 展开更多
关键词 网络爬虫 刑事合规 刑法规制
下载PDF
基于机器学习的Web网络爬虫算法优化研究
11
作者 刘俊培 贾继洋 +2 位作者 班岚 迟欢 孙沛叶 《软件》 2024年第4期4-7,共4页
随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率... 随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率低下、容易被封禁等。因此,本文对现有的网络爬虫算法进行分析和总结,找出其中存在的问题和不足之处,提出一种基于机器学习的网络爬虫算法优化方法,使其更加智能和自适应,以期更好地满足实际应用的需求。 展开更多
关键词 机器学习 Web网络爬虫算法 算法优化
下载PDF
主题网络爬虫研究综述 被引量:1
12
作者 刘晓旭 《电脑知识与技术》 2024年第8期97-99,共3页
近年来,随着互联网技术的迅猛发展,互联网数据规模呈现出指数级增长的趋势。这些庞大的互联网数据在给人们生活带来便利的同时,也给信息的查找带来了巨大的挑战。传统的通用网络爬虫在面对越来越大规模的数据抓取工作时,逐渐显得力不从... 近年来,随着互联网技术的迅猛发展,互联网数据规模呈现出指数级增长的趋势。这些庞大的互联网数据在给人们生活带来便利的同时,也给信息的查找带来了巨大的挑战。传统的通用网络爬虫在面对越来越大规模的数据抓取工作时,逐渐显得力不从心。随着用户对网络信息个性化需求的不断增加,主题网络爬虫作为一种创新的解决方案应运而生。文章详细阐述了主题网络爬虫的定义及其工作原理,并系统梳理了近几年来主题网络爬虫在国内外的研究状况。同时,我们也指出了当前存在的问题,并提出了进一步研究的方向,以期为主题网络爬虫的发展和完善提供有益的参考。 展开更多
关键词 网络爬虫 主题爬虫 搜索策略 链接分析 相关度计算
下载PDF
融合ChatGPT的智能化Selenium网络爬虫设计与实现
13
作者 刘逸凯 吴瑰 《现代信息科技》 2024年第14期69-75,共7页
针对现代信息社会海量数据的提取难度,开发一种集成ChatGPT的自动化网络爬虫系统。将信息呈现给用户,降低了使用门槛,结合系统的设计和实施,展示其在实际运用中的效果,实验结果证明,利用Selenium技术自动执行爬取操作,降低数据提取难度... 针对现代信息社会海量数据的提取难度,开发一种集成ChatGPT的自动化网络爬虫系统。将信息呈现给用户,降低了使用门槛,结合系统的设计和实施,展示其在实际运用中的效果,实验结果证明,利用Selenium技术自动执行爬取操作,降低数据提取难度,提升数据信息抓取的准确性。功能测试结果显示,该系统有效提高了数据的使用率,为普通用户从网络中提取信息提供了新的途径。用户的信息挖掘和知识获取需求,促进自动化网络爬虫技术的发展和应用。 展开更多
关键词 ChatGPT SELENIUM 网络爬虫 自动化
下载PDF
基于改进网络爬虫技术的高性能计算机程序切片级漏洞检测方法
14
作者 李姝 《信息技术与信息化》 2024年第4期200-203,共4页
由于高性能计算机程序通常具有复杂的结构和庞大的代码量,切片级漏洞往往隐藏在这些程序的深处,难以被轻易发现。为此,提出一种基于改进网络爬虫技术的高性能计算机程序切片级漏洞检测方法。将传统的单线程网络爬虫改进为多线程网络爬虫... 由于高性能计算机程序通常具有复杂的结构和庞大的代码量,切片级漏洞往往隐藏在这些程序的深处,难以被轻易发现。为此,提出一种基于改进网络爬虫技术的高性能计算机程序切片级漏洞检测方法。将传统的单线程网络爬虫改进为多线程网络爬虫,通过改进后的网络爬虫技术,同时处理多个高性能计算机程序信息的抓取任务,高效爬取计算机程序网页信息。在爬取到的信息中,进行去重处理。根据预设的切片准则,对去重后的信息进行细致切片,提取出可能存在漏洞的计算机程序切片级可疑信息。对可疑信息聚类分析,将相似特征和模式的漏洞切片归为一类,能够准确地识别和检测出高性能计算机程序中的切片级漏洞。实验结果显示,所设计方法在误报率和漏报率方面均控制在1%以下,由此证明其在高性能计算机程序切片级漏洞精准检测方面的有效性。 展开更多
关键词 改进网络爬虫技术 高性能计算机程序 切片级漏洞 多线程网络爬虫 聚类分析
下载PDF
基于Python的多线程网络爬虫系统的研究与实现
15
作者 刘莹 《无线互联科技》 2024年第14期44-46,共3页
网络爬虫是通过编写程序模拟浏览器访问服务器、获取目标数据的方法。在大数据环境下,爬虫速度成为影响网络爬虫性能的重要评价条件之一。Python语言因其丰富的第三方库,被广泛应用于网络爬虫及数据分析等场景。文章基于Python编程语言... 网络爬虫是通过编写程序模拟浏览器访问服务器、获取目标数据的方法。在大数据环境下,爬虫速度成为影响网络爬虫性能的重要评价条件之一。Python语言因其丰富的第三方库,被广泛应用于网络爬虫及数据分析等场景。文章基于Python编程语言,以提高网络爬虫速度为目的,探讨实现网络爬虫速度提升的方案,并以某网站智能图片爬取为例实现多线程爬虫系统。 展开更多
关键词 Python技术 网络爬虫 大数据 多线程
下载PDF
大数据时代下网络爬虫行为的刑法规制 被引量:1
16
作者 姜岚 《中阿科技论坛(中英文)》 2024年第4期163-167,共5页
在大数据时代,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生。从网络爬虫的相关案例来看,其使用者往往有充分的理由做出可能涉嫌违法的数据抓取行为。因此,有必要对网络爬虫行为进行刑法规制。然而,针对网络爬虫行为,现... 在大数据时代,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生。从网络爬虫的相关案例来看,其使用者往往有充分的理由做出可能涉嫌违法的数据抓取行为。因此,有必要对网络爬虫行为进行刑法规制。然而,针对网络爬虫行为,现行的刑法规制路径存在入罪标准模糊不清、难以区分此罪与彼罪等困境,因此很有必要重构其刑法规制路径。文章认为,应通过数据的访问权限和开放程度双重标准明确网络爬虫行为罪与非罪的界限。并将网络爬虫行为分为2个行为阶段(非法访问行为和非法获取行为)加以分析:非法访问行为可能构成计算机犯罪,针对非法获取行为,应根据行为所侵犯的具体法益来定罪;根据罪数理论确定具体罪名。 展开更多
关键词 大数据 网络爬虫 刑法规制
下载PDF
利用网络爬虫技术侵犯著作权犯罪案件侦查难点与对策研究
17
作者 张政 朱军 王敏 《云南警官学院学报》 2024年第5期84-90,共7页
网络爬虫技术作为一种新型互联网技术,因其高效率、精准性等特点而被应用于各个领域。不法分子将该网络技术作为犯罪工具实施侵犯著作权犯罪,严重侵犯了著作权利人的合法权益。网络爬虫技术侵犯著作权犯罪具有隐蔽性、传播速度快等特点... 网络爬虫技术作为一种新型互联网技术,因其高效率、精准性等特点而被应用于各个领域。不法分子将该网络技术作为犯罪工具实施侵犯著作权犯罪,严重侵犯了著作权利人的合法权益。网络爬虫技术侵犯著作权犯罪具有隐蔽性、传播速度快等特点,犯罪行为性质、犯罪数额认定以及电子证据收集难度不断增加。建议采取加强内外协作配合、多维度侦查取证、建立健全技术调查官制度等对策,形成打击网络爬虫技术侵犯著作权犯罪新机制。 展开更多
关键词 网络爬虫技术 侵犯著作权犯罪 侦查难点 侦查对策
下载PDF
基于网络爬虫技术的财务大数据采集系统设计
18
作者 周玮 《中国新技术新产品》 2024年第3期37-40,共4页
随着大数据技术的发展,金融领域对大数据分析的需求不断增加。采集大规模的财务数据是进行深度分析、建立预测模型和识别趋势的基础。因此,本文设计了基于网络爬虫技术的财务大数据采集系统,旨在从多个数据源中自动获取、清洗、分析和... 随着大数据技术的发展,金融领域对大数据分析的需求不断增加。采集大规模的财务数据是进行深度分析、建立预测模型和识别趋势的基础。因此,本文设计了基于网络爬虫技术的财务大数据采集系统,旨在从多个数据源中自动获取、清洗、分析和存储财务数据。该系统的设计包括网络爬虫采集模块、数据处理模块和数据存储模块,充分考虑了数据的多样性和复杂性,以满足金融市场的需求。通过对系统性能进行测试,验证了系统的稳定性和可扩展性,并展示了该系统在实际应用中的潜力。 展开更多
关键词 网络爬虫技术 财务系统 大数据 信息采集
下载PDF
网络著作权诉讼的正当性缺失与修正——基于网络爬虫、商业化维权的视角分析
19
作者 马驰升 王楠 《西华师范大学学报(哲学社会科学版)》 2024年第1期78-85,共8页
大数据时代来临,由网络爬虫技术的普及引起的商业化维权现象凸显,现有网络著作诉讼程序在解决网络著作权纠纷时产生了不公正的现象。由于网络爬虫的技术特性以及司法资源有限的情况,著作权人为维护利益往往采用共同诉讼形式。然而鉴于... 大数据时代来临,由网络爬虫技术的普及引起的商业化维权现象凸显,现有网络著作诉讼程序在解决网络著作权纠纷时产生了不公正的现象。由于网络爬虫的技术特性以及司法资源有限的情况,著作权人为维护利益往往采用共同诉讼形式。然而鉴于共同诉讼侵权主体和侵权目的认定困难,再加上网络隐蔽性和电子证据收集和认定的复杂性,著作权人主动或被动地选择商业化维权,加剧了网络著作权诉讼正当性的缺失,其内在表现为著作权人维权理念的失衡、网络爬虫技术使用者的认知偏差和司法审判机制的失效,其成因涉及法社会学、法经济学和法哲学等多个方面。为修正网络著作权诉讼正当性的缺失,平衡著作权人权利保护与作品的创作和传播,应从遵循自由市场规律、改变诉讼效益途径和完善著作权诉讼制度三个维度入手,以适应网络技术的发展与社会公共利益的需求。 展开更多
关键词 网络爬虫 商业化维权 著作权诉讼
下载PDF
基于大数据的深度学习网络爬虫算法在信息搜集与处理中的应用
20
作者 于平 《科技资讯》 2024年第16期55-57,共3页
旨在利用大数据和深度学习技术优化网络爬虫算法,以更好地满足信息搜集与处理的需求。首先,使用大数据技术进行数据收集;其次,引入词频反转文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)权重作为输入特征的初始权重,并... 旨在利用大数据和深度学习技术优化网络爬虫算法,以更好地满足信息搜集与处理的需求。首先,使用大数据技术进行数据收集;其次,引入词频反转文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)权重作为输入特征的初始权重,并利用传播激活算法来优化爬虫算法;最后,对多模态信息进行整合。为了测试基于大数据的深度学习网络爬虫算法在信息搜集与处理中的应用效果,将其与传统方法进行了比较。通过实验发现,在统一资源定位器(Uniform Resource Locator,URL)数量为10000时,提出的方法的覆盖率可达92.9%,而传统方法的覆盖率仅为73.7%。研究表明:所提出的基于大数据的深度学习网络爬虫算法在信息收集方面具有更高的覆盖率和更好的准确性。 展开更多
关键词 网络爬虫算法 深度学习 信息收集和处理 大数据
下载PDF
上一页 1 2 87 下一页 到第
使用帮助 返回顶部