期刊文献+
共找到370篇文章
< 1 2 19 >
每页显示 20 50 100
编制价格指数的爬虫数据抽样方法研究
1
作者 雷兵 梁凯凯 刘维 《统计与决策》 CSSCI 北大核心 2024年第12期24-28,共5页
文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算... 文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算法及其轮廓系数实现总体数据分层,并通过不等概率随机抽样获取各层代表性样本;考虑到连续性调查中入选样本存在无回答现象,提出正式和备选样本思路,针对每个正式样本,采用最近邻匹配法挑选若干个备选样本,当正式样本无回答时,以备选样本作为替补来完成价格指数编制。以天猫商城粮油品类为例进行验证,结果表明:在抓取的数据中,基期全量爬虫数据有18351条,第2—8期连续性调查的平均抽样比为10.18%,抽样的平均相对误差为0.59%,说明该方法是可行的。 展开更多
关键词 价格指数 爬虫数据 分层抽样 聚类算法 样本匹配
下载PDF
基于OBE理念与PDCA循环的数据采集与网络爬虫课程教学创新设计
2
作者 王娜 张燕华 周章金 《信息与电脑》 2024年第15期250-252,256,共4页
数据采集与网络爬虫具有应用范围广、实用性强等特点,学生普遍学习兴趣较高。但传统教学模式侧重知识传授,难以满足社会对大数据人才的需求。成果导向教育(Outcome based education,OBE)理念强调学习成果,这与人才能力导向需求相吻合。... 数据采集与网络爬虫具有应用范围广、实用性强等特点,学生普遍学习兴趣较高。但传统教学模式侧重知识传授,难以满足社会对大数据人才的需求。成果导向教育(Outcome based education,OBE)理念强调学习成果,这与人才能力导向需求相吻合。计划–执行–检查–行动(Plan-Do-Check-Act,PDCA)循环是全面质量管理遵循的科学程序,它构成了持续改进的基本方法和框架。本文将OBE理念与PDCA循环相融合,以学生为核心,以成果为导向,以问题为抓手,对数据采集与网络爬虫课程中的教学设计、教学实施、教学评价和教学反思四个过程进行了创新设计,期望实现课程质量的持续改进,培养学生的编程能力、自主学习能力及分析解决问题的能力。 展开更多
关键词 OBE PDCA 数据采集与网络爬虫
下载PDF
基于资源感知的分布式爬虫任务调度方法
3
作者 张军 魏继桢 李钰彬 《现代电子技术》 北大核心 2024年第9期86-90,共5页
文中致力于开发一种基于资源感知的分布式爬虫任务调度方法,以优化分布式环境中各节点的系统资源利用,提升爬虫任务的执行效率。该方法通过引入资源感知调度算法和节点优先级管理,实现对节点中CPU、内存、网络等资源的监测,以便均衡调... 文中致力于开发一种基于资源感知的分布式爬虫任务调度方法,以优化分布式环境中各节点的系统资源利用,提升爬虫任务的执行效率。该方法通过引入资源感知调度算法和节点优先级管理,实现对节点中CPU、内存、网络等资源的监测,以便均衡调度爬虫任务,即确保爬虫任务在资源利用率较低的节点上执行,从而有效减轻各个节点之间资源过度占用和不均衡问题。另外,该方法引入的Flask提高了可扩展性,实现了可视化爬虫监控平台。实验结果表明,文中提出的方法在提高爬虫任务执行效率和适应性方面取得了显著效果,为分布式爬虫系统的进一步优化提供了有益指导。 展开更多
关键词 分布式爬虫 任务调度 资源感知 FLASK 数据采集 资源利用率
下载PDF
大数据时代数据抓取行为的竞争法规制与反思
4
作者 丁国峰 王静 《贵阳学院学报(社会科学版)》 2024年第5期68-73,共6页
作为数据时代的新型商业行为,数据抓取既具有中立性,也具有竞争性,体现了平台企业间数据共享利益与数据竞争利益之间的博弈。我国竞争法对数据抓取行为的规制主要适用一般条款与互联网专条,然而条款的模糊性、商业道德的不确定性、法官... 作为数据时代的新型商业行为,数据抓取既具有中立性,也具有竞争性,体现了平台企业间数据共享利益与数据竞争利益之间的博弈。我国竞争法对数据抓取行为的规制主要适用一般条款与互联网专条,然而条款的模糊性、商业道德的不确定性、法官的权益侵害式判断逻辑都不利于对数据抓取行为正当性的合理界定。实践中应当从数据抓取的行为本身出发,秉承社会福祉最大化理念,运用狭义比例原则对数据抓取行为进行衡量。 展开更多
关键词 数据抓取 网络爬虫 反不正当竞争法 法律规制
下载PDF
基于区块链技术的旅游服务及可视化分析系统设计
5
作者 丁宇阳 胡涵 +3 位作者 王莹露 崔晓会 罗瑞 宋莺 《长江信息通信》 2024年第2期166-169,共4页
当前全球旅游业面临的信息安全、监管、信息透明度和服务质量等挑战。区块链技术的特性,如去中心化、分布式账本和智能合约,提供了解决这些问题的有效手段。本系统的设计采用了浏览器/服务器框架,关键技术包括多维度爬虫技术、基于区块... 当前全球旅游业面临的信息安全、监管、信息透明度和服务质量等挑战。区块链技术的特性,如去中心化、分布式账本和智能合约,提供了解决这些问题的有效手段。本系统的设计采用了浏览器/服务器框架,关键技术包括多维度爬虫技术、基于区块链的数据管理、数据分析与可视化等关键模块。将区块链技术用于旅游服务系统的信息安全与监管,可提供高级加密和信息共享的解决方案,以应对旅游业中的不文明行为、虚假宣传和价格透明度等问题。该实验系统的搭建,为旅游部门提供更加安全、透明和高质量的服务。 展开更多
关键词 区块链技术 数据分析 网络爬虫 数据隐私及安全
下载PDF
大数据时代下网络爬虫行为的刑法规制 被引量:1
6
作者 姜岚 《中阿科技论坛(中英文)》 2024年第4期163-167,共5页
在大数据时代,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生。从网络爬虫的相关案例来看,其使用者往往有充分的理由做出可能涉嫌违法的数据抓取行为。因此,有必要对网络爬虫行为进行刑法规制。然而,针对网络爬虫行为,现... 在大数据时代,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生。从网络爬虫的相关案例来看,其使用者往往有充分的理由做出可能涉嫌违法的数据抓取行为。因此,有必要对网络爬虫行为进行刑法规制。然而,针对网络爬虫行为,现行的刑法规制路径存在入罪标准模糊不清、难以区分此罪与彼罪等困境,因此很有必要重构其刑法规制路径。文章认为,应通过数据的访问权限和开放程度双重标准明确网络爬虫行为罪与非罪的界限。并将网络爬虫行为分为2个行为阶段(非法访问行为和非法获取行为)加以分析:非法访问行为可能构成计算机犯罪,针对非法获取行为,应根据行为所侵犯的具体法益来定罪;根据罪数理论确定具体罪名。 展开更多
关键词 大数据 网络爬虫 刑法规制
下载PDF
基于Python语言的罗技设备数据可视化系统
7
作者 张智浩 鞠爽爽 《南通职业大学学报》 2024年第1期77-80,共4页
为了给用户匹配罗技设备提供数据参考,基于Python语言开发了罗技设备数据可视化系统。通过爬虫算法爬取罗技设备的官网数据,运用“Vue+Django+MySQL”技术栈完成可视化系统的开发;以用户为核心设计系统功能,允许用户直观浏览电子产品和... 为了给用户匹配罗技设备提供数据参考,基于Python语言开发了罗技设备数据可视化系统。通过爬虫算法爬取罗技设备的官网数据,运用“Vue+Django+MySQL”技术栈完成可视化系统的开发;以用户为核心设计系统功能,允许用户直观浏览电子产品和罗技设备的相关数据,且支持用户进行评论、收藏等互动操作。实践表明,该系统不仅可为用户选择罗技设备提供有效的数据参考,也可为罗技设备市场及用户行为等数据分析提供平台。 展开更多
关键词 罗技设备 数据爬虫 可视化系统 数据分析 PYTHON语言
下载PDF
基于Python的多线程网络爬虫系统的研究与实现
8
作者 刘莹 《无线互联科技》 2024年第14期44-46,共3页
网络爬虫是通过编写程序模拟浏览器访问服务器、获取目标数据的方法。在大数据环境下,爬虫速度成为影响网络爬虫性能的重要评价条件之一。Python语言因其丰富的第三方库,被广泛应用于网络爬虫及数据分析等场景。文章基于Python编程语言... 网络爬虫是通过编写程序模拟浏览器访问服务器、获取目标数据的方法。在大数据环境下,爬虫速度成为影响网络爬虫性能的重要评价条件之一。Python语言因其丰富的第三方库,被广泛应用于网络爬虫及数据分析等场景。文章基于Python编程语言,以提高网络爬虫速度为目的,探讨实现网络爬虫速度提升的方案,并以某网站智能图片爬取为例实现多线程爬虫系统。 展开更多
关键词 Python技术 网络爬虫 大数据 多线程
下载PDF
基于BiLSTM-CRF模型的房屋出租App系统的设计与实现
9
作者 罗佳 李萌 《软件》 2024年第1期18-20,共3页
针对文本实体信息抽取优化问题,本文以租赁行业为研究对象,首先,使用爬虫技术对客户发布的信息进行爬取,采用BiLSTM-CRF算法对信息进行实体提取和处理,将处理后的信息存储在数据库中,构建App数据来源的数据层,再基于数据层的数据开发Ap... 针对文本实体信息抽取优化问题,本文以租赁行业为研究对象,首先,使用爬虫技术对客户发布的信息进行爬取,采用BiLSTM-CRF算法对信息进行实体提取和处理,将处理后的信息存储在数据库中,构建App数据来源的数据层,再基于数据层的数据开发App应用层。开发的App应用层模块包括用户认证模块和主页模块。BiLSTM-CRF模型比LSTM和Bi LSTM在实体边界的识别率更高,模型准确率、召回率和F1值分别可以达到96.58%,88.94%,92.60%。 展开更多
关键词 BiLSTM-CRF 数据爬虫 App系统 实体提取
下载PDF
基于网格数据的北京文化产业空间分布特征与优化建议
10
作者 环梅 《北京印刷学院学报》 2024年第2期42-46,共5页
本文利用GIS技术把北京市分为1766个网格,运用数据爬虫技术获取各网格的文化企业数据,运用空间自相关方法从微观层面深入挖掘北京文化产业的空间分布特征。结果表明,北京市文化企业数量分布总体上呈现中心城区密集并向周边城区扩散的空... 本文利用GIS技术把北京市分为1766个网格,运用数据爬虫技术获取各网格的文化企业数据,运用空间自相关方法从微观层面深入挖掘北京文化产业的空间分布特征。结果表明,北京市文化企业数量分布总体上呈现中心城区密集并向周边城区扩散的空间集聚特征,识别出各行政区的文化产业热点网格区域,结合各城区热点区域分布及其人文生态资源特点,提出了差异化的文化产业空间承载优化建议。 展开更多
关键词 文化产业 空间集聚 网格数据 空间承载优化 GIS技术 数据爬虫
下载PDF
基于数据挖掘技术的数据类岗位招聘信息分析与研究
11
作者 王姣姣 姚华平 《现代信息科技》 2024年第2期13-16,20,共5页
通过对招聘网站信息的挖掘分析了解岗位的需求分布和发展趋势,能够为求职者提供重要的指导。首先采用爬虫技术获取“拉勾网”和“前程无忧”招聘网站的数据类岗位相关信息,经过数据预处理,采用jieba分词进行数据特征分析,以可视化形式... 通过对招聘网站信息的挖掘分析了解岗位的需求分布和发展趋势,能够为求职者提供重要的指导。首先采用爬虫技术获取“拉勾网”和“前程无忧”招聘网站的数据类岗位相关信息,经过数据预处理,采用jieba分词进行数据特征分析,以可视化形式展示数据类岗位数据分布特点,并得到福利待遇和公司类型的词云图;然后采用TF-IDF算法对五类数据类岗位的岗位要求提取关键词,使得求职者能够根据职位画像选择最佳岗位;最后基于LDA主题模型确定最优主题数,进而挖掘得到岗位要求。 展开更多
关键词 岗位需求分析 爬虫技术 数据挖掘 可视化技术 LDA主题模型
下载PDF
利益平衡视角下数据抓取行为的正当性认定
12
作者 张琳晗 《江苏工程职业技术学院学报》 2024年第2期100-104,共5页
因数据抓取行为引发的不正当竞争纠纷中,法院基于数据权属的判断更倾向于保护数据被抓取方的利益,将数据抓取行为认定为不正当竞争。这种以数据权属和数据抓取技术来认定抓取行为正当与否的裁判思路往往有法官的价值选择倾向,缺乏对相... 因数据抓取行为引发的不正当竞争纠纷中,法院基于数据权属的判断更倾向于保护数据被抓取方的利益,将数据抓取行为认定为不正当竞争。这种以数据权属和数据抓取技术来认定抓取行为正当与否的裁判思路往往有法官的价值选择倾向,缺乏对相关利益的综合衡量和明确的判断标准,带有侵权法色彩和法官对商业道德的自由裁量。鉴于以上问题,未来在数据抓取行为引发的不正当竞争纠纷案件中对数据抓取正当性的判断应当从利益平衡视角衡量自由竞争与公平竞争、数据控制与数据流通、数据抓取相关主体利益等方面入手,淡化数据权属划分,细化商业道德内容,谋求多方利益平衡,客观全面地判断数据抓取行为的正当性。 展开更多
关键词 数据抓取 网络爬虫 利益平衡 不正当竞争 数据利益
下载PDF
基于Python的城市天气数据可视化分析
13
作者 赵志凡 邓一哲 +1 位作者 张思源 付裕 《软件》 2024年第4期37-39,共3页
本文通过爬虫程序获取天气数据,并通过数据可视化工具对其进行分析和展示。针对不同地区和时间段的天气数据进行分析,得出了一些有意义的结论,如温度变化趋势和天气情况分布等。研究结果表明,基于Python爬虫和数据可视化工具的天气数据... 本文通过爬虫程序获取天气数据,并通过数据可视化工具对其进行分析和展示。针对不同地区和时间段的天气数据进行分析,得出了一些有意义的结论,如温度变化趋势和天气情况分布等。研究结果表明,基于Python爬虫和数据可视化工具的天气数据分析具有实用价值和应用前景。 展开更多
关键词 网络爬虫 天气数据 可视化
下载PDF
基于Python的全国旅游信息统计网站数据抓取研究
14
作者 郭晨灏 柳箐 +3 位作者 姜澳 赵美娇 徐子薇 王博 《电脑与信息技术》 2024年第5期71-74,90,共5页
伴随网络信息时代的发展,网民人数持续增加,人们可以通过各种方式查找信息,但数据量太大导致获取个性化信息变得困难,耗时变长。基于此,借助Python爬虫技术,采用Scrapy框架,创建针对旅游信息的数据抓取项目。主要介绍了爬取数据的基本流... 伴随网络信息时代的发展,网民人数持续增加,人们可以通过各种方式查找信息,但数据量太大导致获取个性化信息变得困难,耗时变长。基于此,借助Python爬虫技术,采用Scrapy框架,创建针对旅游信息的数据抓取项目。主要介绍了爬取数据的基本流程,给出了爬取数据的具体实例,对爬取数据的持久化存储进行了相关论述。 展开更多
关键词 PYTHON语言 旅游网站 数据爬虫
下载PDF
论网络“白帽子”的刑事合规保护
15
作者 刘昕帅 《乐山师范学院学报》 2024年第6期110-116,共7页
网络“白帽子”运用网络爬虫技术爬取用于模拟测试的网络信息数据,目的在于查找网络漏洞,客观行为因符合非法获取计算机信息系统数据罪的构成要件而存在法律风险,主观意图因以维护网络安全为追求而具备合法空间。实务中对网络“白帽子... 网络“白帽子”运用网络爬虫技术爬取用于模拟测试的网络信息数据,目的在于查找网络漏洞,客观行为因符合非法获取计算机信息系统数据罪的构成要件而存在法律风险,主观意图因以维护网络安全为追求而具备合法空间。实务中对网络“白帽子”的刑事治理既存在难以界定爬取网络信息数据的非法界限而使网络“白帽子”不当入罪的问题,又存在无法划定爬取网络信息数据的合法空间而难以发挥网络“白帽子”网络安全维护作用的问题。学界对网络“白帽子”是否入罪存在不同观点,但均认可能够划定网络“白帽子”边界赋予行为空间。网络“白帽子”刑事治理领域应引入刑事合规理念,通过内部风险控制机制与外部司法指导机制实现网络“白帽子”合规保护,实现网络安全维护的同时消解潜在信息数据安全风险。 展开更多
关键词 网络爬虫 信息数据 刑事合规
下载PDF
网络爬虫行政、民事、刑事一体化治理路径构建研究
16
作者 冯宇轩 王震 《西安石油大学学报(社会科学版)》 2024年第1期100-106,共7页
网络爬虫作为一项衍生于数据化时代的新兴技术在当下已然具有不可估量的积极效能,然而其中更值得给予关注的是其背后盘根错节的法律风险。在对网络爬虫的概念以及其正反层面的影响进行剖析后可发现,在实行客观违法并合主观故意的基础上... 网络爬虫作为一项衍生于数据化时代的新兴技术在当下已然具有不可估量的积极效能,然而其中更值得给予关注的是其背后盘根错节的法律风险。在对网络爬虫的概念以及其正反层面的影响进行剖析后可发现,在实行客观违法并合主观故意的基础上,通过所爬取的数据类型映射的不同法益认定不同罪名的规制方式实然存在许多偏颇之处,因此需要通过健全行刑衔接机制、以广义授权整体外化客观行为、明晰所爬取数据法益实质归属等途径,联动行政、民事、刑事视域进行一体化治理,以创制网络爬虫治理的全新模式。 展开更多
关键词 网络爬虫 robots协议 反爬虫机制 数据法益 一体化治理
下载PDF
基于万维网爬行器的计量信息系统数据管理程序设计
17
作者 吴任翔 《铁道技术监督》 2024年第9期23-27,共5页
随着网络科技的不断革新,万维网爬行器作为一种高效采集数据的手段,在计量信息系统数据管理中的研究和应用价值日益凸显。以万维网爬行器为基础,确定抓取的计量信息目标,选择合适的编程语言,设计计量信息系统数据管理程序架构及其模块,... 随着网络科技的不断革新,万维网爬行器作为一种高效采集数据的手段,在计量信息系统数据管理中的研究和应用价值日益凸显。以万维网爬行器为基础,确定抓取的计量信息目标,选择合适的编程语言,设计计量信息系统数据管理程序架构及其模块,并在某企业中应用。应用结果表明:基于万维网爬行器的计量信息系统数据管理程序,既能稳定、快捷地获取、分析、处理、存储计量数据,大大减少繁琐的人工管理环节,显著提升计量工作人员的数据统计效率,又能提供准确的计量数据,为管理层决策提供支持。万维网爬行器在计量信息系统数据管理中应用时,需关注数据隐私和安全问题,以及持续优化数据处理和分析算法,以满足日益增长的计量需求。 展开更多
关键词 计量管理 信息系统 数据管理 万维网爬行器
下载PDF
基于Python爬虫的豆瓣TOP250电影数据分析与可视化研究
18
作者 王晨 《现代信息科技》 2024年第16期93-97,共5页
随着互联网技术的发展,传统的只根据榜单数据进行电影筛选的方式已经不能满足消费者的需求。基于Python实现了豆瓣网站TOP250电影数据爬虫,调用Requests下载网页并使用Beautifulsoup进行网页解析,利用PyeCharts等技术进行数据可视化分析... 随着互联网技术的发展,传统的只根据榜单数据进行电影筛选的方式已经不能满足消费者的需求。基于Python实现了豆瓣网站TOP250电影数据爬虫,调用Requests下载网页并使用Beautifulsoup进行网页解析,利用PyeCharts等技术进行数据可视化分析,将数据以图表的形式展现,以让消费者更清晰地看到热门电影数据特征,为消费者选择电影提供参考依据。通过可视化分析发现,电影的评分与评论人数无正相关性。 展开更多
关键词 PYTHON 爬虫 豆瓣 数据可视化
下载PDF
爬取公开信息行为入罪的逻辑解构与标准重构——从“反反爬行为”的性质切入 被引量:1
19
作者 苏桑妮 《浙江社会科学》 CSSCI 北大核心 2024年第4期55-67,156,157,共15页
在涉及网络爬虫程序的数据犯罪案件中,绕过反爬虫措施的“反反爬行为”因其“技术侵入性”和“法益侵害性”,成为爬取公开信息行为入罪的主要依据。然而,反爬虫措施不是计算机安保措施,故“反反爬行为”的“侵入性”在技术层面上并不成... 在涉及网络爬虫程序的数据犯罪案件中,绕过反爬虫措施的“反反爬行为”因其“技术侵入性”和“法益侵害性”,成为爬取公开信息行为入罪的主要依据。然而,反爬虫措施不是计算机安保措施,故“反反爬行为”的“侵入性”在技术层面上并不成立。同时,为保护“数据控制权”而认定绕过反爬虫措施抓取数据行为侵害数据安全的观点,亦不具有正当性、合理性和可行性。实际上,基于计算机技术的原理、数字经济发展的需求、维护法秩序统一的需要,只有当“反反爬行为”突破基于特定身份的访问权限,从而破坏封闭网络空间的信息安全时,相应爬取数据行为和提供爬虫程序行为才成立数据犯罪。因而绕过反爬虫措施抓取公开信息的行为,不应构成非法获取计算机信息系统数据罪。 展开更多
关键词 反反爬行为 网络爬虫 公开信息 非法获取计算机信息系统数据罪
下载PDF
基于Python爬虫的阜阳二手房数据可视化分析
20
作者 黄昂 杨旭 +1 位作者 周婷 朱琪 《计算机应用文摘》 2024年第19期179-180,183,共3页
以阜阳市二手房市场为例,文章首先利用Python爬虫技术从“58同城”二手房交易网站爬取了阜阳三区五县的在售二手房数据,随后对爬取的数据进行了清洗及预处理,旨在确保数据的准确性和可用性,接着应用Python语言及多种可视化工具对清洗后... 以阜阳市二手房市场为例,文章首先利用Python爬虫技术从“58同城”二手房交易网站爬取了阜阳三区五县的在售二手房数据,随后对爬取的数据进行了清洗及预处理,旨在确保数据的准确性和可用性,接着应用Python语言及多种可视化工具对清洗后的数据进行了多维度分析,以揭示阜阳市二手房市场的区域差异、价格分析及热门户型等关键信息,为潜在二手房购买者与房地产交易从业者提供了决策支持。 展开更多
关键词 Python爬虫 数据清洗 可视化分析 二手房市场 阜阳市
下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部