期刊文献+
共找到360篇文章
< 1 2 18 >
每页显示 20 50 100
编制价格指数的爬虫数据抽样方法研究
1
作者 雷兵 梁凯凯 刘维 《统计与决策》 北大核心 2024年第12期24-28,共5页
文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算... 文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算法及其轮廓系数实现总体数据分层,并通过不等概率随机抽样获取各层代表性样本;考虑到连续性调查中入选样本存在无回答现象,提出正式和备选样本思路,针对每个正式样本,采用最近邻匹配法挑选若干个备选样本,当正式样本无回答时,以备选样本作为替补来完成价格指数编制。以天猫商城粮油品类为例进行验证,结果表明:在抓取的数据中,基期全量爬虫数据有18351条,第2—8期连续性调查的平均抽样比为10.18%,抽样的平均相对误差为0.59%,说明该方法是可行的。 展开更多
关键词 价格指数 爬虫数据 分层抽样 聚类算法 样本匹配
下载PDF
基于资源感知的分布式爬虫任务调度方法
2
作者 张军 魏继桢 李钰彬 《现代电子技术》 北大核心 2024年第9期86-90,共5页
文中致力于开发一种基于资源感知的分布式爬虫任务调度方法,以优化分布式环境中各节点的系统资源利用,提升爬虫任务的执行效率。该方法通过引入资源感知调度算法和节点优先级管理,实现对节点中CPU、内存、网络等资源的监测,以便均衡调... 文中致力于开发一种基于资源感知的分布式爬虫任务调度方法,以优化分布式环境中各节点的系统资源利用,提升爬虫任务的执行效率。该方法通过引入资源感知调度算法和节点优先级管理,实现对节点中CPU、内存、网络等资源的监测,以便均衡调度爬虫任务,即确保爬虫任务在资源利用率较低的节点上执行,从而有效减轻各个节点之间资源过度占用和不均衡问题。另外,该方法引入的Flask提高了可扩展性,实现了可视化爬虫监控平台。实验结果表明,文中提出的方法在提高爬虫任务执行效率和适应性方面取得了显著效果,为分布式爬虫系统的进一步优化提供了有益指导。 展开更多
关键词 分布式爬虫 任务调度 资源感知 FLASK 数据采集 资源利用率
下载PDF
基于区块链技术的旅游服务及可视化分析系统设计
3
作者 丁宇阳 胡涵 +3 位作者 王莹露 崔晓会 罗瑞 宋莺 《长江信息通信》 2024年第2期166-169,共4页
当前全球旅游业面临的信息安全、监管、信息透明度和服务质量等挑战。区块链技术的特性,如去中心化、分布式账本和智能合约,提供了解决这些问题的有效手段。本系统的设计采用了浏览器/服务器框架,关键技术包括多维度爬虫技术、基于区块... 当前全球旅游业面临的信息安全、监管、信息透明度和服务质量等挑战。区块链技术的特性,如去中心化、分布式账本和智能合约,提供了解决这些问题的有效手段。本系统的设计采用了浏览器/服务器框架,关键技术包括多维度爬虫技术、基于区块链的数据管理、数据分析与可视化等关键模块。将区块链技术用于旅游服务系统的信息安全与监管,可提供高级加密和信息共享的解决方案,以应对旅游业中的不文明行为、虚假宣传和价格透明度等问题。该实验系统的搭建,为旅游部门提供更加安全、透明和高质量的服务。 展开更多
关键词 区块链技术 数据分析 网络爬虫 数据隐私及安全
下载PDF
基于Python语言的罗技设备数据可视化系统
4
作者 张智浩 鞠爽爽 《南通职业大学学报》 2024年第1期77-80,共4页
为了给用户匹配罗技设备提供数据参考,基于Python语言开发了罗技设备数据可视化系统。通过爬虫算法爬取罗技设备的官网数据,运用“Vue+Django+MySQL”技术栈完成可视化系统的开发;以用户为核心设计系统功能,允许用户直观浏览电子产品和... 为了给用户匹配罗技设备提供数据参考,基于Python语言开发了罗技设备数据可视化系统。通过爬虫算法爬取罗技设备的官网数据,运用“Vue+Django+MySQL”技术栈完成可视化系统的开发;以用户为核心设计系统功能,允许用户直观浏览电子产品和罗技设备的相关数据,且支持用户进行评论、收藏等互动操作。实践表明,该系统不仅可为用户选择罗技设备提供有效的数据参考,也可为罗技设备市场及用户行为等数据分析提供平台。 展开更多
关键词 罗技设备 数据爬虫 可视化系统 数据分析 PYTHON语言
下载PDF
基于BiLSTM-CRF模型的房屋出租App系统的设计与实现
5
作者 罗佳 李萌 《软件》 2024年第1期18-20,共3页
针对文本实体信息抽取优化问题,本文以租赁行业为研究对象,首先,使用爬虫技术对客户发布的信息进行爬取,采用BiLSTM-CRF算法对信息进行实体提取和处理,将处理后的信息存储在数据库中,构建App数据来源的数据层,再基于数据层的数据开发Ap... 针对文本实体信息抽取优化问题,本文以租赁行业为研究对象,首先,使用爬虫技术对客户发布的信息进行爬取,采用BiLSTM-CRF算法对信息进行实体提取和处理,将处理后的信息存储在数据库中,构建App数据来源的数据层,再基于数据层的数据开发App应用层。开发的App应用层模块包括用户认证模块和主页模块。BiLSTM-CRF模型比LSTM和Bi LSTM在实体边界的识别率更高,模型准确率、召回率和F1值分别可以达到96.58%,88.94%,92.60%。 展开更多
关键词 BiLSTM-CRF 数据爬虫 App系统 实体提取
下载PDF
基于网格数据的北京文化产业空间分布特征与优化建议
6
作者 环梅 《北京印刷学院学报》 2024年第2期42-46,共5页
本文利用GIS技术把北京市分为1766个网格,运用数据爬虫技术获取各网格的文化企业数据,运用空间自相关方法从微观层面深入挖掘北京文化产业的空间分布特征。结果表明,北京市文化企业数量分布总体上呈现中心城区密集并向周边城区扩散的空... 本文利用GIS技术把北京市分为1766个网格,运用数据爬虫技术获取各网格的文化企业数据,运用空间自相关方法从微观层面深入挖掘北京文化产业的空间分布特征。结果表明,北京市文化企业数量分布总体上呈现中心城区密集并向周边城区扩散的空间集聚特征,识别出各行政区的文化产业热点网格区域,结合各城区热点区域分布及其人文生态资源特点,提出了差异化的文化产业空间承载优化建议。 展开更多
关键词 文化产业 空间集聚 网格数据 空间承载优化 GIS技术 数据爬虫
下载PDF
基于数据挖掘技术的数据类岗位招聘信息分析与研究
7
作者 王姣姣 姚华平 《现代信息科技》 2024年第2期13-16,20,共5页
通过对招聘网站信息的挖掘分析了解岗位的需求分布和发展趋势,能够为求职者提供重要的指导。首先采用爬虫技术获取“拉勾网”和“前程无忧”招聘网站的数据类岗位相关信息,经过数据预处理,采用jieba分词进行数据特征分析,以可视化形式... 通过对招聘网站信息的挖掘分析了解岗位的需求分布和发展趋势,能够为求职者提供重要的指导。首先采用爬虫技术获取“拉勾网”和“前程无忧”招聘网站的数据类岗位相关信息,经过数据预处理,采用jieba分词进行数据特征分析,以可视化形式展示数据类岗位数据分布特点,并得到福利待遇和公司类型的词云图;然后采用TF-IDF算法对五类数据类岗位的岗位要求提取关键词,使得求职者能够根据职位画像选择最佳岗位;最后基于LDA主题模型确定最优主题数,进而挖掘得到岗位要求。 展开更多
关键词 岗位需求分析 爬虫技术 数据挖掘 可视化技术 LDA主题模型
下载PDF
基于Python的城市天气数据可视化分析
8
作者 赵志凡 邓一哲 +1 位作者 张思源 付裕 《软件》 2024年第4期37-39,共3页
本文通过爬虫程序获取天气数据,并通过数据可视化工具对其进行分析和展示。针对不同地区和时间段的天气数据进行分析,得出了一些有意义的结论,如温度变化趋势和天气情况分布等。研究结果表明,基于Python爬虫和数据可视化工具的天气数据... 本文通过爬虫程序获取天气数据,并通过数据可视化工具对其进行分析和展示。针对不同地区和时间段的天气数据进行分析,得出了一些有意义的结论,如温度变化趋势和天气情况分布等。研究结果表明,基于Python爬虫和数据可视化工具的天气数据分析具有实用价值和应用前景。 展开更多
关键词 网络爬虫 天气数据 可视化
下载PDF
论网络“白帽子”的刑事合规保护
9
作者 刘昕帅 《乐山师范学院学报》 2024年第6期110-116,共7页
网络“白帽子”运用网络爬虫技术爬取用于模拟测试的网络信息数据,目的在于查找网络漏洞,客观行为因符合非法获取计算机信息系统数据罪的构成要件而存在法律风险,主观意图因以维护网络安全为追求而具备合法空间。实务中对网络“白帽子... 网络“白帽子”运用网络爬虫技术爬取用于模拟测试的网络信息数据,目的在于查找网络漏洞,客观行为因符合非法获取计算机信息系统数据罪的构成要件而存在法律风险,主观意图因以维护网络安全为追求而具备合法空间。实务中对网络“白帽子”的刑事治理既存在难以界定爬取网络信息数据的非法界限而使网络“白帽子”不当入罪的问题,又存在无法划定爬取网络信息数据的合法空间而难以发挥网络“白帽子”网络安全维护作用的问题。学界对网络“白帽子”是否入罪存在不同观点,但均认可能够划定网络“白帽子”边界赋予行为空间。网络“白帽子”刑事治理领域应引入刑事合规理念,通过内部风险控制机制与外部司法指导机制实现网络“白帽子”合规保护,实现网络安全维护的同时消解潜在信息数据安全风险。 展开更多
关键词 网络爬虫 信息数据 刑事合规
下载PDF
大数据时代下网络爬虫行为的刑法规制
10
作者 姜岚 《中阿科技论坛(中英文)》 2024年第4期163-167,共5页
在大数据时代,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生。从网络爬虫的相关案例来看,其使用者往往有充分的理由做出可能涉嫌违法的数据抓取行为。因此,有必要对网络爬虫行为进行刑法规制。然而,针对网络爬虫行为,现... 在大数据时代,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生。从网络爬虫的相关案例来看,其使用者往往有充分的理由做出可能涉嫌违法的数据抓取行为。因此,有必要对网络爬虫行为进行刑法规制。然而,针对网络爬虫行为,现行的刑法规制路径存在入罪标准模糊不清、难以区分此罪与彼罪等困境,因此很有必要重构其刑法规制路径。文章认为,应通过数据的访问权限和开放程度双重标准明确网络爬虫行为罪与非罪的界限。并将网络爬虫行为分为2个行为阶段(非法访问行为和非法获取行为)加以分析:非法访问行为可能构成计算机犯罪,针对非法获取行为,应根据行为所侵犯的具体法益来定罪;根据罪数理论确定具体罪名。 展开更多
关键词 大数据 网络爬虫 刑法规制
下载PDF
网络爬虫行政、民事、刑事一体化治理路径构建研究
11
作者 冯宇轩 王震 《西安石油大学学报(社会科学版)》 2024年第1期100-106,共7页
网络爬虫作为一项衍生于数据化时代的新兴技术在当下已然具有不可估量的积极效能,然而其中更值得给予关注的是其背后盘根错节的法律风险。在对网络爬虫的概念以及其正反层面的影响进行剖析后可发现,在实行客观违法并合主观故意的基础上... 网络爬虫作为一项衍生于数据化时代的新兴技术在当下已然具有不可估量的积极效能,然而其中更值得给予关注的是其背后盘根错节的法律风险。在对网络爬虫的概念以及其正反层面的影响进行剖析后可发现,在实行客观违法并合主观故意的基础上,通过所爬取的数据类型映射的不同法益认定不同罪名的规制方式实然存在许多偏颇之处,因此需要通过健全行刑衔接机制、以广义授权整体外化客观行为、明晰所爬取数据法益实质归属等途径,联动行政、民事、刑事视域进行一体化治理,以创制网络爬虫治理的全新模式。 展开更多
关键词 网络爬虫 robots协议 反爬虫机制 数据法益 一体化治理
下载PDF
基于Python的房源信息大数据分析和可视化
12
作者 闫梦婷 《信息与电脑》 2024年第5期46-48,52,共4页
二手房市场是我国房地产市场的重要组成部分,买卖双方在交易中都希望能够了解各类信息。文章采用Python作为编程语言,爬取上海二手房市场的房源信息进行大数据分析,并通过Python的可视化库,将分析结果以直观的图表形式展示出来。该方法... 二手房市场是我国房地产市场的重要组成部分,买卖双方在交易中都希望能够了解各类信息。文章采用Python作为编程语言,爬取上海二手房市场的房源信息进行大数据分析,并通过Python的可视化库,将分析结果以直观的图表形式展示出来。该方法具有较好的拓展性,可以应用于其他领域的数据分析和可视化工作。 展开更多
关键词 房源 网络爬虫 PYTHON 大数据 可视化
下载PDF
大数据时代下网络爬虫行为的刑法规制
13
作者 李峥妍 《市场周刊》 2024年第1期153-158,共6页
大数据时代的到来,网络爬虫技术已然成了一项不可或缺的重要技术。随着爬虫技术对生活各方面不断渗透,可以窥见爬虫的入侵、抓取、提供环节均可能招致法律风险,甚至进入罪名规范辐射范围之内。在技术规制的失效、Robot协议的不足以及行... 大数据时代的到来,网络爬虫技术已然成了一项不可或缺的重要技术。随着爬虫技术对生活各方面不断渗透,可以窥见爬虫的入侵、抓取、提供环节均可能招致法律风险,甚至进入罪名规范辐射范围之内。在技术规制的失效、Robot协议的不足以及行业标准的缺失之时,刑法规制的必要性体现于此。当然刑法应当遵循谦抑性原则,在明确数据属性与法益保护范围的基础上跳脱出罪名适用“口袋化”的现状。 展开更多
关键词 网络爬虫技术 爬虫行为 数据安全 刑法规制
下载PDF
爬虫技术下非法获取计算机信息系统数据罪与侵犯著作权罪的关系
14
作者 冼卓铭 《河南科技》 2024年第5期117-121,共5页
【目的】研究非法获取计算机信息系统数据罪与侵犯著作权犯罪的区别与联系,在实现数据法益刑法保护的同时,让其与传统罪名良好衔接。【方法】通过对爬虫技术下非法获取计算机信息系统数据罪、侵犯著作权犯罪以及涉及两罪的相关案例进行... 【目的】研究非法获取计算机信息系统数据罪与侵犯著作权犯罪的区别与联系,在实现数据法益刑法保护的同时,让其与传统罪名良好衔接。【方法】通过对爬虫技术下非法获取计算机信息系统数据罪、侵犯著作权犯罪以及涉及两罪的相关案例进行实证研究,分析两罪保护的法益与其实行行为的差异,进而研究两罪关系。【结果】在司法实践中非法获取计算机信息系统数据罪与侵犯著作权罪不是非A即B的关系。【结论】将数据犯罪与传统犯罪区分是必然的,但不应将数据犯罪与传统犯罪相排斥,非法获取计算机信息系统数据罪与侵犯著作权罪可以数罪并罚。 展开更多
关键词 非法获取计算机信息系统数据罪 侵犯著作权罪 网络爬虫
下载PDF
Python爬虫技术在学术聚合系统中的应用
15
作者 崔梦银 邓茵 刘满意 《现代信息科技》 2024年第10期68-74,共7页
爬虫技术是搜索引擎和信息网站获取数据的核心技术之一,专用的网络爬虫能够在短时间内从网络上抓取大量有用数据。基于为研究者提供所需学术资源的目的,研究了爬虫技术在爬取学术网站论文数据中的应用。分析了Python爬虫技术在学术聚合... 爬虫技术是搜索引擎和信息网站获取数据的核心技术之一,专用的网络爬虫能够在短时间内从网络上抓取大量有用数据。基于为研究者提供所需学术资源的目的,研究了爬虫技术在爬取学术网站论文数据中的应用。分析了Python爬虫技术在学术聚合系统中的应用,借助大数据技术手段对所爬取的学术数据进行存储、清洗、聚合、消歧和融合。Python爬虫技术在学术聚合系统中起着关键作用,助力研发人员构建强大的数据聚合和分析平台,为学术研究人员提供有价值的信息资源,对学术研究、文献检索和信息发现都具有重要意义。 展开更多
关键词 Python爬虫 学术资源 大数据技术 学术聚合系统
下载PDF
OSSData:面向开源社区的分布式数据采集框架 被引量:2
16
作者 林维 陈曦 王松 《计算技术与自动化》 2019年第1期102-107,113,共7页
近些年,开源软件发展迅猛,其应用领域和适用范围越来越广泛;与此同时,开源软件的成功也吸引了大量的开发者投入到开源软件的开发。因此,开源软件社区积累了大量的软件应用和开发数据。这些丰富的数据逐步引起了研究人员的关注,已经有相... 近些年,开源软件发展迅猛,其应用领域和适用范围越来越广泛;与此同时,开源软件的成功也吸引了大量的开发者投入到开源软件的开发。因此,开源软件社区积累了大量的软件应用和开发数据。这些丰富的数据逐步引起了研究人员的关注,已经有相关工作对开源软件的群体开发模式和质量保证机制等展开了一系列研究。为了更好地支持此类研究工作的有效开展,面向开源社区提出了一个用户可定制的数据采集框架,该框架具有较高的灵活性和鲁棒性,能够根据用户的实际需求进行深度定制,并保持稳定持续的工作状态,从而提高数据采集的效率和质量。 展开更多
关键词 开源社区 数据采集 网络爬虫 分布式框架
下载PDF
爬取公开信息行为入罪的逻辑解构与标准重构——从“反反爬行为”的性质切入
17
作者 苏桑妮 《浙江社会科学》 北大核心 2024年第4期55-67,156,157,共15页
在涉及网络爬虫程序的数据犯罪案件中,绕过反爬虫措施的“反反爬行为”因其“技术侵入性”和“法益侵害性”,成为爬取公开信息行为入罪的主要依据。然而,反爬虫措施不是计算机安保措施,故“反反爬行为”的“侵入性”在技术层面上并不成... 在涉及网络爬虫程序的数据犯罪案件中,绕过反爬虫措施的“反反爬行为”因其“技术侵入性”和“法益侵害性”,成为爬取公开信息行为入罪的主要依据。然而,反爬虫措施不是计算机安保措施,故“反反爬行为”的“侵入性”在技术层面上并不成立。同时,为保护“数据控制权”而认定绕过反爬虫措施抓取数据行为侵害数据安全的观点,亦不具有正当性、合理性和可行性。实际上,基于计算机技术的原理、数字经济发展的需求、维护法秩序统一的需要,只有当“反反爬行为”突破基于特定身份的访问权限,从而破坏封闭网络空间的信息安全时,相应爬取数据行为和提供爬虫程序行为才成立数据犯罪。因而绕过反爬虫措施抓取公开信息的行为,不应构成非法获取计算机信息系统数据罪。 展开更多
关键词 反反爬行为 网络爬虫 公开信息 非法获取计算机信息系统数据罪
下载PDF
恶意爬取数据行为的刑法规制边界——以非法获取计算机信息系统数据罪为视角
18
作者 曹岚欣 《中国石油大学学报(社会科学版)》 2024年第2期130-138,共9页
爬取数据行为的刑事风险逐渐扩张,根本原因在于未厘清非法获取计算机信息系统数据罪法益的实质内涵。考虑到作为本罪行为对象的“数据”所具有的动态流转功能及其背后的重要利益价值,应将本罪保护的法益界定为“数据的控制与操作自由—... 爬取数据行为的刑事风险逐渐扩张,根本原因在于未厘清非法获取计算机信息系统数据罪法益的实质内涵。考虑到作为本罪行为对象的“数据”所具有的动态流转功能及其背后的重要利益价值,应将本罪保护的法益界定为“数据的控制与操作自由—传统信息内容安全”。这一阶层式法益成功跨越事实和规范之间的“鸿沟”,保证了刑法罪名体系之间的协调与功能上的合理配置。在厘清非法获取计算机信息系统数据罪法益内涵的基础上,能够为恶意爬取数据的行为划定合理的刑法边界。爬取开放数据一律不构罪;恶意爬取半开放数据不构成本罪,但不排除构成传统信息类犯罪的可能性;恶意爬取不开放数据,若其无法被还原为刑法类型化保护的传统信息,则不构罪;如果能够被还原,根据刑法类型化保护的信息内容是否公开再次判断,若公开则不构罪,反之则构罪,并且可能与传统信息类犯罪发生法条竞合。 展开更多
关键词 网络爬虫 非法获取计算机信息系统数据罪 法益 刑法边界
下载PDF
Scrapy框架下分布式网络爬虫数据采集算法仿真 被引量:2
19
作者 刘多林 吕苗 《计算机仿真》 北大核心 2023年第6期504-508,共5页
为提高数据采集速度、避免重复采集,提出Scrapy框架下分布式网络爬虫数据采集算法。利用搜索引擎、调度器、下载器、数据解析等模块建立Scrapy框架,明确爬虫体系内包括分布式计算与储存两部分;为确保爬虫过程负载均衡,将爬虫速度作为评... 为提高数据采集速度、避免重复采集,提出Scrapy框架下分布式网络爬虫数据采集算法。利用搜索引擎、调度器、下载器、数据解析等模块建立Scrapy框架,明确爬虫体系内包括分布式计算与储存两部分;为确保爬虫过程负载均衡,将爬虫速度作为评价指标,计算节点权重;使用蚁群优化算法,采用伪随机规则,获取智能体的网页转移概率,确定爬取路径,更新每条路径的信息素浓度,根据目标函数距离选取目标解;综合分析数据特征向量,计算链接的主题相似度,将相似度较高的链接放入待爬取集合中,得出数据间的重合度影响因子,避免重复采集,当信息素浓度降到最低时停止爬虫操作,完成采集工作。仿真结果证明,所提方法爬准率与爬全率较高,可提升数据采集速度。 展开更多
关键词 分布式系统 网络爬虫 数据采集 节点权重
下载PDF
基于大数据的网络数据采集研究与实践 被引量:1
20
作者 霍英 李小帆 +1 位作者 丘志敏 李彦廷 《软件工程》 2023年第4期28-32,共5页
在微博大数据环境下,文章以舆情数据采集、用户行为分析为应用背景,提出了一种爬虫数据采集系统的设计与实现方案。该方案主要采用的是聚焦爬虫和增量式爬虫相结合,同时基于内容评价的爬行策略,对用户给定的关键词进行搜索,并在其发生... 在微博大数据环境下,文章以舆情数据采集、用户行为分析为应用背景,提出了一种爬虫数据采集系统的设计与实现方案。该方案主要采用的是聚焦爬虫和增量式爬虫相结合,同时基于内容评价的爬行策略,对用户给定的关键词进行搜索,并在其发生变化时对相关内容进行更新,从而实现数据采集的及时性和有效性。通过实际数据采集效果来看,本方案单机日数据采集量约为88万条,实际应用中用户可根据需求自定义爬取数据的速度,也可通过增加分布式爬虫数量提升爬取数据量与速度。 展开更多
关键词 大数据 数据采集 网络爬虫
下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部