期刊文献+
共找到377篇文章
< 1 2 19 >
每页显示 20 50 100
微型爬虫数据中台的设计与实现
1
作者 孙维睿 王鹤涛 +1 位作者 陈锋 谭孟元 《福建电脑》 2025年第1期79-84,共6页
为了给各类软件工具的开发提供所需的业务数据,本文提出了一种微型数据中台的设计方案。采用爬虫、多线程、网络通信等技术搭建多线程协作框架和功能模块的开发。实际应用的效果表明,该系统能够高效、便捷地为各类工具的开发提供数据服... 为了给各类软件工具的开发提供所需的业务数据,本文提出了一种微型数据中台的设计方案。采用爬虫、多线程、网络通信等技术搭建多线程协作框架和功能模块的开发。实际应用的效果表明,该系统能够高效、便捷地为各类工具的开发提供数据服务,也为微型数据中台的设计与实现提供了一种可行的解决方案。 展开更多
关键词 爬虫 数据中台 接口 多线程
下载PDF
OSSData:面向开源社区的分布式数据采集框架 被引量:2
2
作者 林维 陈曦 王松 《计算技术与自动化》 2019年第1期102-107,113,共7页
近些年,开源软件发展迅猛,其应用领域和适用范围越来越广泛;与此同时,开源软件的成功也吸引了大量的开发者投入到开源软件的开发。因此,开源软件社区积累了大量的软件应用和开发数据。这些丰富的数据逐步引起了研究人员的关注,已经有相... 近些年,开源软件发展迅猛,其应用领域和适用范围越来越广泛;与此同时,开源软件的成功也吸引了大量的开发者投入到开源软件的开发。因此,开源软件社区积累了大量的软件应用和开发数据。这些丰富的数据逐步引起了研究人员的关注,已经有相关工作对开源软件的群体开发模式和质量保证机制等展开了一系列研究。为了更好地支持此类研究工作的有效开展,面向开源社区提出了一个用户可定制的数据采集框架,该框架具有较高的灵活性和鲁棒性,能够根据用户的实际需求进行深度定制,并保持稳定持续的工作状态,从而提高数据采集的效率和质量。 展开更多
关键词 开源社区 数据采集 网络爬虫 分布式框架
下载PDF
编制价格指数的爬虫数据抽样方法研究
3
作者 雷兵 梁凯凯 刘维 《统计与决策》 CSSCI 北大核心 2024年第12期24-28,共5页
文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算... 文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算法及其轮廓系数实现总体数据分层,并通过不等概率随机抽样获取各层代表性样本;考虑到连续性调查中入选样本存在无回答现象,提出正式和备选样本思路,针对每个正式样本,采用最近邻匹配法挑选若干个备选样本,当正式样本无回答时,以备选样本作为替补来完成价格指数编制。以天猫商城粮油品类为例进行验证,结果表明:在抓取的数据中,基期全量爬虫数据有18351条,第2—8期连续性调查的平均抽样比为10.18%,抽样的平均相对误差为0.59%,说明该方法是可行的。 展开更多
关键词 价格指数 爬虫数据 分层抽样 聚类算法 样本匹配
下载PDF
基于OBE理念与PDCA循环的数据采集与网络爬虫课程教学创新设计
4
作者 王娜 张燕华 周章金 《信息与电脑》 2024年第15期250-252,256,共4页
数据采集与网络爬虫具有应用范围广、实用性强等特点,学生普遍学习兴趣较高。但传统教学模式侧重知识传授,难以满足社会对大数据人才的需求。成果导向教育(Outcome based education,OBE)理念强调学习成果,这与人才能力导向需求相吻合。... 数据采集与网络爬虫具有应用范围广、实用性强等特点,学生普遍学习兴趣较高。但传统教学模式侧重知识传授,难以满足社会对大数据人才的需求。成果导向教育(Outcome based education,OBE)理念强调学习成果,这与人才能力导向需求相吻合。计划–执行–检查–行动(Plan-Do-Check-Act,PDCA)循环是全面质量管理遵循的科学程序,它构成了持续改进的基本方法和框架。本文将OBE理念与PDCA循环相融合,以学生为核心,以成果为导向,以问题为抓手,对数据采集与网络爬虫课程中的教学设计、教学实施、教学评价和教学反思四个过程进行了创新设计,期望实现课程质量的持续改进,培养学生的编程能力、自主学习能力及分析解决问题的能力。 展开更多
关键词 OBE PDCA 数据采集与网络爬虫
下载PDF
基于资源感知的分布式爬虫任务调度方法
5
作者 张军 魏继桢 李钰彬 《现代电子技术》 北大核心 2024年第9期86-90,共5页
文中致力于开发一种基于资源感知的分布式爬虫任务调度方法,以优化分布式环境中各节点的系统资源利用,提升爬虫任务的执行效率。该方法通过引入资源感知调度算法和节点优先级管理,实现对节点中CPU、内存、网络等资源的监测,以便均衡调... 文中致力于开发一种基于资源感知的分布式爬虫任务调度方法,以优化分布式环境中各节点的系统资源利用,提升爬虫任务的执行效率。该方法通过引入资源感知调度算法和节点优先级管理,实现对节点中CPU、内存、网络等资源的监测,以便均衡调度爬虫任务,即确保爬虫任务在资源利用率较低的节点上执行,从而有效减轻各个节点之间资源过度占用和不均衡问题。另外,该方法引入的Flask提高了可扩展性,实现了可视化爬虫监控平台。实验结果表明,文中提出的方法在提高爬虫任务执行效率和适应性方面取得了显著效果,为分布式爬虫系统的进一步优化提供了有益指导。 展开更多
关键词 分布式爬虫 任务调度 资源感知 FLASK 数据采集 资源利用率
下载PDF
基于Python的多线程网络爬虫系统的研究与实现 被引量:1
6
作者 刘莹 《无线互联科技》 2024年第14期44-46,共3页
网络爬虫是通过编写程序模拟浏览器访问服务器、获取目标数据的方法。在大数据环境下,爬虫速度成为影响网络爬虫性能的重要评价条件之一。Python语言因其丰富的第三方库,被广泛应用于网络爬虫及数据分析等场景。文章基于Python编程语言... 网络爬虫是通过编写程序模拟浏览器访问服务器、获取目标数据的方法。在大数据环境下,爬虫速度成为影响网络爬虫性能的重要评价条件之一。Python语言因其丰富的第三方库,被广泛应用于网络爬虫及数据分析等场景。文章基于Python编程语言,以提高网络爬虫速度为目的,探讨实现网络爬虫速度提升的方案,并以某网站智能图片爬取为例实现多线程爬虫系统。 展开更多
关键词 Python技术 网络爬虫 大数据 多线程
下载PDF
大数据时代数据抓取行为的竞争法规制与反思
7
作者 丁国峰 王静 《贵阳学院学报(社会科学版)》 2024年第5期68-73,共6页
作为数据时代的新型商业行为,数据抓取既具有中立性,也具有竞争性,体现了平台企业间数据共享利益与数据竞争利益之间的博弈。我国竞争法对数据抓取行为的规制主要适用一般条款与互联网专条,然而条款的模糊性、商业道德的不确定性、法官... 作为数据时代的新型商业行为,数据抓取既具有中立性,也具有竞争性,体现了平台企业间数据共享利益与数据竞争利益之间的博弈。我国竞争法对数据抓取行为的规制主要适用一般条款与互联网专条,然而条款的模糊性、商业道德的不确定性、法官的权益侵害式判断逻辑都不利于对数据抓取行为正当性的合理界定。实践中应当从数据抓取的行为本身出发,秉承社会福祉最大化理念,运用狭义比例原则对数据抓取行为进行衡量。 展开更多
关键词 数据抓取 网络爬虫 反不正当竞争法 法律规制
下载PDF
基于Python的城市天气数据可视化分析 被引量:1
8
作者 赵志凡 邓一哲 +1 位作者 张思源 付裕 《软件》 2024年第4期37-39,共3页
本文通过爬虫程序获取天气数据,并通过数据可视化工具对其进行分析和展示。针对不同地区和时间段的天气数据进行分析,得出了一些有意义的结论,如温度变化趋势和天气情况分布等。研究结果表明,基于Python爬虫和数据可视化工具的天气数据... 本文通过爬虫程序获取天气数据,并通过数据可视化工具对其进行分析和展示。针对不同地区和时间段的天气数据进行分析,得出了一些有意义的结论,如温度变化趋势和天气情况分布等。研究结果表明,基于Python爬虫和数据可视化工具的天气数据分析具有实用价值和应用前景。 展开更多
关键词 网络爬虫 天气数据 可视化
下载PDF
基于区块链技术的旅游服务及可视化分析系统设计
9
作者 丁宇阳 胡涵 +3 位作者 王莹露 崔晓会 罗瑞 宋莺 《长江信息通信》 2024年第2期166-169,共4页
当前全球旅游业面临的信息安全、监管、信息透明度和服务质量等挑战。区块链技术的特性,如去中心化、分布式账本和智能合约,提供了解决这些问题的有效手段。本系统的设计采用了浏览器/服务器框架,关键技术包括多维度爬虫技术、基于区块... 当前全球旅游业面临的信息安全、监管、信息透明度和服务质量等挑战。区块链技术的特性,如去中心化、分布式账本和智能合约,提供了解决这些问题的有效手段。本系统的设计采用了浏览器/服务器框架,关键技术包括多维度爬虫技术、基于区块链的数据管理、数据分析与可视化等关键模块。将区块链技术用于旅游服务系统的信息安全与监管,可提供高级加密和信息共享的解决方案,以应对旅游业中的不文明行为、虚假宣传和价格透明度等问题。该实验系统的搭建,为旅游部门提供更加安全、透明和高质量的服务。 展开更多
关键词 区块链技术 数据分析 网络爬虫 数据隐私及安全
下载PDF
大数据时代下网络爬虫行为的刑法规制 被引量:1
10
作者 姜岚 《中阿科技论坛(中英文)》 2024年第4期163-167,共5页
在大数据时代,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生。从网络爬虫的相关案例来看,其使用者往往有充分的理由做出可能涉嫌违法的数据抓取行为。因此,有必要对网络爬虫行为进行刑法规制。然而,针对网络爬虫行为,现... 在大数据时代,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生。从网络爬虫的相关案例来看,其使用者往往有充分的理由做出可能涉嫌违法的数据抓取行为。因此,有必要对网络爬虫行为进行刑法规制。然而,针对网络爬虫行为,现行的刑法规制路径存在入罪标准模糊不清、难以区分此罪与彼罪等困境,因此很有必要重构其刑法规制路径。文章认为,应通过数据的访问权限和开放程度双重标准明确网络爬虫行为罪与非罪的界限。并将网络爬虫行为分为2个行为阶段(非法访问行为和非法获取行为)加以分析:非法访问行为可能构成计算机犯罪,针对非法获取行为,应根据行为所侵犯的具体法益来定罪;根据罪数理论确定具体罪名。 展开更多
关键词 大数据 网络爬虫 刑法规制
下载PDF
基于Python语言的罗技设备数据可视化系统
11
作者 张智浩 鞠爽爽 《南通职业大学学报》 2024年第1期77-80,共4页
为了给用户匹配罗技设备提供数据参考,基于Python语言开发了罗技设备数据可视化系统。通过爬虫算法爬取罗技设备的官网数据,运用“Vue+Django+MySQL”技术栈完成可视化系统的开发;以用户为核心设计系统功能,允许用户直观浏览电子产品和... 为了给用户匹配罗技设备提供数据参考,基于Python语言开发了罗技设备数据可视化系统。通过爬虫算法爬取罗技设备的官网数据,运用“Vue+Django+MySQL”技术栈完成可视化系统的开发;以用户为核心设计系统功能,允许用户直观浏览电子产品和罗技设备的相关数据,且支持用户进行评论、收藏等互动操作。实践表明,该系统不仅可为用户选择罗技设备提供有效的数据参考,也可为罗技设备市场及用户行为等数据分析提供平台。 展开更多
关键词 罗技设备 数据爬虫 可视化系统 数据分析 PYTHON语言
下载PDF
基于Python爬虫的豆瓣TOP250电影数据分析与可视化研究 被引量:1
12
作者 王晨 《现代信息科技》 2024年第16期93-97,共5页
随着互联网技术的发展,传统的只根据榜单数据进行电影筛选的方式已经不能满足消费者的需求。基于Python实现了豆瓣网站TOP250电影数据爬虫,调用Requests下载网页并使用Beautifulsoup进行网页解析,利用PyeCharts等技术进行数据可视化分析... 随着互联网技术的发展,传统的只根据榜单数据进行电影筛选的方式已经不能满足消费者的需求。基于Python实现了豆瓣网站TOP250电影数据爬虫,调用Requests下载网页并使用Beautifulsoup进行网页解析,利用PyeCharts等技术进行数据可视化分析,将数据以图表的形式展现,以让消费者更清晰地看到热门电影数据特征,为消费者选择电影提供参考依据。通过可视化分析发现,电影的评分与评论人数无正相关性。 展开更多
关键词 PYTHON 爬虫 豆瓣 数据可视化
下载PDF
基于BiLSTM-CRF模型的房屋出租App系统的设计与实现
13
作者 罗佳 李萌 《软件》 2024年第1期18-20,共3页
针对文本实体信息抽取优化问题,本文以租赁行业为研究对象,首先,使用爬虫技术对客户发布的信息进行爬取,采用BiLSTM-CRF算法对信息进行实体提取和处理,将处理后的信息存储在数据库中,构建App数据来源的数据层,再基于数据层的数据开发Ap... 针对文本实体信息抽取优化问题,本文以租赁行业为研究对象,首先,使用爬虫技术对客户发布的信息进行爬取,采用BiLSTM-CRF算法对信息进行实体提取和处理,将处理后的信息存储在数据库中,构建App数据来源的数据层,再基于数据层的数据开发App应用层。开发的App应用层模块包括用户认证模块和主页模块。BiLSTM-CRF模型比LSTM和Bi LSTM在实体边界的识别率更高,模型准确率、召回率和F1值分别可以达到96.58%,88.94%,92.60%。 展开更多
关键词 BiLSTM-CRF 数据爬虫 App系统 实体提取
下载PDF
基于网格数据的北京文化产业空间分布特征与优化建议
14
作者 环梅 《北京印刷学院学报》 2024年第2期42-46,共5页
本文利用GIS技术把北京市分为1766个网格,运用数据爬虫技术获取各网格的文化企业数据,运用空间自相关方法从微观层面深入挖掘北京文化产业的空间分布特征。结果表明,北京市文化企业数量分布总体上呈现中心城区密集并向周边城区扩散的空... 本文利用GIS技术把北京市分为1766个网格,运用数据爬虫技术获取各网格的文化企业数据,运用空间自相关方法从微观层面深入挖掘北京文化产业的空间分布特征。结果表明,北京市文化企业数量分布总体上呈现中心城区密集并向周边城区扩散的空间集聚特征,识别出各行政区的文化产业热点网格区域,结合各城区热点区域分布及其人文生态资源特点,提出了差异化的文化产业空间承载优化建议。 展开更多
关键词 文化产业 空间集聚 网格数据 空间承载优化 GIS技术 数据爬虫
下载PDF
基于Python的房源信息大数据分析和可视化 被引量:1
15
作者 闫梦婷 《信息与电脑》 2024年第5期46-48,52,共4页
二手房市场是我国房地产市场的重要组成部分,买卖双方在交易中都希望能够了解各类信息。文章采用Python作为编程语言,爬取上海二手房市场的房源信息进行大数据分析,并通过Python的可视化库,将分析结果以直观的图表形式展示出来。该方法... 二手房市场是我国房地产市场的重要组成部分,买卖双方在交易中都希望能够了解各类信息。文章采用Python作为编程语言,爬取上海二手房市场的房源信息进行大数据分析,并通过Python的可视化库,将分析结果以直观的图表形式展示出来。该方法具有较好的拓展性,可以应用于其他领域的数据分析和可视化工作。 展开更多
关键词 房源 网络爬虫 PYTHON 大数据 可视化
下载PDF
基于数据挖掘技术的数据类岗位招聘信息分析与研究
16
作者 王姣姣 姚华平 《现代信息科技》 2024年第2期13-16,20,共5页
通过对招聘网站信息的挖掘分析了解岗位的需求分布和发展趋势,能够为求职者提供重要的指导。首先采用爬虫技术获取“拉勾网”和“前程无忧”招聘网站的数据类岗位相关信息,经过数据预处理,采用jieba分词进行数据特征分析,以可视化形式... 通过对招聘网站信息的挖掘分析了解岗位的需求分布和发展趋势,能够为求职者提供重要的指导。首先采用爬虫技术获取“拉勾网”和“前程无忧”招聘网站的数据类岗位相关信息,经过数据预处理,采用jieba分词进行数据特征分析,以可视化形式展示数据类岗位数据分布特点,并得到福利待遇和公司类型的词云图;然后采用TF-IDF算法对五类数据类岗位的岗位要求提取关键词,使得求职者能够根据职位画像选择最佳岗位;最后基于LDA主题模型确定最优主题数,进而挖掘得到岗位要求。 展开更多
关键词 岗位需求分析 爬虫技术 数据挖掘 可视化技术 LDA主题模型
下载PDF
利益平衡视角下数据抓取行为的正当性认定
17
作者 张琳晗 《江苏工程职业技术学院学报》 2024年第2期100-104,共5页
因数据抓取行为引发的不正当竞争纠纷中,法院基于数据权属的判断更倾向于保护数据被抓取方的利益,将数据抓取行为认定为不正当竞争。这种以数据权属和数据抓取技术来认定抓取行为正当与否的裁判思路往往有法官的价值选择倾向,缺乏对相... 因数据抓取行为引发的不正当竞争纠纷中,法院基于数据权属的判断更倾向于保护数据被抓取方的利益,将数据抓取行为认定为不正当竞争。这种以数据权属和数据抓取技术来认定抓取行为正当与否的裁判思路往往有法官的价值选择倾向,缺乏对相关利益的综合衡量和明确的判断标准,带有侵权法色彩和法官对商业道德的自由裁量。鉴于以上问题,未来在数据抓取行为引发的不正当竞争纠纷案件中对数据抓取正当性的判断应当从利益平衡视角衡量自由竞争与公平竞争、数据控制与数据流通、数据抓取相关主体利益等方面入手,淡化数据权属划分,细化商业道德内容,谋求多方利益平衡,客观全面地判断数据抓取行为的正当性。 展开更多
关键词 数据抓取 网络爬虫 利益平衡 不正当竞争 数据利益
下载PDF
Python爬虫技术在学术聚合系统中的应用 被引量:2
18
作者 崔梦银 邓茵 刘满意 《现代信息科技》 2024年第10期68-74,共7页
爬虫技术是搜索引擎和信息网站获取数据的核心技术之一,专用的网络爬虫能够在短时间内从网络上抓取大量有用数据。基于为研究者提供所需学术资源的目的,研究了爬虫技术在爬取学术网站论文数据中的应用。分析了Python爬虫技术在学术聚合... 爬虫技术是搜索引擎和信息网站获取数据的核心技术之一,专用的网络爬虫能够在短时间内从网络上抓取大量有用数据。基于为研究者提供所需学术资源的目的,研究了爬虫技术在爬取学术网站论文数据中的应用。分析了Python爬虫技术在学术聚合系统中的应用,借助大数据技术手段对所爬取的学术数据进行存储、清洗、聚合、消歧和融合。Python爬虫技术在学术聚合系统中起着关键作用,助力研发人员构建强大的数据聚合和分析平台,为学术研究人员提供有价值的信息资源,对学术研究、文献检索和信息发现都具有重要意义。 展开更多
关键词 Python爬虫 学术资源 大数据技术 学术聚合系统
下载PDF
基于Python的全国旅游信息统计网站数据抓取研究
19
作者 郭晨灏 柳箐 +3 位作者 姜澳 赵美娇 徐子薇 王博 《电脑与信息技术》 2024年第5期71-74,90,共5页
伴随网络信息时代的发展,网民人数持续增加,人们可以通过各种方式查找信息,但数据量太大导致获取个性化信息变得困难,耗时变长。基于此,借助Python爬虫技术,采用Scrapy框架,创建针对旅游信息的数据抓取项目。主要介绍了爬取数据的基本流... 伴随网络信息时代的发展,网民人数持续增加,人们可以通过各种方式查找信息,但数据量太大导致获取个性化信息变得困难,耗时变长。基于此,借助Python爬虫技术,采用Scrapy框架,创建针对旅游信息的数据抓取项目。主要介绍了爬取数据的基本流程,给出了爬取数据的具体实例,对爬取数据的持久化存储进行了相关论述。 展开更多
关键词 PYTHON语言 旅游网站 数据爬虫
下载PDF
论网络“白帽子”的刑事合规保护
20
作者 刘昕帅 《乐山师范学院学报》 2024年第6期110-116,共7页
网络“白帽子”运用网络爬虫技术爬取用于模拟测试的网络信息数据,目的在于查找网络漏洞,客观行为因符合非法获取计算机信息系统数据罪的构成要件而存在法律风险,主观意图因以维护网络安全为追求而具备合法空间。实务中对网络“白帽子... 网络“白帽子”运用网络爬虫技术爬取用于模拟测试的网络信息数据,目的在于查找网络漏洞,客观行为因符合非法获取计算机信息系统数据罪的构成要件而存在法律风险,主观意图因以维护网络安全为追求而具备合法空间。实务中对网络“白帽子”的刑事治理既存在难以界定爬取网络信息数据的非法界限而使网络“白帽子”不当入罪的问题,又存在无法划定爬取网络信息数据的合法空间而难以发挥网络“白帽子”网络安全维护作用的问题。学界对网络“白帽子”是否入罪存在不同观点,但均认可能够划定网络“白帽子”边界赋予行为空间。网络“白帽子”刑事治理领域应引入刑事合规理念,通过内部风险控制机制与外部司法指导机制实现网络“白帽子”合规保护,实现网络安全维护的同时消解潜在信息数据安全风险。 展开更多
关键词 网络爬虫 信息数据 刑事合规
下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部