期刊文献+
共找到3,788篇文章
< 1 2 190 >
每页显示 20 50 100
编制价格指数的爬虫数据抽样方法研究
1
作者 雷兵 梁凯凯 刘维 《统计与决策》 CSSCI 北大核心 2024年第12期24-28,共5页
文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算... 文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算法及其轮廓系数实现总体数据分层,并通过不等概率随机抽样获取各层代表性样本;考虑到连续性调查中入选样本存在无回答现象,提出正式和备选样本思路,针对每个正式样本,采用最近邻匹配法挑选若干个备选样本,当正式样本无回答时,以备选样本作为替补来完成价格指数编制。以天猫商城粮油品类为例进行验证,结果表明:在抓取的数据中,基期全量爬虫数据有18351条,第2—8期连续性调查的平均抽样比为10.18%,抽样的平均相对误差为0.59%,说明该方法是可行的。 展开更多
关键词 价格指数 爬虫数据 分层抽样 聚类算法 样本匹配
下载PDF
基于网络爬虫技术的网络招聘信息分析
2
作者 黄媛 《长江工程职业技术学院学报》 CAS 2024年第3期30-34,共5页
随着互联网技术的飞速发展,网上招聘信息的分析吸引了越来越多的人的注意。这些信息通常是非结构化的,并且包含大量的数据。为了获得结构化的岗位招聘信息,我们采用了爬虫技术进行数据类岗位的数据采集与分析,克服了传统分析方法的不足... 随着互联网技术的飞速发展,网上招聘信息的分析吸引了越来越多的人的注意。这些信息通常是非结构化的,并且包含大量的数据。为了获得结构化的岗位招聘信息,我们采用了爬虫技术进行数据类岗位的数据采集与分析,克服了传统分析方法的不足,分析了重点城市中该岗位的分类、学历要求、工作经验等,其结果为大专院校计算机类人才培养提供参考。 展开更多
关键词 网络爬虫 招聘信息 分析
下载PDF
基于OBE理念与PDCA循环的数据采集与网络爬虫课程教学创新设计
3
作者 王娜 张燕华 周章金 《信息与电脑》 2024年第15期250-252,256,共4页
数据采集与网络爬虫具有应用范围广、实用性强等特点,学生普遍学习兴趣较高。但传统教学模式侧重知识传授,难以满足社会对大数据人才的需求。成果导向教育(Outcome based education,OBE)理念强调学习成果,这与人才能力导向需求相吻合。... 数据采集与网络爬虫具有应用范围广、实用性强等特点,学生普遍学习兴趣较高。但传统教学模式侧重知识传授,难以满足社会对大数据人才的需求。成果导向教育(Outcome based education,OBE)理念强调学习成果,这与人才能力导向需求相吻合。计划–执行–检查–行动(Plan-Do-Check-Act,PDCA)循环是全面质量管理遵循的科学程序,它构成了持续改进的基本方法和框架。本文将OBE理念与PDCA循环相融合,以学生为核心,以成果为导向,以问题为抓手,对数据采集与网络爬虫课程中的教学设计、教学实施、教学评价和教学反思四个过程进行了创新设计,期望实现课程质量的持续改进,培养学生的编程能力、自主学习能力及分析解决问题的能力。 展开更多
关键词 OBE PDCA 数据采集与网络爬虫
下载PDF
基于资源感知的分布式爬虫任务调度方法
4
作者 张军 魏继桢 李钰彬 《现代电子技术》 北大核心 2024年第9期86-90,共5页
文中致力于开发一种基于资源感知的分布式爬虫任务调度方法,以优化分布式环境中各节点的系统资源利用,提升爬虫任务的执行效率。该方法通过引入资源感知调度算法和节点优先级管理,实现对节点中CPU、内存、网络等资源的监测,以便均衡调... 文中致力于开发一种基于资源感知的分布式爬虫任务调度方法,以优化分布式环境中各节点的系统资源利用,提升爬虫任务的执行效率。该方法通过引入资源感知调度算法和节点优先级管理,实现对节点中CPU、内存、网络等资源的监测,以便均衡调度爬虫任务,即确保爬虫任务在资源利用率较低的节点上执行,从而有效减轻各个节点之间资源过度占用和不均衡问题。另外,该方法引入的Flask提高了可扩展性,实现了可视化爬虫监控平台。实验结果表明,文中提出的方法在提高爬虫任务执行效率和适应性方面取得了显著效果,为分布式爬虫系统的进一步优化提供了有益指导。 展开更多
关键词 分布式爬虫 任务调度 资源感知 FLASK 数据采集 资源利用率
下载PDF
基于主题爬虫的网络舆情系统设计与实现
5
作者 江官星 黄卫 《无线互联科技》 2024年第14期33-35,50,共4页
网络舆情具有快速、广泛传播的特征,发酵扩散时间极短,若未及时发现并妥善处置,可能会引发网络舆情危机,造成严重的危害与影响。为净化网络环境,减少网络舆情爆发所产生的损失,文章以网络爬虫技术为基础,设计了基于主题爬虫的网络舆情... 网络舆情具有快速、广泛传播的特征,发酵扩散时间极短,若未及时发现并妥善处置,可能会引发网络舆情危机,造成严重的危害与影响。为净化网络环境,减少网络舆情爆发所产生的损失,文章以网络爬虫技术为基础,设计了基于主题爬虫的网络舆情监测管理系统。首先,文章阐述了此系统设计思路,分别介绍了系统架构设计、系统功能设计、系统安全设计3个方面内容。最后,文章依次给出了舆情采集、舆情监测、舆情分析、舆情预警、舆情处置5个主要功能的实现方法,旨在为相关部门科学监控与处置网络舆情提供可靠的软件系统。 展开更多
关键词 主题爬虫 网络舆情 系统设计 功能实现
下载PDF
基于电商平台爬虫数据的面粉价格指数预测
6
作者 雷兵 王静华 《全国流通经济》 2024年第11期10-13,共4页
随着网络零售的发展,电商平台面粉的交易数据越来越庞大,为了监测电商平台面粉价格走势,使用爬虫技术采集面粉大数据,并根据合适的价格指数计算公式计算出各期价格指数,再利用时间序列预测模型对其预测十分必要。本文通过网络爬虫技术... 随着网络零售的发展,电商平台面粉的交易数据越来越庞大,为了监测电商平台面粉价格走势,使用爬虫技术采集面粉大数据,并根据合适的价格指数计算公式计算出各期价格指数,再利用时间序列预测模型对其预测十分必要。本文通过网络爬虫技术采集京东平台的面粉数据,再改进加权价格指数计算方法以获得各期电商评分价格指数,最后再构建时间序列模型ARIMA和ARIMAX预测面粉价格指数走势。 展开更多
关键词 爬虫数据 电商面粉 价格指数 预测分析
下载PDF
网络爬虫行为侵犯公民个人信息入罪标准的认定现状与完善路径
7
作者 郭晓燕 王皓民 《广西警察学院学报》 2024年第4期66-75,共10页
司法实践中,网络爬虫行为侵犯公民个人信息的案件呈逐年增长趋势,其中侵犯公民个人信息罪是网络爬虫行为最常触犯的罪名。通过对相关案例进行梳理发现,法院在认定网络爬虫行为构成侵犯公民个人信息罪时存在一些问题:一是法院对“公民个... 司法实践中,网络爬虫行为侵犯公民个人信息的案件呈逐年增长趋势,其中侵犯公民个人信息罪是网络爬虫行为最常触犯的罪名。通过对相关案例进行梳理发现,法院在认定网络爬虫行为构成侵犯公民个人信息罪时存在一些问题:一是法院对“公民个人信息”的界定有扩大化倾向;二是关于“违反国家有关规定”的前置条件解释不清;三是对于“非法获取”认定不明。针对上述问题,首先需要明确对“公民个人信息”的界定要围绕“可识别性”展开,明确间接个人信息的边界;其次,基于罪刑法定的基本原则,需对“违反国家有关规定”进行限缩解释;最后,要在知情同意原则的基础上明确“非法获取”的边界。 展开更多
关键词 网络爬虫技术 侵犯公民个人信息罪 入罪认定标准
下载PDF
基于网络爬虫的智能推送就业系统研究与设计
8
作者 苏桂青 《信息与电脑》 2024年第5期91-93,共3页
文章提出一种基于网络爬虫的智能推送就业系统,旨在帮助用户更加高效地获取和筛选符合自己需求的就业信息。该系统通过自动化的网络爬取和数据处理技术,能够从各类招聘网站和企业官方网站中获取就业信息,并根据用户的个人需求和偏好进... 文章提出一种基于网络爬虫的智能推送就业系统,旨在帮助用户更加高效地获取和筛选符合自己需求的就业信息。该系统通过自动化的网络爬取和数据处理技术,能够从各类招聘网站和企业官方网站中获取就业信息,并根据用户的个人需求和偏好进行智能推送。研究结果表明,系统的各个模块运行正常,响应快,有效提高了用户的就业信息获取效率。 展开更多
关键词 爬虫技术 个性化推荐 系统测试
下载PDF
基于Java的网络爬虫算法的实现
9
作者 李晖 《电脑与信息技术》 2024年第3期1-4,共4页
该设计在实现多个抓取线程管理和利用线程池发送抓取网页的同时,采用非递归爬行算法,利用Java多线程技术和基于内存的作业队列来增加、分配和处理运行过程中的URL。搜索引擎简易客户端的设计最终采用JSP(Java Server Pages)技术完成。
关键词 网络爬虫 搜索引擎 JSP
下载PDF
基于网络爬虫程序的福州教育领域热点问题爬取分析
10
作者 周秦超 林向阳 《中国信息界》 2024年第6期125-127,共3页
引言近年来,我国政务信息化水平有了长足的进步,人们可以通过各种信息化手段便捷地反映各类关系民生的问题,并及时处理和反馈。其中,教育领域问题是人们目前广泛关注的问题,作为教育工作者,应当加以重视并进行分析研究。基于此,以福州为... 引言近年来,我国政务信息化水平有了长足的进步,人们可以通过各种信息化手段便捷地反映各类关系民生的问题,并及时处理和反馈。其中,教育领域问题是人们目前广泛关注的问题,作为教育工作者,应当加以重视并进行分析研究。基于此,以福州为例,抓取了福州12345热线网站上2011~2020年教育相关的历史问题,通过数据预处理,找出热门问题,并加以可视化分析研究。 展开更多
关键词 政务信息化 数据预处理 可视化分析 爬虫程序 信息化手段 教育工作者 教育领域 热点问题
下载PDF
一种分布式竞争转发的VANET路由算法
11
作者 黄子秋 高山 +1 位作者 罗天放 王桐 《计算机仿真》 2024年第6期186-191,共6页
在节点密度变化频繁且高速移动的车联网环境中,传统AODV算法采用洪范广播RREQ机制寻找路由,网络拓扑变化较快且链路易断裂,节点密度较大时容易造成广播风暴,降低网络性能。针对上述问题,提出一种改进的分布式竞争转发PLPB-AODV算法。该... 在节点密度变化频繁且高速移动的车联网环境中,传统AODV算法采用洪范广播RREQ机制寻找路由,网络拓扑变化较快且链路易断裂,节点密度较大时容易造成广播风暴,降低网络性能。针对上述问题,提出一种改进的分布式竞争转发PLPB-AODV算法。该算法在广播报文中嵌入网络收集到的节点位置与局部拓扑信息,以帮助中继节点获得先验拓扑结构来计算转发概率;针对网络节点非均匀分布特性,提取局部拓扑中心与边缘特征信息,辅助中继节点对转发概率进行调整。NS-3仿真结果表明,上述算法能够很好的适应节点密度变化较大且节点分布不均匀的网络环境,降低了网络端到端时延,具有较高的数据包分组投递率,提高了网络性能。 展开更多
关键词 车用移动通信网络 路由算法 动态感知 盲目洪范
下载PDF
网络爬虫行为版权侵权的行政规制 被引量:1
12
作者 莫张勤 卢易 《北京邮电大学学报(社会科学版)》 2024年第1期59-65,75,共8页
网络爬虫是一项能够根据指令自动搜索并抓取指定网络信息内容的新兴互联网技术,存在被滥用之风险。作为爬取网络版权数据信息的工具,网络爬虫行为版权侵权现象时有发生。目前,对于网络爬虫行为版权侵权的规制多见于民法与刑法领域,忽视... 网络爬虫是一项能够根据指令自动搜索并抓取指定网络信息内容的新兴互联网技术,存在被滥用之风险。作为爬取网络版权数据信息的工具,网络爬虫行为版权侵权现象时有发生。目前,对于网络爬虫行为版权侵权的规制多见于民法与刑法领域,忽视了行政规制。目前存在的网络爬虫行为侵权规制过于依赖司法手段、缺乏针对网络爬虫行为的必要规范以及行政机关针对网络爬虫行为的互联网监管缺失等问题,阻碍了网络爬虫行为版权侵权行政规制的应用与发展。对此,可以从构建网络爬虫行为版权侵权的全覆盖预警系统、完善网络爬虫行为版权规范内容和设置网络爬虫使用者自律管理义务等方面着手,充分利用行政手段遏制网络爬虫行为版权侵权,保护版权权利人的合法权益。 展开更多
关键词 网络爬虫 网络爬虫行为 版权侵权 行政规制
下载PDF
VANET中隐私保护的格基异构签密方案
13
作者 崔剑阳 蔡英 +1 位作者 张宇 范艳芳 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2269-2277,共9页
针对车载自组织网络(Vehicular Ad hoc Network,VANET)中车辆跨密码系统通信过程中的隐私泄露问题,提出了一种格基异构签密方案.首先,方案实现了无证书密码系统(Certificateless Cryptosystem,CLC)的车辆与基于身份密码系统(Identity-Ba... 针对车载自组织网络(Vehicular Ad hoc Network,VANET)中车辆跨密码系统通信过程中的隐私泄露问题,提出了一种格基异构签密方案.首先,方案实现了无证书密码系统(Certificateless Cryptosystem,CLC)的车辆与基于身份密码系统(Identity-Based Cryptosystem,IBC)的车辆相互通信;其次利用签密的机密性和可认证性防止车辆用户在跨密码系统通信过程中发生隐私泄露,并实现了接收方对消息完整性以及发送方身份合法性的认证;最后在随机预言机模型下证明了方案在适应性选择密文攻击下具有不可区分性(Indistinguishability against adaptive Chosen Cipher Text Attack,IND-CCA2),在适应性选择消息攻击下具有存在性不可伪造性(Existential Unforgeability against adaptive Chosen Messages Attack,EUF-CMA).性能分析表明,与其他方案相比,本文方案在计算开销、通信开销和安全性方面具有一定优势,适用于车辆跨密码系统通信的场景. 展开更多
关键词 车载自组织网络 隐私保护 可认证性 异构签密
下载PDF
网络爬虫行政、民事、刑事一体化治理路径构建研究
14
作者 冯宇轩 王震 《西安石油大学学报(社会科学版)》 2024年第1期100-106,共7页
网络爬虫作为一项衍生于数据化时代的新兴技术在当下已然具有不可估量的积极效能,然而其中更值得给予关注的是其背后盘根错节的法律风险。在对网络爬虫的概念以及其正反层面的影响进行剖析后可发现,在实行客观违法并合主观故意的基础上... 网络爬虫作为一项衍生于数据化时代的新兴技术在当下已然具有不可估量的积极效能,然而其中更值得给予关注的是其背后盘根错节的法律风险。在对网络爬虫的概念以及其正反层面的影响进行剖析后可发现,在实行客观违法并合主观故意的基础上,通过所爬取的数据类型映射的不同法益认定不同罪名的规制方式实然存在许多偏颇之处,因此需要通过健全行刑衔接机制、以广义授权整体外化客观行为、明晰所爬取数据法益实质归属等途径,联动行政、民事、刑事视域进行一体化治理,以创制网络爬虫治理的全新模式。 展开更多
关键词 网络爬虫 robots协议 爬虫机制 数据法益 一体化治理
下载PDF
基于Python爬虫技术的动物检疫信息预警系统
15
作者 郭家鹏 张志帅 +2 位作者 张栓玲 徐霄妍 王芳 《中国动物检疫》 CAS 2024年第8期49-52,共4页
2016年,河南省动物检疫电子出证平台(简称“省平台”)已完成与国家动物检疫大数据平台(简称“国家平台”)的检疫数据对接。然而在指定通道制度实施后,国家平台检疫数据作为畜禽运输车辆查验的最终判定依据,如果省平台与国家平台间数据... 2016年,河南省动物检疫电子出证平台(简称“省平台”)已完成与国家动物检疫大数据平台(简称“国家平台”)的检疫数据对接。然而在指定通道制度实施后,国家平台检疫数据作为畜禽运输车辆查验的最终判定依据,如果省平台与国家平台间数据传输延迟,将严重影响指定通道的查验工作。为及时发现数据传输延迟的问题,基于Python爬虫技术开发了动物检疫信息预警系统,系统建成后取得了良好的应用效果,多次成功发挥预警作用,在一定程度上解决了数据传输延迟问题。同时,在辅助执法方面也起到了预警效果。本文介绍了该系统建设的背景、设计思路、系统框架,以及其在辅助执法方面的扩展应用,仅供同行参考。 展开更多
关键词 兽医 动物检疫 PYTHON 爬虫 预警 辅助执法
下载PDF
基于Python爬虫的招聘数据可视化分析 被引量:4
16
作者 蔡文乐 秦立静 《物联网技术》 2024年第1期102-105,共4页
网络求职是高校毕业生求职就业的主要方式之一。以BOSS直聘网站的相关数据为分析对象,使用Python爬虫技术爬取数据信息,通过ECharts可视化技术,对岗位需求、薪资情况和福利水平等数据进行可视化分析,将分析结果以可视化图表的方式展现,... 网络求职是高校毕业生求职就业的主要方式之一。以BOSS直聘网站的相关数据为分析对象,使用Python爬虫技术爬取数据信息,通过ECharts可视化技术,对岗位需求、薪资情况和福利水平等数据进行可视化分析,将分析结果以可视化图表的方式展现,使得求职者清晰地观测到各个岗位数据信息的变化,为求职者在求职过程中快速找准自身定位提供参考信息,以便及时调整求职的策略并做好准备。 展开更多
关键词 PYTHON 网络爬虫 招聘信息 数据可视化 DJANGO BOSS直聘网
下载PDF
供应链金融人才需求分析——基于爬虫技术对前程无忧网采集的数据分析
17
作者 魏巧云 宋晓黎 《物流科技》 2024年第19期133-137,共5页
针对供应链金融人才的供需矛盾问题,文章采用爬虫技术抓取前程无忧网的数据,对数据进行整理,结合用Excel表中的数据透视图,从招聘需求、招聘企业和对应聘者要求三个方面进行分析,总结出供应链金融职位特征和企业对供应链金融人才需求的... 针对供应链金融人才的供需矛盾问题,文章采用爬虫技术抓取前程无忧网的数据,对数据进行整理,结合用Excel表中的数据透视图,从招聘需求、招聘企业和对应聘者要求三个方面进行分析,总结出供应链金融职位特征和企业对供应链金融人才需求的特点。并据此对高校、学生和企业三方给出了相关建议。 展开更多
关键词 供应链金融人才 需求分析 爬虫技术 数据透视图
下载PDF
基于VSM与HITS融合的扩展主题型爬虫
18
作者 陶飞飞 徐佳 +1 位作者 徐松阳 唐明伟 《计算机仿真》 2024年第10期222-226,共5页
目前主流开源爬虫框架在分析页面与主题领域关联性上,常采用基于关键词的量化和向量空间模型算法相融合,但融合疏忽了界面语义与特定主题间的关联,导致爬取内容与主题产生偏差。为了给金融等领域的舆情分析提供准确的数据支撑,提出一种... 目前主流开源爬虫框架在分析页面与主题领域关联性上,常采用基于关键词的量化和向量空间模型算法相融合,但融合疏忽了界面语义与特定主题间的关联,导致爬取内容与主题产生偏差。为了给金融等领域的舆情分析提供准确的数据支撑,提出一种面向领域扩展主题库的爬虫及系统,通过扩展主题特征库,融合向量空间模型(Vector Space Model,VSM)与超链接主题搜索算法(Hyperlink-Induced Topic Search,HITS),优化了主题页面相关度计算,并针对股票舆情信息爬取进行仿真。结果表明,上述扩展主题型爬虫在爬取准确率和效率等方面有较好地提升,能够有效地完成领域主题信息的爬取任务。 展开更多
关键词 扩展主题爬虫 向量空间模型 超链接主题搜索 股票舆情信息
下载PDF
基于刑事合规视域的网络爬虫刑法规制研究
19
作者 杨心悦 储育明 《梧州学院学报》 2024年第4期1-8,共8页
恶意的网络爬虫具有侵犯刑法所保护的数据法益、个人信息权益和著作权利的刑事风险,有必要通过刑法进行规制。面对网络爬虫刑法风险不断扩张的情况,刑法规制必须在数据爬取方法为突破技术防护措施、数据爬取类型为开放数据和数据爬取类... 恶意的网络爬虫具有侵犯刑法所保护的数据法益、个人信息权益和著作权利的刑事风险,有必要通过刑法进行规制。面对网络爬虫刑法风险不断扩张的情况,刑法规制必须在数据爬取方法为突破技术防护措施、数据爬取类型为开放数据和数据爬取类型为违法数据3个层面作出限制要求。因此,引入刑事合规的理念,设立规范数据采集、个人信息以及著作权内容爬取的专项合规规则可以平衡犯罪打击与数据流通。通过限制网络爬虫爬取数据的刑事责任,规定爬取公开个人信息的可罚性和确定爬取受著作权保护内容的可罚性的方式,达到完善网络爬虫刑法规制的目的。 展开更多
关键词 网络爬虫 刑事合规 刑法规制
下载PDF
基于机器学习的Web网络爬虫算法优化研究
20
作者 刘俊培 贾继洋 +2 位作者 班岚 迟欢 孙沛叶 《软件》 2024年第4期4-7,共4页
随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率... 随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率低下、容易被封禁等。因此,本文对现有的网络爬虫算法进行分析和总结,找出其中存在的问题和不足之处,提出一种基于机器学习的网络爬虫算法优化方法,使其更加智能和自适应,以期更好地满足实际应用的需求。 展开更多
关键词 机器学习 Web网络爬虫算法 算法优化
下载PDF
上一页 1 2 190 下一页 到第
使用帮助 返回顶部