期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
编制价格指数的爬虫数据抽样方法研究
1
作者 雷兵 梁凯凯 刘维 《统计与决策》 北大核心 2024年第12期24-28,共5页
文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算... 文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算法及其轮廓系数实现总体数据分层,并通过不等概率随机抽样获取各层代表性样本;考虑到连续性调查中入选样本存在无回答现象,提出正式和备选样本思路,针对每个正式样本,采用最近邻匹配法挑选若干个备选样本,当正式样本无回答时,以备选样本作为替补来完成价格指数编制。以天猫商城粮油品类为例进行验证,结果表明:在抓取的数据中,基期全量爬虫数据有18351条,第2—8期连续性调查的平均抽样比为10.18%,抽样的平均相对误差为0.59%,说明该方法是可行的。 展开更多
关键词 价格指数 爬虫数据 分层抽样 聚类算法 样本匹配
下载PDF
基于电商平台爬虫数据的面粉价格指数预测
2
作者 雷兵 王静华 《全国流通经济》 2024年第11期10-13,共4页
随着网络零售的发展,电商平台面粉的交易数据越来越庞大,为了监测电商平台面粉价格走势,使用爬虫技术采集面粉大数据,并根据合适的价格指数计算公式计算出各期价格指数,再利用时间序列预测模型对其预测十分必要。本文通过网络爬虫技术... 随着网络零售的发展,电商平台面粉的交易数据越来越庞大,为了监测电商平台面粉价格走势,使用爬虫技术采集面粉大数据,并根据合适的价格指数计算公式计算出各期价格指数,再利用时间序列预测模型对其预测十分必要。本文通过网络爬虫技术采集京东平台的面粉数据,再改进加权价格指数计算方法以获得各期电商评分价格指数,最后再构建时间序列模型ARIMA和ARIMAX预测面粉价格指数走势。 展开更多
关键词 爬虫数据 电商面粉 价格指数 预测分析
下载PDF
基于python的分布式网络反爬虫数据有序性研究 被引量:2
3
作者 朱镕申 孙川钘 潘虹 《计算机仿真》 北大核心 2023年第5期426-429,447,共5页
爬虫产生的负面影响导致网站无法正常访问、运行,故反爬虫技术应运而生,针对反爬虫数据存在的无序性问题,提出面向分布式网络反爬虫数据有序性研究,降低数据后续处理难度。基于python语言及其Scrapy结构,架构分步式网络反爬虫模型,采取... 爬虫产生的负面影响导致网站无法正常访问、运行,故反爬虫技术应运而生,针对反爬虫数据存在的无序性问题,提出面向分布式网络反爬虫数据有序性研究,降低数据后续处理难度。基于python语言及其Scrapy结构,架构分步式网络反爬虫模型,采取人为纠错、主成分分析线性降维以及数据转换等预处理手段,获取特征清晰的反爬虫数据集;根据反爬虫数据样本集与训练集的合并集,结合有向图,利用k最邻近分类算法划分反爬虫数据类别,针对分布式网络反爬虫数据的无序性,设计比特序列递推算法,赋予反爬虫数据有序性。仿真阶段中,经对比百度图片与反爬取到的图片顺序,验证所提方法的有效性,通过探索带宽环境对数据有序性的影响可知,其有序性不受带宽环境影响。 展开更多
关键词 分布式网络 爬虫数据 有序性 分类算法
下载PDF
多方共治:西安共享单车停放优化策略研究——基于摩拜单车网络爬虫数据的分析 被引量:2
4
作者 陈霈琛 董欣 《现代城市研究》 CSSCI 2019年第6期2-8,共7页
本文通过对摩拜共享单车客户端数据的抓取与分析,构建了"堆积程度"与“使用热度”两个指标来衡量共享单车的分布情况与运行状态。发现西安的共享单车具有以下特征:首先,西安城区范围内共享单车呈现“才”字型分布,西安二环以... 本文通过对摩拜共享单车客户端数据的抓取与分析,构建了"堆积程度"与“使用热度”两个指标来衡量共享单车的分布情况与运行状态。发现西安的共享单车具有以下特征:首先,西安城区范围内共享单车呈现“才”字型分布,西安二环以内借还车行为分布均匀,但借还车高峰区域分布在二环外侧的多个节点;其次,车辆堆积越严重,空间的边际借还数量越低;第三,车辆高使用率地区通常位于用地性质单一的区域和公交可进入性差的边缘地区;第四,在一些地段自组织地出现了位置固定的单车"准车站"。根据以上特征提出共享单车的停放策略应综合考虑城市土地利用现状与发展规划,与公共交通设施互补发展,与城市规划、城市建设相协调。 展开更多
关键词 共享单车 网络爬虫数据 多方共治 停放策略 堆积程度 使用热度
下载PDF
基于爬虫数据的粮油网络零售价格指数构建 被引量:1
5
作者 雷兵 梁凯凯 《企业科技与发展》 2022年第11期75-78,共4页
随着网络零售市场的发展与新冠肺炎疫情的不间断流行,粮油网络零售市场已成为居民购买粮油商品的新渠道。通过对淘宝平台的粮油商品零售数据进行爬虫抓取,进而再引入朴素贝叶斯算法建立分类模型对网络粮油商品进行分类,从而提出一种粮... 随着网络零售市场的发展与新冠肺炎疫情的不间断流行,粮油网络零售市场已成为居民购买粮油商品的新渠道。通过对淘宝平台的粮油商品零售数据进行爬虫抓取,进而再引入朴素贝叶斯算法建立分类模型对网络粮油商品进行分类,从而提出一种粮油网络零售价格指数构建方案,其可为其他电商平台的各类商品零售数据抓取、价格指数构建和监控提供应用基础。通过淘宝平台的粮油网络零售价格指数构建结果可知,粮油网络零售价格指数与其类目下的大米、面粉、杂粮和食用油网络零售价格指数在各期的价格走势并不相同,因此若电商平台的供需双方想要更加精细地了解网络粮油商品的价格走势,则需对网络粮油类目下的二级类目商品独立研究。 展开更多
关键词 粮油网络零售价格指数 爬虫数据 朴素贝叶斯分类 帕氏指数
下载PDF
基于OBE理念与PDCA循环的数据采集与网络爬虫课程教学创新设计
6
作者 王娜 张燕华 周章金 《信息与电脑》 2024年第15期250-252,256,共4页
数据采集与网络爬虫具有应用范围广、实用性强等特点,学生普遍学习兴趣较高。但传统教学模式侧重知识传授,难以满足社会对大数据人才的需求。成果导向教育(Outcome based education,OBE)理念强调学习成果,这与人才能力导向需求相吻合。... 数据采集与网络爬虫具有应用范围广、实用性强等特点,学生普遍学习兴趣较高。但传统教学模式侧重知识传授,难以满足社会对大数据人才的需求。成果导向教育(Outcome based education,OBE)理念强调学习成果,这与人才能力导向需求相吻合。计划–执行–检查–行动(Plan-Do-Check-Act,PDCA)循环是全面质量管理遵循的科学程序,它构成了持续改进的基本方法和框架。本文将OBE理念与PDCA循环相融合,以学生为核心,以成果为导向,以问题为抓手,对数据采集与网络爬虫课程中的教学设计、教学实施、教学评价和教学反思四个过程进行了创新设计,期望实现课程质量的持续改进,培养学生的编程能力、自主学习能力及分析解决问题的能力。 展开更多
关键词 OBE PDCA 数据采集与网络爬虫
下载PDF
气象网页数据反爬虫措施探讨
7
作者 乔显栋 任睿智 +1 位作者 史贺龙 费嘉琛 《数字技术与应用》 2024年第2期112-114,共3页
随着气象事业及互联网技术的发展,气象数据逐渐成为一项重要资源,并成为数据保护的重点对象,与此同时,获取数据资源的技术,尤其是网络爬虫技术也发展迅猛。各种科研、服务对气象数据的需求日益增长,而数据使用者可能利用爬虫程序使用反... 随着气象事业及互联网技术的发展,气象数据逐渐成为一项重要资源,并成为数据保护的重点对象,与此同时,获取数据资源的技术,尤其是网络爬虫技术也发展迅猛。各种科研、服务对气象数据的需求日益增长,而数据使用者可能利用爬虫程序使用反爬虫的对抗技术非法来获取自己所需的气象数据。本文旨在研究反爬虫措施,并结合实践,探讨如何采取相应的措施对抗数据爬虫,实现对网站气象数据资源的保护。 展开更多
关键词 数据保护 网络爬虫技术 爬虫 气象事业 气象数据 数据爬虫 网页数据 爬虫程序
下载PDF
基于Python语言的罗技设备数据可视化系统
8
作者 张智浩 鞠爽爽 《南通职业大学学报》 2024年第1期77-80,共4页
为了给用户匹配罗技设备提供数据参考,基于Python语言开发了罗技设备数据可视化系统。通过爬虫算法爬取罗技设备的官网数据,运用“Vue+Django+MySQL”技术栈完成可视化系统的开发;以用户为核心设计系统功能,允许用户直观浏览电子产品和... 为了给用户匹配罗技设备提供数据参考,基于Python语言开发了罗技设备数据可视化系统。通过爬虫算法爬取罗技设备的官网数据,运用“Vue+Django+MySQL”技术栈完成可视化系统的开发;以用户为核心设计系统功能,允许用户直观浏览电子产品和罗技设备的相关数据,且支持用户进行评论、收藏等互动操作。实践表明,该系统不仅可为用户选择罗技设备提供有效的数据参考,也可为罗技设备市场及用户行为等数据分析提供平台。 展开更多
关键词 罗技设备 数据爬虫 可视化系统 数据分析 PYTHON语言
下载PDF
基于网格数据的北京文化产业空间分布特征与优化建议
9
作者 环梅 《北京印刷学院学报》 2024年第2期42-46,共5页
本文利用GIS技术把北京市分为1766个网格,运用数据爬虫技术获取各网格的文化企业数据,运用空间自相关方法从微观层面深入挖掘北京文化产业的空间分布特征。结果表明,北京市文化企业数量分布总体上呈现中心城区密集并向周边城区扩散的空... 本文利用GIS技术把北京市分为1766个网格,运用数据爬虫技术获取各网格的文化企业数据,运用空间自相关方法从微观层面深入挖掘北京文化产业的空间分布特征。结果表明,北京市文化企业数量分布总体上呈现中心城区密集并向周边城区扩散的空间集聚特征,识别出各行政区的文化产业热点网格区域,结合各城区热点区域分布及其人文生态资源特点,提出了差异化的文化产业空间承载优化建议。 展开更多
关键词 文化产业 空间集聚 网格数据 空间承载优化 GIS技术 数据爬虫
下载PDF
基于Python的全国旅游信息统计网站数据抓取研究
10
作者 郭晨灏 柳箐 +3 位作者 姜澳 赵美娇 徐子薇 王博 《电脑与信息技术》 2024年第5期71-74,90,共5页
伴随网络信息时代的发展,网民人数持续增加,人们可以通过各种方式查找信息,但数据量太大导致获取个性化信息变得困难,耗时变长。基于此,借助Python爬虫技术,采用Scrapy框架,创建针对旅游信息的数据抓取项目。主要介绍了爬取数据的基本流... 伴随网络信息时代的发展,网民人数持续增加,人们可以通过各种方式查找信息,但数据量太大导致获取个性化信息变得困难,耗时变长。基于此,借助Python爬虫技术,采用Scrapy框架,创建针对旅游信息的数据抓取项目。主要介绍了爬取数据的基本流程,给出了爬取数据的具体实例,对爬取数据的持久化存储进行了相关论述。 展开更多
关键词 PYTHON语言 旅游网站 数据爬虫
下载PDF
一套基于数据挖掘技术的网络舆情预警系统开发研究
11
作者 唐雨霞 左尚扬 +2 位作者 易业曦 付晓姣 杨若琛 《电脑知识与技术》 2024年第21期67-70,共4页
随着互联网的发展,网络成为人们自由获取信息和表达意见的重要平台,网络舆情管理也日益复杂。通过数据挖掘技术构建一套网络舆情预警系统,可对网络言论进行分析和预警。文章首先介绍舆情数据的采集方法,包括数据爬虫、API接口获取等;然... 随着互联网的发展,网络成为人们自由获取信息和表达意见的重要平台,网络舆情管理也日益复杂。通过数据挖掘技术构建一套网络舆情预警系统,可对网络言论进行分析和预警。文章首先介绍舆情数据的采集方法,包括数据爬虫、API接口获取等;然后阐述了舆情数据的挖掘分析过程,包括数据挖掘和文本分析;最后构建了一套框架完整、功能模块较为丰富的舆情预警系统及展望网络舆情系统的可应用场景,以期为预防和应对网络舆情提供支持。 展开更多
关键词 数据挖掘 网络舆情 舆情预警 数据爬虫 文本分析
下载PDF
基于Java线程池技术的数据爬虫设计与实现 被引量:6
12
作者 刘文 王标 王丁 《电脑编程技巧与维护》 2016年第7期8-9,21,共3页
为了改善数据获取爬虫程序的运行性能和提高数据获取效率,分析了数据爬虫的原理与架构,设计并实现了一种基于Java线程池技术的爬虫程序架构。该爬虫程序采用多个线程并行处理页面,极大地改善了数据获取的效率,提高了用来获取数据的机器... 为了改善数据获取爬虫程序的运行性能和提高数据获取效率,分析了数据爬虫的原理与架构,设计并实现了一种基于Java线程池技术的爬虫程序架构。该爬虫程序采用多个线程并行处理页面,极大地改善了数据获取的效率,提高了用来获取数据的机器的资源利用率。 展开更多
关键词 JAVA多线程 线程池 数据爬虫
下载PDF
人工智能时代我国会计人才需求分析——基于爬虫大数据分析技术 被引量:7
13
作者 段培吉 商思争 +2 位作者 詹爱铃 易爱军 王亚光 《淮海工学院学报(人文社会科学版)》 2019年第12期78-81,共4页
采用python技术通过爬取智联招聘和前程无忧网173522条会计招聘数据,分析了当前我国会计招聘市场对会计人才的需求结构,得出了如下结论:会计人才需求仍以低端为主;低端财会类专业求职竞争趋于激烈;现有课程基本能够满足用人单位需求。
关键词 人工智能时代 会计人才 数据分析 爬虫数据
下载PDF
基于“超星”平台《数据采集与网络爬虫》的全线上教学实践
14
作者 陈群贤 《中国宽带》 2020年第4期92-92,共1页
基于教育部“停课不停学、疫情防控与教学两不误”号召,分析了数据采集与网络爬虫课程特点,践行了超星平台加QQ直播互动的教育信息化手段进行数据采集与网络爬虫课程的全线上教学。从课前准备、直播授课、作业和实验、辅导答疑、个别学... 基于教育部“停课不停学、疫情防控与教学两不误”号召,分析了数据采集与网络爬虫课程特点,践行了超星平台加QQ直播互动的教育信息化手段进行数据采集与网络爬虫课程的全线上教学。从课前准备、直播授课、作业和实验、辅导答疑、个别学生缺课或未完成在线学习任务、期中期末测试等方面介绍全线上教学流程设计,在实践过程中发现了肢体语言表达不了和教学资源丰富度不够等不足之处,有待于在以后的教学过程中不断改进,进一步提高线上教学效果。 展开更多
关键词 数据采集与网络爬虫 线上课程教学流程 肢体语言 教学资源
下载PDF
基于数据驱动的阳光高考志愿决策软件设计与实现
15
作者 李慧静 姚海霞 《现代计算机》 2023年第22期89-93,103,共6页
针对内蒙古阳光高考志愿填报的特征,开发了一款基于B/S的软件系统,旨在服务考生填报志愿,实现分数与院校专业的合理匹配,完成高考志愿的有效填报。首先,阐述了在数据驱动下的基于位次等效决策算法的高考志愿填报方案决策软件系统的整体... 针对内蒙古阳光高考志愿填报的特征,开发了一款基于B/S的软件系统,旨在服务考生填报志愿,实现分数与院校专业的合理匹配,完成高考志愿的有效填报。首先,阐述了在数据驱动下的基于位次等效决策算法的高考志愿填报方案决策软件系统的整体设计思路;其次,给出了基于Python的Django项目技术方案选型过程;最后,详细阐述了包括数据库设计、基础数据爬虫技术批量下载、报考方案特征分析、高考方案数据案例等软件开发细节,并以案例形式进行了呈现。设计思路及案例分析表明,该软件系统实现了基于数据驱动的高考志愿决策。 展开更多
关键词 高考志愿 决策算法 数据驱动 数据爬虫
下载PDF
基于关联规则挖掘的社区网络数据爬虫算法 被引量:6
16
作者 穆俊 《微电子学与计算机》 CSCD 北大核心 2018年第8期105-108,共4页
为了提高社区网络的联合推荐性能,需要进行网络数据爬虫设计,提出一种基于关联规则挖掘的社区网络数据爬虫算法.构建社区网络的信息传递模型,挖掘社区网络用户行为信息特征量,根据数据的属性特征进行关联规则合并,采用模糊指向性聚类方... 为了提高社区网络的联合推荐性能,需要进行网络数据爬虫设计,提出一种基于关联规则挖掘的社区网络数据爬虫算法.构建社区网络的信息传递模型,挖掘社区网络用户行为信息特征量,根据数据的属性特征进行关联规则合并,采用模糊指向性聚类方法进行社区网络的用户行为属性特征聚类处理,对聚类输出的特征量采用自相关特模板匹配方法实现信息融合,实现社交网络数据的关联规则挖掘,结合数据聚类分布属性进行网络信息爬虫,实现社区属性混合推荐.仿真结果表明,采用该算法进行社区网络数据爬虫处理的准确度较高,个性化匹配程度较好,对社区网络联合推荐结果的置信度水平较高,提高了社区发现能力. 展开更多
关键词 关联规则挖掘 社区网络 数据爬虫 推荐
下载PDF
数据爬虫技术对金融信息安全的冲击及制度回应 被引量:3
17
作者 林慰曾 《北京航空航天大学学报(社会科学版)》 CSSCI 2022年第4期161-169,共9页
滥用数据爬虫技术和不当使用金融数据的行为导致了数据权利人和数据控制者之间的矛盾。这不仅削弱了数据流转的风险约束机制,还导致了数据鸿沟和不平等。金融领域的数据开发应当在强化消费者信息安全保护的基础上,推动数据的有序流动,... 滥用数据爬虫技术和不当使用金融数据的行为导致了数据权利人和数据控制者之间的矛盾。这不仅削弱了数据流转的风险约束机制,还导致了数据鸿沟和不平等。金融领域的数据开发应当在强化消费者信息安全保护的基础上,推动数据的有序流动,实现制度建构与法律完善的深度融合。一方面,金融数据开发宜采取保护性利用模式,以矫正过度利用的负效应,实现权利义务配置的多层次效率;另一方面,规范利用数据爬虫技术的数据抓取行为需要实现信息开发和隐私保护的合理分流。建议通过明确个人信息权和个人隐私权保护的差异化配置,强化金融消费者数据的公法保护并完善场景确权与保护机制,从而实现群体保护与个体保护、一般权利与特殊权利的协同发展。 展开更多
关键词 数据爬虫技术 数据流通 数据利用 金融消费者保护 信息安全
下载PDF
基于爬虫大数据的网络负载异常监测方法 被引量:2
18
作者 杨毅 《河南科技》 2019年第34期33-35,共3页
针对传统网络负载异常监测方法中精准度较差、有效性较低等问题,本文提出一种基于爬虫大数据的网络负载异常监测方法。为了验证该方法的有效性,将其与传统监测方法进行对比实验。实验结果表明,该方法实用性和精准度更高,更适用于对网络... 针对传统网络负载异常监测方法中精准度较差、有效性较低等问题,本文提出一种基于爬虫大数据的网络负载异常监测方法。为了验证该方法的有效性,将其与传统监测方法进行对比实验。实验结果表明,该方法实用性和精准度更高,更适用于对网络负载异常的监测。 展开更多
关键词 爬虫数据 网络负载 异常监测
下载PDF
数据爬虫侵权行为研究
19
作者 李凡迪 徐家力 《汕头大学学报(人文社会科学版)》 2021年第8期75-84,96,共11页
数据爬虫程序因为有效提取网络中的信息,为数据的高效获取提供解决方案而得到十分广泛的应用。然而,伴随着技术的进一步应用和发展,产生了大量因获取信息行为和数据使用行为不当引发的纠纷。通过对数据爬虫的技术应用、获取数据的行为以... 数据爬虫程序因为有效提取网络中的信息,为数据的高效获取提供解决方案而得到十分广泛的应用。然而,伴随着技术的进一步应用和发展,产生了大量因获取信息行为和数据使用行为不当引发的纠纷。通过对数据爬虫的技术应用、获取数据的行为以及Robots协议的法律性质进行分析,将有关数据爬虫的国内外案例进行研究、对比,探讨数据爬虫中的著作权与个人信息权侵权行为的认定以及相应民事责任,对数据爬虫技术有关的法律问题进行思考并提出建议。 展开更多
关键词 数据爬虫 侵权行为 著作权 个人信息权 隐私权
下载PDF
互联网电视集成平台数据爬虫软件 被引量:2
20
作者 付茗 《电子测试》 2017年第12X期27-31,共5页
近年来,互联网电视迅猛发展,各种各样的互联网电视机顶盒层出不穷,这对互联网电视集成平台的监看任务提出了越来越高的要求。互联网电视集成平台中所传播的节目,更新频繁,且数量众多,而互联网电视监看需要对集成平台所传播的节目数量进... 近年来,互联网电视迅猛发展,各种各样的互联网电视机顶盒层出不穷,这对互联网电视集成平台的监看任务提出了越来越高的要求。互联网电视集成平台中所传播的节目,更新频繁,且数量众多,而互联网电视监看需要对集成平台所传播的节目数量进行统计,此项工作统计量巨大,如果依靠人力统计,不仅浪费时间,而且容易出错。本文主要探讨了互联网电视集成平台的数据爬虫统计方法,并依此开发了相关软件以提高监看工作效率。 展开更多
关键词 互联网电视 数据爬虫 EPG
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部