期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
科研人员Web数据自动抓取模式及其开源解决方案 被引量:9
1
作者 张婷婷 刘凯 王伟军 《信息资源管理学报》 2015年第2期21-27,共7页
大数据时代的科研竞争是数据之争,高质量数据的获取往往决定着研究结论的优劣乃至项目的成败。然而对于科研人员的Web数据自动抓取问题,学界目前尚未有系统性研究成果出现。本文对数据抓取的基本模式进行分析,归纳出四类科研人员Web数... 大数据时代的科研竞争是数据之争,高质量数据的获取往往决定着研究结论的优劣乃至项目的成败。然而对于科研人员的Web数据自动抓取问题,学界目前尚未有系统性研究成果出现。本文对数据抓取的基本模式进行分析,归纳出四类科研人员Web数据抓取的基本模式:单站静态抓取模式、跨站静态抓取模式、单站动态抓取模式及跨站动态抓取模式及其技术难点。本文同时也提出了科研人员Web数据自动抓取技术的两种开源解决方案:基于开源爬虫和自行定制爬虫,最后详细探讨了各方案的软件架构并给出了基本代码框架。 展开更多
关键词 科研人员 web数据抓取 技术方案 开源软件
下载PDF
基于Python的Web数据采集技术 被引量:33
2
作者 齐鹏 李隐峰 宋玉伟 《电子科技》 2012年第11期118-120,共3页
针对Web数据采集技术进行了介绍,分析了Web数据采集技术在将非结构化数据转换为结构化数据方面的优势:速度快、准确性高。从HTTP协议层分析了Web数据抓取的原理,并重点介绍了如何实现基于Python的Web数据采集方案。Web数据采集系统可以... 针对Web数据采集技术进行了介绍,分析了Web数据采集技术在将非结构化数据转换为结构化数据方面的优势:速度快、准确性高。从HTTP协议层分析了Web数据抓取的原理,并重点介绍了如何实现基于Python的Web数据采集方案。Web数据采集系统可以分为:HTTP交互和数据解析两个模块。 展开更多
关键词 web数据抓取 屏幕抓取 HTTP协议 PYTHON 正则表达式 XPATH
下载PDF
基于XML的互联网航空数据抓取的研究与实现
3
作者 张淑娟 《电子制作》 2013年第22期126-126,共1页
随着国际互联网的快速发展,我们进入了一个信息膨胀的时代。如何浏览、使用这些信息成为我们关注的问题。网络数据抓取的概念由此应运而生。通过数据抓取能够准确的发现我们所关心的信息,大大提高网络的使用效率。而传统的数据搜索方法... 随着国际互联网的快速发展,我们进入了一个信息膨胀的时代。如何浏览、使用这些信息成为我们关注的问题。网络数据抓取的概念由此应运而生。通过数据抓取能够准确的发现我们所关心的信息,大大提高网络的使用效率。而传统的数据搜索方法所查到的数据庞大,不利于快速的找到所需要的精确信息,针对该类问题,本文研究了一个数据抓取系统,并以航空机票数据抓取为背景,进行系统开发。它解决了利用飞机出行的顾客查找机票不方便的问题,提高了机票查找的准度与效率。 展开更多
关键词 web数据抓取 XML HTML结构树 JSP技术
下载PDF
基于农产品商务网站的价格数据抓取及数据分析技术研究 被引量:2
4
作者 李凌飞 周萍 《甘肃科技》 2011年第19期21-26,39,共7页
随着电子商务在国内迅速发展,各种业务类型的商务网站平台纷纷建立起来,使得互联网成为最大的各类产品信息资源库。如何有效地收集和获取这些信息并利用这些信息实现有针对性的数据分析是一个有价值和实际意义的研究课题。通过设计并实... 随着电子商务在国内迅速发展,各种业务类型的商务网站平台纷纷建立起来,使得互联网成为最大的各类产品信息资源库。如何有效地收集和获取这些信息并利用这些信息实现有针对性的数据分析是一个有价值和实际意义的研究课题。通过设计并实现天府农信智能农产品价格分析平台,针对农产品商务网站平台和对农产品价格信息的Web抓取方法进行了研究,并利用Pentaho BI,建立农产品价格分析平台,对多维数据联机进行了分析。 展开更多
关键词 电子商务 农产品价格 web数据抓取 Pentaho BI OLAP
下载PDF
一种ShowModalDialog弹出窗口抓取技术及应用 被引量:1
5
作者 孙长翔 陈秀国 《电脑编程技巧与维护》 2014年第18期6-7,共2页
在ShowModalDialog弹出窗口抓取问题上,介绍了Web数据抓取技术,分析了Web数据抓取的原理,并重点讨论了利用SPY++工具来实现ShowModalDialog弹出窗口中数据的抓取和处理。
关键词 web数据抓取 SPY++工具 showModalDialog弹出窗口
下载PDF
基于R语言的WEB半结构化数据抓取与统计分析 被引量:2
6
作者 邓远飞 甄晓云 孟捷 《价值工程》 2016年第5期232-234,共3页
大数据时代,数据成为决策最重要的参考之一,通过数据抓取能够准确抓取我们需要的数据,然后挖掘出有用信息。本文以花卉网站为例,提出Web数据抓取与存储框架,实现了抓取Web网站中的半结构化数据,转换成结构化数据存储进数据库,并对数据... 大数据时代,数据成为决策最重要的参考之一,通过数据抓取能够准确抓取我们需要的数据,然后挖掘出有用信息。本文以花卉网站为例,提出Web数据抓取与存储框架,实现了抓取Web网站中的半结构化数据,转换成结构化数据存储进数据库,并对数据进行预处理,然后运用数据分析和数据挖掘技术将结果展现出来,帮助花卉企业在花卉市场进行更准确的商业决策。 展开更多
关键词 XML XPATH R 半结构化 web数据抓取 数据分析 数据挖掘
下载PDF
增量更新并行W eb爬虫系统 被引量:8
7
作者 徐文杰 陈庆奎 《计算机应用》 CSCD 北大核心 2009年第4期1117-1119,1127,共4页
介绍了并行Web爬虫系统的总体结构,引入了增量更新爬虫策略,在提高Web海量数据更新效率的同时,考虑到机群中各个爬虫的能力不一,为了使机群中爬虫的能力得到充分应用,又提出了向量度量技术,解决了抓取任务和爬虫能力匹配的问题。对抓取... 介绍了并行Web爬虫系统的总体结构,引入了增量更新爬虫策略,在提高Web海量数据更新效率的同时,考虑到机群中各个爬虫的能力不一,为了使机群中爬虫的能力得到充分应用,又提出了向量度量技术,解决了抓取任务和爬虫能力匹配的问题。对抓取任务向量、爬虫向量进行了定义,并在此基础上给出了相关的并行算法。实践表明,系统具有良好的分配适应性,并可以在此基础上渐增式地提高网页库新鲜度。 展开更多
关键词 web数据抓取 并行爬虫 增量更新策略 余弦向量法
下载PDF
地理空间集束线可视化表达
8
作者 董志 《电脑编程技巧与维护》 2018年第1期4-20,共17页
目前,Web数据的抓取和挖掘成为计算机研究和开发中的热点,同时,抓取和挖掘到的数据进行地理空间化也越来越受到关注。地理空间化后的数据可视化也渐渐成为地理信息系统发展的一个重要方向。所述的方法是对人力资源网站进行在线实时的计... 目前,Web数据的抓取和挖掘成为计算机研究和开发中的热点,同时,抓取和挖掘到的数据进行地理空间化也越来越受到关注。地理空间化后的数据可视化也渐渐成为地理信息系统发展的一个重要方向。所述的方法是对人力资源网站进行在线实时的计算机软件职位Web内容抽取,将获取到的职位招聘数据通过在线地图服务进行地理空间定位,然后把地理空间化后的相关职位信息通过动态集束线和动态点进行地理空间可视化表达。从实现的Demo实验效果来看,地理空间动态集束线的流向图表达方法比传统的静态表达更能够促进用户获取数据之间各类流动和迁徙等方向的空间关系,帮助理解在其他形式表达下不易发觉的空间模式。在实现的方法中,通过计算机招聘职位的工作所在地与公司所在地之间的动态集束线可视化表达,除了能够显式地收集工作岗位职位空间分布情况,还获悉了当前计算机软件行业的计算机软件产业迁移的态势。 展开更多
关键词 web数据抓取和抽取 数据地理空间化 数据可视化 数据线可视化 集束线表达
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部