期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
采用页面数据抓取技术自动核查数据质量 被引量:1
1
作者 唐伟 王开圣 宋术 《数字技术与应用》 2017年第8期100-101,共2页
采用页面数据抓取和解析技术,运用HTTPClient工具包,开发数据质量核查工具,对HTML数据包进行结构化解析,获取关注的基础数据,进而实现多业务信息系统之间基础数据的自动化分析比对核查。完成指标监控、短信预警以及统计报表自动生成等功... 采用页面数据抓取和解析技术,运用HTTPClient工具包,开发数据质量核查工具,对HTML数据包进行结构化解析,获取关注的基础数据,进而实现多业务信息系统之间基础数据的自动化分析比对核查。完成指标监控、短信预警以及统计报表自动生成等功能,提升营配数据核查效率,为夯实数据基础提供重要支撑。 展开更多
关键词 页面数据抓取 数据质量 指标监控
下载PDF
Web汉语料的智能抽取与词汇切分 被引量:4
2
作者 陈展荣 曾毅平 《计算机工程与设计》 CSCD 北大核心 2005年第6期1422-1424,共3页
提出一种Web汉语料智能抽取和汉语词切分的包装器。用户无需打开网站,无需点击链接,只需键入URL(UnitResourceLocation,统一资源定位符),即可获取Web汉语料并切分词到汉词库中。给出了系统的总体构架,阐述了各功能模块的设计原理和技术... 提出一种Web汉语料智能抽取和汉语词切分的包装器。用户无需打开网站,无需点击链接,只需键入URL(UnitResourceLocation,统一资源定位符),即可获取Web汉语料并切分词到汉词库中。给出了系统的总体构架,阐述了各功能模块的设计原理和技术实现。测试结果表明,该包装器能快速、有效地抓取Web页面并分离其中的汉语料,对歧义句、新词汇的识别率分别达到70%和60%,可应用于Web上汉语词汇的收集与分离。 展开更多
关键词 Web语料 HTML格式 包装器 Web页面抓取 词汇分离器
下载PDF
数字图书馆防盗链技术研究 被引量:2
3
作者 付永华 《图书馆学刊》 2014年第7期120-122,132,共4页
从盗链对数字图书馆产生的影响入手,在剖析盗链原理的基础上,归纳了针对数字图书馆各种资源与业务的4种盗链方式,并提出具有针对性的4种防盗链技术,分析了这些技术的应用原理、优缺点和适用方向,为数字图书馆安全建设与管理提供参考。
关键词 盗链 页面抓取 防盗链 数字图书馆
下载PDF
基于scrapy框架下网络爬虫的开发与实现 被引量:6
4
作者 鲁鑫 肖小玲 《电脑知识与技术》 2021年第23期134-136,共3页
本文先简述scrapy框架的平台架构,然后介绍了网络爬虫的流程,并说明了爬虫程序的设计与实现的基本流程。基于这些技术,本文设计实现了基于Scrapy框架下的网络爬虫。本文给出了网络爬虫的主要流程,以及主要的模块,包括item模块、spider... 本文先简述scrapy框架的平台架构,然后介绍了网络爬虫的流程,并说明了爬虫程序的设计与实现的基本流程。基于这些技术,本文设计实现了基于Scrapy框架下的网络爬虫。本文给出了网络爬虫的主要流程,以及主要的模块,包括item模块、spider模块以及scheduler模块。并且,本文对网络爬虫的具体实现进行了介绍,包括UA的实现、页面抓取的实现、数据提取的实现等。最后,本设计在Linux操作系统下进行了相关测试。对网络爬虫的功能和性能进行了测试,爬虫的运行总体来说较为顺利,且对电脑性能的要求不高。该爬虫基本完成了本文的研究目的。通过本次的研究,对网络爬虫的设计与实现有了更深的理解。也对scrapy框架有了更加深刻的认识。 展开更多
关键词 网络爬虫 Scrapy框架 数据提取 页面抓取
下载PDF
VB编写邮箱地址小蜘蛛程序
5
作者 李劼杰 《黑客防线》 2009年第6期121-124,共4页
邮件群发软件需要实现的一个重要功能是对邮件地址的搜集工作。我们可以通过一些关键字在搜索引擎上进行搜索,然后访问所得的结果页面抓取邮件地址。使用VB可以比较容易地实现相关功能。
关键词 编程 邮箱蜘蛛 页面抓取
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部