-
题名采用页面数据抓取技术自动核查数据质量
被引量:1
- 1
-
-
作者
唐伟
王开圣
宋术
-
机构
南通供电公司
扬州供电公司
-
出处
《数字技术与应用》
2017年第8期100-101,共2页
-
文摘
采用页面数据抓取和解析技术,运用HTTPClient工具包,开发数据质量核查工具,对HTML数据包进行结构化解析,获取关注的基础数据,进而实现多业务信息系统之间基础数据的自动化分析比对核查。完成指标监控、短信预警以及统计报表自动生成等功能,提升营配数据核查效率,为夯实数据基础提供重要支撑。
-
关键词
页面数据抓取
数据质量
指标监控
-
Keywords
data capture and parsing
data quality
index monitoring
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名Web汉语料的智能抽取与词汇切分
被引量:4
- 2
-
-
作者
陈展荣
曾毅平
-
机构
暨南大学信息与技术学院
暨南大学华文学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2005年第6期1422-1424,共3页
-
基金
国务院侨办人文社会科学研究基金项目(04CQBYB0011)
-
文摘
提出一种Web汉语料智能抽取和汉语词切分的包装器。用户无需打开网站,无需点击链接,只需键入URL(UnitResourceLocation,统一资源定位符),即可获取Web汉语料并切分词到汉词库中。给出了系统的总体构架,阐述了各功能模块的设计原理和技术实现。测试结果表明,该包装器能快速、有效地抓取Web页面并分离其中的汉语料,对歧义句、新词汇的识别率分别达到70%和60%,可应用于Web上汉语词汇的收集与分离。
-
关键词
Web语料
HTML格式
包装器
Web页面抓取器
词汇分离器
-
Keywords
web corpus
html format
wrapper
web page-snatcher
glossary separator
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名数字图书馆防盗链技术研究
被引量:2
- 3
-
-
作者
付永华
-
机构
郑州航空工业管理学院
-
出处
《图书馆学刊》
2014年第7期120-122,132,共4页
-
文摘
从盗链对数字图书馆产生的影响入手,在剖析盗链原理的基础上,归纳了针对数字图书馆各种资源与业务的4种盗链方式,并提出具有针对性的4种防盗链技术,分析了这些技术的应用原理、优缺点和适用方向,为数字图书馆安全建设与管理提供参考。
-
关键词
盗链
页面抓取
防盗链
数字图书馆
-
分类号
G250.76
[文化科学—图书馆学]
-
-
题名基于scrapy框架下网络爬虫的开发与实现
被引量:6
- 4
-
-
作者
鲁鑫
肖小玲
-
机构
长江大学计算机科学学院
-
出处
《电脑知识与技术》
2021年第23期134-136,共3页
-
文摘
本文先简述scrapy框架的平台架构,然后介绍了网络爬虫的流程,并说明了爬虫程序的设计与实现的基本流程。基于这些技术,本文设计实现了基于Scrapy框架下的网络爬虫。本文给出了网络爬虫的主要流程,以及主要的模块,包括item模块、spider模块以及scheduler模块。并且,本文对网络爬虫的具体实现进行了介绍,包括UA的实现、页面抓取的实现、数据提取的实现等。最后,本设计在Linux操作系统下进行了相关测试。对网络爬虫的功能和性能进行了测试,爬虫的运行总体来说较为顺利,且对电脑性能的要求不高。该爬虫基本完成了本文的研究目的。通过本次的研究,对网络爬虫的设计与实现有了更深的理解。也对scrapy框架有了更加深刻的认识。
-
关键词
网络爬虫
Scrapy框架
数据提取
页面抓取
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名VB编写邮箱地址小蜘蛛程序
- 5
-
-
作者
李劼杰
-
机构
西北工业大学RJ
-
出处
《黑客防线》
2009年第6期121-124,共4页
-
文摘
邮件群发软件需要实现的一个重要功能是对邮件地址的搜集工作。我们可以通过一些关键字在搜索引擎上进行搜索,然后访问所得的结果页面抓取邮件地址。使用VB可以比较容易地实现相关功能。
-
关键词
编程
邮箱蜘蛛
页面抓取
-
分类号
TP393.098
[自动化与计算机技术—计算机应用技术]
TP311
[自动化与计算机技术—计算机软件与理论]
-