期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
11
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
国家图书馆WEB数据增量采集设计及其实现
被引量:
1
1
作者
季士妍
赵丹阳
《数字图书馆论坛》
CSSCI
2021年第1期32-37,共6页
本文详细介绍网络资源保存技术策略现状,并从国家图书馆网络资源采集的实际业务需求出发,制定并设计符合国家图书馆业务需求的增量采集技术策略,简述国家图书馆基于Heritrix3.4的增量采集实现方法和实验效果,以期为业界提供有益的参考...
本文详细介绍网络资源保存技术策略现状,并从国家图书馆网络资源采集的实际业务需求出发,制定并设计符合国家图书馆业务需求的增量采集技术策略,简述国家图书馆基于Heritrix3.4的增量采集实现方法和实验效果,以期为业界提供有益的参考和借鉴。
展开更多
关键词
国家图书馆
增量采集
HERITRIX
下载PDF
职称材料
互联网网站存档增量采集研究
2
作者
杨云鹏
《数字图书馆论坛》
CSSCI
2020年第12期17-21,共5页
互联网网站存档随着互联网的普及,每年的存储量都在快速增长,导致服务器的存储空间、运行负载和网络带宽已无法满足采集量的增长速度。因此,采集系统过滤掉采集周期内重复的文档实现增量采集将是解决这些问题的关键。本文首先讨论增量...
互联网网站存档随着互联网的普及,每年的存储量都在快速增长,导致服务器的存储空间、运行负载和网络带宽已无法满足采集量的增长速度。因此,采集系统过滤掉采集周期内重复的文档实现增量采集将是解决这些问题的关键。本文首先讨论增量采集的采集策略和工具,然后根据采集策略选取合适的工具进行实际采集验证增量采集效果。通过对采集系统添加附加工具的形式实现互联网网站存档增量采集,并对采集的结果进行分析讨论,实现减轻服务器的运行负载、减少网络带宽的占用、降低互联网网站存档存储空间和提高采集资源展示质量的目标。
展开更多
关键词
互联网网站存档
增量采集
采集
策略
网络抓取
下载PDF
职称材料
Web信息增量采集与保存管理平台的设计与实现
3
作者
赵丹阳
《无线互联科技》
2022年第23期68-71,共4页
随着网络的普及和发展,互联网资源已经成为人类文明记忆的载体,及时并完整的保存网络信息资源变得尤为重要。文章结合国家图书馆网络信息资源采集与保存工作的发展历程、技术发展和互联网信息更新快等特点,提出基于Heritrix开源架构的...
随着网络的普及和发展,互联网资源已经成为人类文明记忆的载体,及时并完整的保存网络信息资源变得尤为重要。文章结合国家图书馆网络信息资源采集与保存工作的发展历程、技术发展和互联网信息更新快等特点,提出基于Heritrix开源架构的网络信息增量采集与保存管理平台的设计和架构,并详细介绍平台在网络资源增量采集和增量回显一站式服务的实现技术,提升国家图书馆网络资源保存工作效率和服务质量的同时,以期为业界提供有益的参考和借鉴。
展开更多
关键词
Web信息抓取
增量采集
增量
回显
HERITRIX
平台构建
下载PDF
职称材料
网络资源增量采集方法的探究和实践
4
作者
赵丹阳
《图书情报导刊》
2021年第8期33-37,共5页
随着互联网信息的爆炸式增长,网络资源存档的数据范围在不断扩大,数据采集频率也在提高,这给服务器存储空间、采集服务器运行负载和网络带宽都带来了相当大的压力和挑战。因此,实践增量采集策略、剔除重复数据的采集是网络信息资源保存...
随着互联网信息的爆炸式增长,网络资源存档的数据范围在不断扩大,数据采集频率也在提高,这给服务器存储空间、采集服务器运行负载和网络带宽都带来了相当大的压力和挑战。因此,实践增量采集策略、剔除重复数据的采集是网络信息资源保存的必要策略。基于增量采集的研究和实践,详细介绍了增量采集的策略和技术实现,通过增量采集实例效果分析,说明增量采集不但可以使采集机制更加灵活,而且可以有效缓解服务器存储空间和网络带宽的压力。
展开更多
关键词
网络信息存档
网络爬虫
增量采集
下载PDF
职称材料
基于OutbackCDX的增量式Web信息采集研究
被引量:
3
5
作者
高婷
白如江
《山东理工大学学报(社会科学版)》
2020年第4期99-105,共7页
当前开源网络爬虫存在不能实现增量信息采集的问题。通过调研IIPC合作的第一次世界大战、Twittervane、Memento三个网络信息存档项目,发现目前各类型存档项目存在增量采集困难的情况。在分析OutbackCDX和UKWA-Heritrix系统基础上,提出...
当前开源网络爬虫存在不能实现增量信息采集的问题。通过调研IIPC合作的第一次世界大战、Twittervane、Memento三个网络信息存档项目,发现目前各类型存档项目存在增量采集困难的情况。在分析OutbackCDX和UKWA-Heritrix系统基础上,提出了一种基于OutbackCDX和UKWA-Heritrix增量采集方案,该方案能够在不需要爬虫程序重启的情况下实现定题、增量采集,并以ISO标准格式WARC(Web ARChive)为存储格式,实现不同类型系统直接的数据交换。
展开更多
关键词
网络信息
档案保存
增量采集
网络爬虫
下载PDF
职称材料
基于Nutch的增量网页信息采集系统的设计与实现
被引量:
3
6
作者
代鹏
《软件》
2015年第11期100-104,共5页
本文介绍了Nutch网络爬虫的系统架构和抓取网页信息流程,针对Nutch网页信息数据采集冗余的问题,引入了增量更新方法和适应性采集周期计算方法,首先使用Simhash算法和汉明距离计算出网页相似度,根据网页相似度计算出网页采集周期,然后根...
本文介绍了Nutch网络爬虫的系统架构和抓取网页信息流程,针对Nutch网页信息数据采集冗余的问题,引入了增量更新方法和适应性采集周期计算方法,首先使用Simhash算法和汉明距离计算出网页相似度,根据网页相似度计算出网页采集周期,然后根据此周期进行网页信息采集,在采集前根据网页元信息中的网页内容长度与网页最后更新时间的变化与否判断是否进行采集。实验结果表明,随着采集次数的增多,网页采集周期会在真实网络变化周期上下浮动,使得网页采集周期与真实网页变化周期之间较为接近,最终有效的减少了冗余的网页信息采集数据量,减轻了对网络环境的压力,实现了适应性的增量的网页信息采集过程。
展开更多
关键词
计算机软件与理论
NUTCH
Simhash
汉明距离
增量采集
方法
下载PDF
职称材料
国家图书馆网络信息资源采集与保存平台关键技术实现
被引量:
5
7
作者
魏大威
季士妍
《图书馆》
CSSCI
北大核心
2021年第3期45-50,共6页
文章介绍了国家图书馆网络信息资源采集与保存发展历程和技术发展,分析了基于开源架构进行定制开发的网络信息资源采集与保存平台的构建架构、功能特点,介绍了网络信息资源增量采集、增量回放显示功能实现的关键技术和方法,并对网络信...
文章介绍了国家图书馆网络信息资源采集与保存发展历程和技术发展,分析了基于开源架构进行定制开发的网络信息资源采集与保存平台的构建架构、功能特点,介绍了网络信息资源增量采集、增量回放显示功能实现的关键技术和方法,并对网络信息资源采集与保存未来的发展进行了思考。
展开更多
关键词
网络信息
采集
HERITRIX
增量采集
增量
回放
国家图书馆
下载PDF
职称材料
基于URL类型和网页链接变化的信息采集更新算法
被引量:
1
8
作者
陈晓志
董守斌
+1 位作者
张凌
张元丰
《郑州大学学报(理学版)》
CAS
2007年第2期60-64,共5页
通过观察网站呈现网页的规律及网页本身的结构特点,提出基于URL类型及网页链接变化规律的入口页面识别算法,优先抓取入口页面.在实际应用中,取得了较好的更新效果.
关键词
入口页面
网页更新
增量采集
下载PDF
职称材料
一种基于Storm的在线产品评论信息采集的方法
被引量:
1
9
作者
骆魁永
郝志峰
+2 位作者
蔡瑞初
温雯
袁琴
《广东工业大学学报》
CAS
2017年第3期83-88,共6页
针对如何尽早地获取电商网站中产品的评论信息,进而实时地把握产品舆情,提出了一种基于Storm的在线产品评论信息采集方法.该方法将流计算的概念应用于网络爬虫中,并通过SHHD算法对采集周期进行动态调整.实验结果表明:基于Storm平台进行...
针对如何尽早地获取电商网站中产品的评论信息,进而实时地把握产品舆情,提出了一种基于Storm的在线产品评论信息采集方法.该方法将流计算的概念应用于网络爬虫中,并通过SHHD算法对采集周期进行动态调整.实验结果表明:基于Storm平台进行信息采集具有吞吐量大、可扩展性强等优点;SHHD算法可以有效地降低采集系统对网络带宽和系统资源的消耗,实现了适应性的增量的在线产品评论信息采集过程;SHHD在产品的评论信息获取的滞后时间上较Poisson、SART等方法具有明显的优势.
展开更多
关键词
产品评论信息
STORM
适应性
增量采集
下载PDF
职称材料
一种网络论坛有害信息监测系统的构建与应用
10
作者
王守银
《信息网络安全》
2013年第10期147-149,共3页
为有效遏制利用计算机网络论坛传播低俗信息、恶意炒作等非法活动,为网络监测与监管工作提供有力技术支持,文章在参考相关文献基础上,按照数据采集、数据过滤、数据分析处理以及系统响应的流程模式,对构建网上有害信息监测系统进行了初...
为有效遏制利用计算机网络论坛传播低俗信息、恶意炒作等非法活动,为网络监测与监管工作提供有力技术支持,文章在参考相关文献基础上,按照数据采集、数据过滤、数据分析处理以及系统响应的流程模式,对构建网上有害信息监测系统进行了初步实践。首先,文章给出了监测系统的软件架构、功能设计方案,阐述了系统实现中涉及到的网上分布式信息采集和数据挖掘等关键技术。然后,说明了系统的运行流程。最后给出了系统的部分监测结果,对实现效果进行了验证。
展开更多
关键词
论坛有害信息
监测系统
论坛插件
增量采集
运行流程
下载PDF
职称材料
网页更新预测算法研究现状
被引量:
2
11
作者
杨眉
《软件导刊》
2013年第4期57-59,共3页
互联网的一个重要性质是网络中的网页信息随时发生着更新。在Web信息迅速增长的今天,网页更新的预测和确定成为了一个备受关注的课题。介绍了作为网页更新预测模型的泊松模型,并根据该模型的各种缺陷分析对网页更新预测算法的现状进行...
互联网的一个重要性质是网络中的网页信息随时发生着更新。在Web信息迅速增长的今天,网页更新的预测和确定成为了一个备受关注的课题。介绍了作为网页更新预测模型的泊松模型,并根据该模型的各种缺陷分析对网页更新预测算法的现状进行了阐述,同时对未来的研究方向进行了展望。
展开更多
关键词
POISSON过程
网页更新预测算法
增量采集
下载PDF
职称材料
题名
国家图书馆WEB数据增量采集设计及其实现
被引量:
1
1
作者
季士妍
赵丹阳
机构
国家图书馆
出处
《数字图书馆论坛》
CSSCI
2021年第1期32-37,共6页
文摘
本文详细介绍网络资源保存技术策略现状,并从国家图书馆网络资源采集的实际业务需求出发,制定并设计符合国家图书馆业务需求的增量采集技术策略,简述国家图书馆基于Heritrix3.4的增量采集实现方法和实验效果,以期为业界提供有益的参考和借鉴。
关键词
国家图书馆
增量采集
HERITRIX
Keywords
National Library of China
Duplicated Crawlers
Heritrix
分类号
G255 [文化科学—图书馆学]
下载PDF
职称材料
题名
互联网网站存档增量采集研究
2
作者
杨云鹏
机构
国家图书馆
出处
《数字图书馆论坛》
CSSCI
2020年第12期17-21,共5页
文摘
互联网网站存档随着互联网的普及,每年的存储量都在快速增长,导致服务器的存储空间、运行负载和网络带宽已无法满足采集量的增长速度。因此,采集系统过滤掉采集周期内重复的文档实现增量采集将是解决这些问题的关键。本文首先讨论增量采集的采集策略和工具,然后根据采集策略选取合适的工具进行实际采集验证增量采集效果。通过对采集系统添加附加工具的形式实现互联网网站存档增量采集,并对采集的结果进行分析讨论,实现减轻服务器的运行负载、减少网络带宽的占用、降低互联网网站存档存储空间和提高采集资源展示质量的目标。
关键词
互联网网站存档
增量采集
采集
策略
网络抓取
Keywords
Internet Archive
Incremental Acquisition
Acquisition Strategy
Web Scraping
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web信息增量采集与保存管理平台的设计与实现
3
作者
赵丹阳
机构
国家图书馆
出处
《无线互联科技》
2022年第23期68-71,共4页
文摘
随着网络的普及和发展,互联网资源已经成为人类文明记忆的载体,及时并完整的保存网络信息资源变得尤为重要。文章结合国家图书馆网络信息资源采集与保存工作的发展历程、技术发展和互联网信息更新快等特点,提出基于Heritrix开源架构的网络信息增量采集与保存管理平台的设计和架构,并详细介绍平台在网络资源增量采集和增量回显一站式服务的实现技术,提升国家图书馆网络资源保存工作效率和服务质量的同时,以期为业界提供有益的参考和借鉴。
关键词
Web信息抓取
增量采集
增量
回显
HERITRIX
平台构建
Keywords
Web information capture
incremental acquisition
incremental display
Heritrix
platform construction
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
G253 [文化科学—图书馆学]
下载PDF
职称材料
题名
网络资源增量采集方法的探究和实践
4
作者
赵丹阳
机构
中国国家图书馆
出处
《图书情报导刊》
2021年第8期33-37,共5页
文摘
随着互联网信息的爆炸式增长,网络资源存档的数据范围在不断扩大,数据采集频率也在提高,这给服务器存储空间、采集服务器运行负载和网络带宽都带来了相当大的压力和挑战。因此,实践增量采集策略、剔除重复数据的采集是网络信息资源保存的必要策略。基于增量采集的研究和实践,详细介绍了增量采集的策略和技术实现,通过增量采集实例效果分析,说明增量采集不但可以使采集机制更加灵活,而且可以有效缓解服务器存储空间和网络带宽的压力。
关键词
网络信息存档
网络爬虫
增量采集
Keywords
network information archiving
Web crawler
incremental collection
分类号
G253.1 [文化科学—图书馆学]
下载PDF
职称材料
题名
基于OutbackCDX的增量式Web信息采集研究
被引量:
3
5
作者
高婷
白如江
机构
山东理工大学档案馆
山东理工大学科技信息研究所
出处
《山东理工大学学报(社会科学版)》
2020年第4期99-105,共7页
基金
山东省高等学校青创科技支持计划“科技大数据驱动的智慧决策支持创新团队——面向新旧动能转换的新兴科学研究前沿识别研究”(2019RWG033)。
文摘
当前开源网络爬虫存在不能实现增量信息采集的问题。通过调研IIPC合作的第一次世界大战、Twittervane、Memento三个网络信息存档项目,发现目前各类型存档项目存在增量采集困难的情况。在分析OutbackCDX和UKWA-Heritrix系统基础上,提出了一种基于OutbackCDX和UKWA-Heritrix增量采集方案,该方案能够在不需要爬虫程序重启的情况下实现定题、增量采集,并以ISO标准格式WARC(Web ARChive)为存储格式,实现不同类型系统直接的数据交换。
关键词
网络信息
档案保存
增量采集
网络爬虫
分类号
G250.7 [文化科学—图书馆学]
下载PDF
职称材料
题名
基于Nutch的增量网页信息采集系统的设计与实现
被引量:
3
6
作者
代鹏
机构
华北计算技术研究所
出处
《软件》
2015年第11期100-104,共5页
文摘
本文介绍了Nutch网络爬虫的系统架构和抓取网页信息流程,针对Nutch网页信息数据采集冗余的问题,引入了增量更新方法和适应性采集周期计算方法,首先使用Simhash算法和汉明距离计算出网页相似度,根据网页相似度计算出网页采集周期,然后根据此周期进行网页信息采集,在采集前根据网页元信息中的网页内容长度与网页最后更新时间的变化与否判断是否进行采集。实验结果表明,随着采集次数的增多,网页采集周期会在真实网络变化周期上下浮动,使得网页采集周期与真实网页变化周期之间较为接近,最终有效的减少了冗余的网页信息采集数据量,减轻了对网络环境的压力,实现了适应性的增量的网页信息采集过程。
关键词
计算机软件与理论
NUTCH
Simhash
汉明距离
增量采集
方法
Keywords
Computer software and theory
Nutch
Simhash
Hamming distance
Incremental acquisition method
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
国家图书馆网络信息资源采集与保存平台关键技术实现
被引量:
5
7
作者
魏大威
季士妍
机构
国家图书馆
出处
《图书馆》
CSSCI
北大核心
2021年第3期45-50,共6页
文摘
文章介绍了国家图书馆网络信息资源采集与保存发展历程和技术发展,分析了基于开源架构进行定制开发的网络信息资源采集与保存平台的构建架构、功能特点,介绍了网络信息资源增量采集、增量回放显示功能实现的关键技术和方法,并对网络信息资源采集与保存未来的发展进行了思考。
关键词
网络信息
采集
HERITRIX
增量采集
增量
回放
国家图书馆
Keywords
Web information collection and preservation
Heritrix
Incremental crawling
Incremental playback
National Library of China
分类号
G250.73 [文化科学—图书馆学]
下载PDF
职称材料
题名
基于URL类型和网页链接变化的信息采集更新算法
被引量:
1
8
作者
陈晓志
董守斌
张凌
张元丰
机构
华南理工大学计算机科学与工程学院
出处
《郑州大学学报(理学版)》
CAS
2007年第2期60-64,共5页
基金
国家自然科学基金资助项目
编号90412015
文摘
通过观察网站呈现网页的规律及网页本身的结构特点,提出基于URL类型及网页链接变化规律的入口页面识别算法,优先抓取入口页面.在实际应用中,取得了较好的更新效果.
关键词
入口页面
网页更新
增量采集
Keywords
entry page
page refreshment
incremental crawler
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于Storm的在线产品评论信息采集的方法
被引量:
1
9
作者
骆魁永
郝志峰
蔡瑞初
温雯
袁琴
机构
广东工业大学计算机学院
出处
《广东工业大学学报》
CAS
2017年第3期83-88,共6页
基金
国家自然科学基金资助项目(61202269
61472089
+2 种基金
61572143
61502108
61502109)
文摘
针对如何尽早地获取电商网站中产品的评论信息,进而实时地把握产品舆情,提出了一种基于Storm的在线产品评论信息采集方法.该方法将流计算的概念应用于网络爬虫中,并通过SHHD算法对采集周期进行动态调整.实验结果表明:基于Storm平台进行信息采集具有吞吐量大、可扩展性强等优点;SHHD算法可以有效地降低采集系统对网络带宽和系统资源的消耗,实现了适应性的增量的在线产品评论信息采集过程;SHHD在产品的评论信息获取的滞后时间上较Poisson、SART等方法具有明显的优势.
关键词
产品评论信息
STORM
适应性
增量采集
Keywords
product review information
Storm
adaptability
Incremental acquisition
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种网络论坛有害信息监测系统的构建与应用
10
作者
王守银
机构
武警指挥学院训练部指挥实验中心
出处
《信息网络安全》
2013年第10期147-149,共3页
文摘
为有效遏制利用计算机网络论坛传播低俗信息、恶意炒作等非法活动,为网络监测与监管工作提供有力技术支持,文章在参考相关文献基础上,按照数据采集、数据过滤、数据分析处理以及系统响应的流程模式,对构建网上有害信息监测系统进行了初步实践。首先,文章给出了监测系统的软件架构、功能设计方案,阐述了系统实现中涉及到的网上分布式信息采集和数据挖掘等关键技术。然后,说明了系统的运行流程。最后给出了系统的部分监测结果,对实现效果进行了验证。
关键词
论坛有害信息
监测系统
论坛插件
增量采集
运行流程
Keywords
Web forum harmful information
monitor and control system
Web forums addin
incrementcollection
operation process
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网页更新预测算法研究现状
被引量:
2
11
作者
杨眉
机构
四川大学计算机学院
出处
《软件导刊》
2013年第4期57-59,共3页
文摘
互联网的一个重要性质是网络中的网页信息随时发生着更新。在Web信息迅速增长的今天,网页更新的预测和确定成为了一个备受关注的课题。介绍了作为网页更新预测模型的泊松模型,并根据该模型的各种缺陷分析对网页更新预测算法的现状进行了阐述,同时对未来的研究方向进行了展望。
关键词
POISSON过程
网页更新预测算法
增量采集
Keywords
The Change of Web Page
Poisson Model
Web Changing Prediction
Incremental Crawler
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
国家图书馆WEB数据增量采集设计及其实现
季士妍
赵丹阳
《数字图书馆论坛》
CSSCI
2021
1
下载PDF
职称材料
2
互联网网站存档增量采集研究
杨云鹏
《数字图书馆论坛》
CSSCI
2020
0
下载PDF
职称材料
3
Web信息增量采集与保存管理平台的设计与实现
赵丹阳
《无线互联科技》
2022
0
下载PDF
职称材料
4
网络资源增量采集方法的探究和实践
赵丹阳
《图书情报导刊》
2021
0
下载PDF
职称材料
5
基于OutbackCDX的增量式Web信息采集研究
高婷
白如江
《山东理工大学学报(社会科学版)》
2020
3
下载PDF
职称材料
6
基于Nutch的增量网页信息采集系统的设计与实现
代鹏
《软件》
2015
3
下载PDF
职称材料
7
国家图书馆网络信息资源采集与保存平台关键技术实现
魏大威
季士妍
《图书馆》
CSSCI
北大核心
2021
5
下载PDF
职称材料
8
基于URL类型和网页链接变化的信息采集更新算法
陈晓志
董守斌
张凌
张元丰
《郑州大学学报(理学版)》
CAS
2007
1
下载PDF
职称材料
9
一种基于Storm的在线产品评论信息采集的方法
骆魁永
郝志峰
蔡瑞初
温雯
袁琴
《广东工业大学学报》
CAS
2017
1
下载PDF
职称材料
10
一种网络论坛有害信息监测系统的构建与应用
王守银
《信息网络安全》
2013
0
下载PDF
职称材料
11
网页更新预测算法研究现状
杨眉
《软件导刊》
2013
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部