期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
国家图书馆WEB数据增量采集设计及其实现 被引量:1
1
作者 季士妍 赵丹阳 《数字图书馆论坛》 CSSCI 2021年第1期32-37,共6页
本文详细介绍网络资源保存技术策略现状,并从国家图书馆网络资源采集的实际业务需求出发,制定并设计符合国家图书馆业务需求的增量采集技术策略,简述国家图书馆基于Heritrix3.4的增量采集实现方法和实验效果,以期为业界提供有益的参考... 本文详细介绍网络资源保存技术策略现状,并从国家图书馆网络资源采集的实际业务需求出发,制定并设计符合国家图书馆业务需求的增量采集技术策略,简述国家图书馆基于Heritrix3.4的增量采集实现方法和实验效果,以期为业界提供有益的参考和借鉴。 展开更多
关键词 国家图书馆 增量采集 HERITRIX
下载PDF
互联网网站存档增量采集研究
2
作者 杨云鹏 《数字图书馆论坛》 CSSCI 2020年第12期17-21,共5页
互联网网站存档随着互联网的普及,每年的存储量都在快速增长,导致服务器的存储空间、运行负载和网络带宽已无法满足采集量的增长速度。因此,采集系统过滤掉采集周期内重复的文档实现增量采集将是解决这些问题的关键。本文首先讨论增量... 互联网网站存档随着互联网的普及,每年的存储量都在快速增长,导致服务器的存储空间、运行负载和网络带宽已无法满足采集量的增长速度。因此,采集系统过滤掉采集周期内重复的文档实现增量采集将是解决这些问题的关键。本文首先讨论增量采集的采集策略和工具,然后根据采集策略选取合适的工具进行实际采集验证增量采集效果。通过对采集系统添加附加工具的形式实现互联网网站存档增量采集,并对采集的结果进行分析讨论,实现减轻服务器的运行负载、减少网络带宽的占用、降低互联网网站存档存储空间和提高采集资源展示质量的目标。 展开更多
关键词 互联网网站存档 增量采集 采集策略 网络抓取
下载PDF
Web信息增量采集与保存管理平台的设计与实现
3
作者 赵丹阳 《无线互联科技》 2022年第23期68-71,共4页
随着网络的普及和发展,互联网资源已经成为人类文明记忆的载体,及时并完整的保存网络信息资源变得尤为重要。文章结合国家图书馆网络信息资源采集与保存工作的发展历程、技术发展和互联网信息更新快等特点,提出基于Heritrix开源架构的... 随着网络的普及和发展,互联网资源已经成为人类文明记忆的载体,及时并完整的保存网络信息资源变得尤为重要。文章结合国家图书馆网络信息资源采集与保存工作的发展历程、技术发展和互联网信息更新快等特点,提出基于Heritrix开源架构的网络信息增量采集与保存管理平台的设计和架构,并详细介绍平台在网络资源增量采集和增量回显一站式服务的实现技术,提升国家图书馆网络资源保存工作效率和服务质量的同时,以期为业界提供有益的参考和借鉴。 展开更多
关键词 Web信息抓取 增量采集 增量回显 HERITRIX 平台构建
下载PDF
网络资源增量采集方法的探究和实践
4
作者 赵丹阳 《图书情报导刊》 2021年第8期33-37,共5页
随着互联网信息的爆炸式增长,网络资源存档的数据范围在不断扩大,数据采集频率也在提高,这给服务器存储空间、采集服务器运行负载和网络带宽都带来了相当大的压力和挑战。因此,实践增量采集策略、剔除重复数据的采集是网络信息资源保存... 随着互联网信息的爆炸式增长,网络资源存档的数据范围在不断扩大,数据采集频率也在提高,这给服务器存储空间、采集服务器运行负载和网络带宽都带来了相当大的压力和挑战。因此,实践增量采集策略、剔除重复数据的采集是网络信息资源保存的必要策略。基于增量采集的研究和实践,详细介绍了增量采集的策略和技术实现,通过增量采集实例效果分析,说明增量采集不但可以使采集机制更加灵活,而且可以有效缓解服务器存储空间和网络带宽的压力。 展开更多
关键词 网络信息存档 网络爬虫 增量采集
下载PDF
基于OutbackCDX的增量式Web信息采集研究 被引量:3
5
作者 高婷 白如江 《山东理工大学学报(社会科学版)》 2020年第4期99-105,共7页
当前开源网络爬虫存在不能实现增量信息采集的问题。通过调研IIPC合作的第一次世界大战、Twittervane、Memento三个网络信息存档项目,发现目前各类型存档项目存在增量采集困难的情况。在分析OutbackCDX和UKWA-Heritrix系统基础上,提出... 当前开源网络爬虫存在不能实现增量信息采集的问题。通过调研IIPC合作的第一次世界大战、Twittervane、Memento三个网络信息存档项目,发现目前各类型存档项目存在增量采集困难的情况。在分析OutbackCDX和UKWA-Heritrix系统基础上,提出了一种基于OutbackCDX和UKWA-Heritrix增量采集方案,该方案能够在不需要爬虫程序重启的情况下实现定题、增量采集,并以ISO标准格式WARC(Web ARChive)为存储格式,实现不同类型系统直接的数据交换。 展开更多
关键词 网络信息 档案保存 增量采集 网络爬虫
下载PDF
基于Nutch的增量网页信息采集系统的设计与实现 被引量:3
6
作者 代鹏 《软件》 2015年第11期100-104,共5页
本文介绍了Nutch网络爬虫的系统架构和抓取网页信息流程,针对Nutch网页信息数据采集冗余的问题,引入了增量更新方法和适应性采集周期计算方法,首先使用Simhash算法和汉明距离计算出网页相似度,根据网页相似度计算出网页采集周期,然后根... 本文介绍了Nutch网络爬虫的系统架构和抓取网页信息流程,针对Nutch网页信息数据采集冗余的问题,引入了增量更新方法和适应性采集周期计算方法,首先使用Simhash算法和汉明距离计算出网页相似度,根据网页相似度计算出网页采集周期,然后根据此周期进行网页信息采集,在采集前根据网页元信息中的网页内容长度与网页最后更新时间的变化与否判断是否进行采集。实验结果表明,随着采集次数的增多,网页采集周期会在真实网络变化周期上下浮动,使得网页采集周期与真实网页变化周期之间较为接近,最终有效的减少了冗余的网页信息采集数据量,减轻了对网络环境的压力,实现了适应性的增量的网页信息采集过程。 展开更多
关键词 计算机软件与理论 NUTCH Simhash 汉明距离 增量采集方法
下载PDF
国家图书馆网络信息资源采集与保存平台关键技术实现 被引量:5
7
作者 魏大威 季士妍 《图书馆》 CSSCI 北大核心 2021年第3期45-50,共6页
文章介绍了国家图书馆网络信息资源采集与保存发展历程和技术发展,分析了基于开源架构进行定制开发的网络信息资源采集与保存平台的构建架构、功能特点,介绍了网络信息资源增量采集、增量回放显示功能实现的关键技术和方法,并对网络信... 文章介绍了国家图书馆网络信息资源采集与保存发展历程和技术发展,分析了基于开源架构进行定制开发的网络信息资源采集与保存平台的构建架构、功能特点,介绍了网络信息资源增量采集、增量回放显示功能实现的关键技术和方法,并对网络信息资源采集与保存未来的发展进行了思考。 展开更多
关键词 网络信息采集 HERITRIX 增量采集 增量回放 国家图书馆
下载PDF
基于URL类型和网页链接变化的信息采集更新算法 被引量:1
8
作者 陈晓志 董守斌 +1 位作者 张凌 张元丰 《郑州大学学报(理学版)》 CAS 2007年第2期60-64,共5页
通过观察网站呈现网页的规律及网页本身的结构特点,提出基于URL类型及网页链接变化规律的入口页面识别算法,优先抓取入口页面.在实际应用中,取得了较好的更新效果.
关键词 入口页面 网页更新 增量采集
下载PDF
一种基于Storm的在线产品评论信息采集的方法 被引量:1
9
作者 骆魁永 郝志峰 +2 位作者 蔡瑞初 温雯 袁琴 《广东工业大学学报》 CAS 2017年第3期83-88,共6页
针对如何尽早地获取电商网站中产品的评论信息,进而实时地把握产品舆情,提出了一种基于Storm的在线产品评论信息采集方法.该方法将流计算的概念应用于网络爬虫中,并通过SHHD算法对采集周期进行动态调整.实验结果表明:基于Storm平台进行... 针对如何尽早地获取电商网站中产品的评论信息,进而实时地把握产品舆情,提出了一种基于Storm的在线产品评论信息采集方法.该方法将流计算的概念应用于网络爬虫中,并通过SHHD算法对采集周期进行动态调整.实验结果表明:基于Storm平台进行信息采集具有吞吐量大、可扩展性强等优点;SHHD算法可以有效地降低采集系统对网络带宽和系统资源的消耗,实现了适应性的增量的在线产品评论信息采集过程;SHHD在产品的评论信息获取的滞后时间上较Poisson、SART等方法具有明显的优势. 展开更多
关键词 产品评论信息 STORM 适应性 增量采集
下载PDF
一种网络论坛有害信息监测系统的构建与应用
10
作者 王守银 《信息网络安全》 2013年第10期147-149,共3页
为有效遏制利用计算机网络论坛传播低俗信息、恶意炒作等非法活动,为网络监测与监管工作提供有力技术支持,文章在参考相关文献基础上,按照数据采集、数据过滤、数据分析处理以及系统响应的流程模式,对构建网上有害信息监测系统进行了初... 为有效遏制利用计算机网络论坛传播低俗信息、恶意炒作等非法活动,为网络监测与监管工作提供有力技术支持,文章在参考相关文献基础上,按照数据采集、数据过滤、数据分析处理以及系统响应的流程模式,对构建网上有害信息监测系统进行了初步实践。首先,文章给出了监测系统的软件架构、功能设计方案,阐述了系统实现中涉及到的网上分布式信息采集和数据挖掘等关键技术。然后,说明了系统的运行流程。最后给出了系统的部分监测结果,对实现效果进行了验证。 展开更多
关键词 论坛有害信息 监测系统 论坛插件 增量采集 运行流程
下载PDF
网页更新预测算法研究现状 被引量:2
11
作者 杨眉 《软件导刊》 2013年第4期57-59,共3页
互联网的一个重要性质是网络中的网页信息随时发生着更新。在Web信息迅速增长的今天,网页更新的预测和确定成为了一个备受关注的课题。介绍了作为网页更新预测模型的泊松模型,并根据该模型的各种缺陷分析对网页更新预测算法的现状进行... 互联网的一个重要性质是网络中的网页信息随时发生着更新。在Web信息迅速增长的今天,网页更新的预测和确定成为了一个备受关注的课题。介绍了作为网页更新预测模型的泊松模型,并根据该模型的各种缺陷分析对网页更新预测算法的现状进行了阐述,同时对未来的研究方向进行了展望。 展开更多
关键词 POISSON过程 网页更新预测算法 增量采集
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部