-
题名国家图书馆互联网存档现状研究与启示
被引量:2
- 1
-
-
作者
杨云鹏
-
机构
中国国家图书馆
-
出处
《新世纪图书馆》
CSSCI
2021年第7期63-67,共5页
-
文摘
互联网存档技术可以利用采集软件从实时网络采集,保存和重放有价值的内容,并可以对其进行独立管理和保存,以供科研人员研究使用。论文介绍并讨论了国家图书馆网络存档计划和存档技术方法,概述了国家图书馆互联网存档现状和问题,讨论了网络存档立法情况、收集策略、程序局限性、真实性、完整性和质量保证等关键技术问题。国家图书馆互联网存档技术虽然已经成熟,但是在存档立法、长期保存、质量保证等方面仍然面临着许多挑战。
-
关键词
互联网
图书馆
互联网存档
互联网采集
-
Keywords
Internet
Library
Web archive
Web collection
-
分类号
G258.1
[文化科学—图书馆学]
G253.1
[文化科学—图书馆学]
-
-
题名互联网存档中的视频采集研究--以国家图书馆为例
- 2
-
-
作者
杨云鹏
-
机构
中国国家图书馆数字资源部
-
出处
《新世纪图书馆》
CSSCI
2021年第3期22-26,共5页
-
文摘
随着互联网的快速发展和网络带宽的逐年增加,网络上视频内容逐渐增多,更多的内容从纯文本网页发布变为文本加视频发布。但是,互联网存档很难采集到网络视频,这些视频通常使用非标准工具和协议。本文提供了该领域采集技术的概述。基于几年采集网络视频内容的经验,本文提供了HTTP协议和RTMP协议视频采集的示例,阐述了采集网络视频内容的问题和解决方案。本文还提出了一种外部下载器作为视频采集模块,用于扩展网络视频内容采集。
-
关键词
互联网存档
网络视频
流媒体
视频采集
-
Keywords
Internet archive
Web video
Streaming media
Video capture
-
分类号
G250
[文化科学—图书馆学]
-
-
题名日本国立国会图书馆互联网资源存档研究与启示
被引量:1
- 3
-
-
作者
杨云鹏
-
机构
国家图书馆
-
出处
《数字图书馆论坛》
CSSCI
2021年第1期24-31,共8页
-
文摘
日本国立国会图书馆从2002年开始进行互联网资源存档项目WARP,目前已经建立完善的体制。本文从网站筛选、采集技术、网站加工和保存技术4个方面对日本国立国会图书馆互联网资源存档项目进行详细介绍,并从采集方法、数据加工、保存方式、法规建设、国际交流与合作5个方面提出中国开展互联网资源存档的建议,以期互联网资源存档能得到更好的发展。
-
关键词
互联网资源存档
网站
日本国立国会图书馆
采集
-
Keywords
Internet Resource Archive
Website
National Diet Library of Japan
Collection
-
分类号
G279
[文化科学—档案学]
-
-
题名互联网网站存档增量采集研究
- 4
-
-
作者
杨云鹏
-
机构
国家图书馆
-
出处
《数字图书馆论坛》
CSSCI
2020年第12期17-21,共5页
-
文摘
互联网网站存档随着互联网的普及,每年的存储量都在快速增长,导致服务器的存储空间、运行负载和网络带宽已无法满足采集量的增长速度。因此,采集系统过滤掉采集周期内重复的文档实现增量采集将是解决这些问题的关键。本文首先讨论增量采集的采集策略和工具,然后根据采集策略选取合适的工具进行实际采集验证增量采集效果。通过对采集系统添加附加工具的形式实现互联网网站存档增量采集,并对采集的结果进行分析讨论,实现减轻服务器的运行负载、减少网络带宽的占用、降低互联网网站存档存储空间和提高采集资源展示质量的目标。
-
关键词
互联网网站存档
增量采集
采集策略
网络抓取
-
Keywords
Internet Archive
Incremental Acquisition
Acquisition Strategy
Web Scraping
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-