-
题名基于Hadoop的海量MP3文件存储架构
被引量:28
- 1
-
-
作者
赵晓永
杨扬
孙莉莉
陈宇
-
机构
北京科技大学计算机与通信工程学院
-
出处
《计算机应用》
CSCD
北大核心
2012年第6期1724-1726,共3页
-
基金
国家自然科学基金资助项目(61070182
60873192)
-
文摘
MP3作为数字音乐时代的事实标准,数量已相当巨大,用户的访问需求也与日俱增,有效存储和管理海量的MP3文件,为用户提供良好的体验,越来越引起人们的关注。Hadoop的出现,提供了一种新的思路。但由于Hadoop自身并不适合海量小文件处理,提出一种基于Hadoop的海量MP3文件存储架构,充分利用MP3文件自身包含的丰富描述信息,通过预处理模块的归类算法,将小文件归并到Sequence File中,同时引入高效的索引机制,很好地解决了小文件过多时NameNode内存瓶颈问题。实验证明,该架构能达到良好的效果。
-
关键词
HADOOP
MP3
小文件
富元数据
存储架构
-
Keywords
Hadoop
MP3
small file
rich metadata
storage architecture
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名RSS的应用研究
被引量:30
- 2
-
-
作者
张会娥
-
机构
中国科学院文献情报中心
-
出处
《图书馆杂志》
CSSCI
北大核心
2005年第2期53-58,共6页
-
文摘
RSS 是一个较新的技术。目前许多网站包括科技网站都采用 RSS 来发布最新消息。那么,RSS 究竟是什么?RSS feed 是怎样的?如何应用 RSS?RSS 在图书馆情报领域有何应用前景?本文针对这些问题进行了研究,试图为图书情报界了解、应用 RSS 提供参考。
-
关键词
RSS
网站
消息
发布
领域
图书情报
图书馆
参考
技术
应用
-
Keywords
RSS
RDF Site Summary
rich Site Summary
Really Simple Syndication
metadata
Web Syndication
-
分类号
G250.7
[文化科学—图书馆学]
-
-
题名网络科技信息监测中富文档识别与信息提取技术研究
被引量:8
- 3
-
-
作者
张敏
刘建华
谢靖
-
机构
中国科学院文献情报中心
中国科学院大学
-
出处
《情报科学》
CSSCI
北大核心
2017年第1期128-132,共5页
-
基金
中国科学院文献情报能力建设专项(院1509)
教育部人文社科基金(14YJC870029)
-
文摘
【目的/意义】围绕富文档载体类型的鉴别、元数据的提取等开展相应的实际应用探索。【方法/过程】通过开源工具PDFBox以及Tika对不同类型的富文档元数据及正文内容进行提取,取得了良好的实际效果,为科研人员提供了大量的有学术价值的情报资源。【结果/结论】通过对富文档监测与识别的研究与探索,笔者拓展了文本知识内容的识别方法,为后续的深度知识分析提供了有效的支撑。
-
关键词
富文档
元数据
类型识别
-
Keywords
rich documents
metadata
identification of the rich document carrier
-
分类号
G254.97
[文化科学—图书馆学]
-