机构知识库自动存储系统研究被引量：2

Research on Automatic Archiving System for Institutional Repositories

导出

摘要介绍一种从网络文献数据库中自动采集机构学术成果并存储到DSpace平台的实验系统(DAAS),并实现信息过滤、元数据提取、版权验证、元数据映射和数据存储的半自动化流程。详细描述基于Nutch核心组件,DAAS针对不同的期刊数据库,采用基于规则的方法设置过滤器来提取非结构化网页上书目信息,并指出计算机学习算法是下一步研究重点。 This paper introduces an experimental system（DAAS） which can automatic harvest the institutional researcher articles and ingest the metadata into the local DSpace platform.The system implements a semi-automatic approach for IRs population which consists of information filtering,metadata extraction,copyright verification,metadata mapping and data archiving.Based on Nutch key component,how to parse the URL and extract the metadata from unstructured Web pages according to the rule-based filter is described in detail.The next research is focus on the computer-learning algorithm.

作者崔宇红

机构地区北京理工大学图书馆

出处《现代图书情报技术》 CSSCI 北大核心 2010年第12期76-80,共5页 New Technology of Library and Information Service

基金北京理工大学基础研究基金"机构知识库构建研究"(项目编号:20061442003)的研究成果之一

关键词机构知识库自动存储信息提取 NUTCH DSPACE Institutional repositories Automatic archive Information extraction Nutch DSpace

分类号 TP333 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献13

1Lynch C A. Institutional Repositories: Essential Infrastructure for Scholarship in the Digital Age [ EB/OL]. [ 2010 - 08 - 31 ]. http ://scholarship. utm. edu/21/1/Lynch,_IRs, pdf.
2OpenDOAR [ E B/OL ]. [ 2010 - 09 - 10 ]. http ://www. opendoar. org/.
3CiteULike: Everyone' s Library [ EB/OL]. [ 2010 - 09 - 10 ].http ://www. citeulike, org/.
4Symplectic Elements - Publications Management System[ EB/OL]. [ 2010 - 08 - 31 ]. http ://www. symplectic, co. uk/products/publications, html.
5Ponomareval N, Gomez J M, Pekar V. AIR : A Semi - Automatic System for Archiving Institutional Repositories [ EB/OL ]. [ 2010 - 08 - 24 ]. http ://clg. wlv. ac. uk/papers/AIR - system, pdf.
6SHERPA/RoMEO Home - Publisher Copyright Policies & Self- archiving[ EB/OL]. [ 2010 - 10 - 04 ]. http://www, sherpa, ac. uk/romeo/.
7SWORD v2.0 : Deposit Lifeeyele [ EB/OL]. [ 2010 - 10 - 04 ]. http ://www. mopsl, com/oracle/event/pasig/downloads/SWORD- forDepositLifecycle presentation, pdf.
8Hanlon A. Asking for Permission: A Survey of Copyright Work- flows for Institutional Repositories [ EB/OL]. [ 2010 - 11 - 01 ]. http ://works. bepress, com/marisa ramirez/14/.
9Li H, Councill I G, Bolelli L, et al. CiteSeerx -A Scalable Autonomous Scientific Digital Library [ C ]. In : Proceedings of the 1 st International Conference on Scalable Information Systems (IN- FOSCALE06), Hong Kong, China. 2006.
10刘兰,吴振新,向菁,孙志茹.网络信息资源保存开源软件综述[J].现代图书情报技术,2009(5):11-17. 被引量：14

二级参考文献34

1李春旺.网络环境下学术信息的开放存取[J].中国图书馆学报,2005,31(1):33-37. 被引量：96
2Heritrix[EB/OL].[2009-02-26].http://crawler.Archive.org/.
3HTTrack[EB/OL].[2009-02-26].http://www.httrack.com/.
4Web Curator Tool[RB/OL].[2009 -02 -26].http://webcurator.sourceforge.net/.
5NetArchiveSuite[EB/OL].[2009-02-26].http://netArchive.dk/suite.
6Nutch[EB/OL].[2009-02-26].http://Archive-access.sourceforge.net/projects/nutch/.
7Release 1.12.0[EB/OL].[2009-02-26].http://crawler.Atchive.org/articles/releasenotes/1_12_0.html.
8DeepArc[EB/OL].[2009 -02 -26].http://deeparc.sourceforge.net/.
9GNU Wget[EB/OL].[2009 -02 -26].http://www.gnu.org/software/wget/.
10Juha Hakala.Archiving the Web:European Experiences[EB/OL].[2009-02-26].http://www.lib.helsinki.fi/tietolinja/0203/webArchive.html.

共引文献25

1郎凤举.HTMLParser提取网页超链接研究[J].电脑编程技巧与维护,2010(2):74-75. 被引量：1
2钟华,李新伟,安新颖.卫生政务网络信息资源的采集策略[J].中华医学图书情报杂志,2010,19(8):30-33. 被引量：2
3王楠.一种实现Web数据到XML文档的转换算法[J].大连海事大学学报,2010,36(3):76-78.
4孙镇,王惠临.组织机构文本信息资源管理应用研究[J].情报理论与实践,2010,33(9):86-88. 被引量：1
5马范玲.2010年我国高校图书馆网站建设调查与分析[J].图书馆学刊,2010,32(11):100-103. 被引量：3
6何欢欢.政府网站信息资源采集策略[J].档案管理,2011(4):27-29. 被引量：2
7张辉,张玉祥,吴瑞丽.国内开放存取资源整合及集成平台的比较分析[J].情报杂志,2011,30(10):168-173. 被引量：13
8赵晓峰,凌天斌,彭波,王转妮.一种基于网页源文件的信息提取算法[J].计算机与现代化,2012(2):38-39. 被引量：1
9张玉祥.基于搜索引擎技术的OA资源整合研究[J].山东图书馆学刊,2012(1):84-86. 被引量：2
10朱学芳,冯曦曦.基于文本内容的农业网页信息抽取和分类研究[J].情报科学,2012,30(7):1012-1015. 被引量：3

同被引文献18

1张军,杨景梅.我国政府绩效评估方法研究综述[J].传承,2008(20):110-111. 被引量：2
2段媛.邓小平“第一生产力”与哈贝马斯“第一位生产力”之异同[J].阴山学刊,2006,19(5):82-85. 被引量：1
3昊建中.图书馆Vs机构库-图书馆战略发展的再思考[C].上海:上海图书馆,2004.270-275.
4OpenDOAR-Home Page-Directory of Open Access Repos- itories [EB/OL].http://http://www.opendoar.org/index.html, 2012-09-03.
5Saaty T L. The analytic hierarchy and analytic network measurement processes: Applications to decisions under Risk[J]. European Journal of Pure and Applied Mathematies,2008,1(1):122-196.
6杨勇,张建中.机构知识库的构建与高校图书馆的工作创新[J].图书馆理论与实践,2009(1):74-76. 被引量：25
7贾凤伶,李瑾,李树德,刘耕春,霍文娟,郑标伟.农业科研机构自主创新能力评估指标体系研究[J].天津农业科学,2009,15(1):77-82. 被引量：14
8申红芳,廖西元,陈金发.国家级农业科研机构科技生产力评估[J].科研管理,2009,30(6):163-171. 被引量：5
9杨海东.传统国防意识与现代国防意识浅论[J].中小企业管理与科技,2009(36):114-114. 被引量：2
10胡慧英,申红芳,廖西元,陈金发.农业科研机构科技创新能力的影响因素分析[J].科研管理,2010,31(3):78-88. 被引量：28

引证文献2

1霍速,田丹.高校机构库可持续发展研究[J].新世纪图书馆,2013(2):53-55. 被引量：2
2姜丽华,张照华,刘世洪,谢能付.农业科研机构科技创新能力评价平台设计与实现[J].中国农学通报,2016,32(5):194-199. 被引量：1

二级引证文献3

1周颖.国内机构知识库建设策略研究[J].图书馆研究,2015,45(3):31-34. 被引量：1
2项峻求,李情,毛华兵.中国开放存取运动中机构知识库的现状、进展和挑战[J].图书情报导刊,2017,2(6):49-54. 被引量：1
3姜丽华,闫佳伟,张照华,郑火国.科研机构信息化评估实证研究——以中国农业科学院为例[J].中国农学通报,2018,34(14):155-159. 被引量：2

1王晓雯,孙承爱,周春露.基于元数据映射机制的异构数据操作[J].软件导刊,2015,14(1):146-148. 被引量：4
2张卫清,陈龙,何乐.基于元数据映射实现异构数据库之间的数据转换[J].电气电子教学学报,2010,32(B10):221-222.
3高敬,吴引江.网络信息资源的开发与利用[J].现代图书情报技术,2003(S1):93-96.
4朱银燕.浅谈Internet上的化学化工资源检索[J].日用化学工业信息,2003(8):1-3. 被引量：1
5张美玲.期刊数据库建设实践点滴[J].网友世界,2012(9):30-31.
6何丰.XML技术在图书馆中的应用[J].图书馆理论与实践,2005(1):120-121. 被引量：2
7申彦龙,段维夏,格桑曲珍.基于词链结构的藏文文本零水印算法研究[J].西藏科技,2013(9):75-77.
8刘中峰.基于元数据映射的综合监控系统协议转换器设计与实现[J].中国铁路,2016(3):73-75. 被引量：1
9李禹生,周建中.基于HTML的W eb信息元数据提取技术应用[J].武汉工业学院学报,2005,24(4):7-10. 被引量：4
10《福建农机》编辑部.谨致作者[J].福建农机,2017,0(1):9-9.

现代图书情报技术

2010年第12期

浏览历史

内容加载中请稍等...

机构知识库自动存储系统研究被引量：2

参考文献13

二级参考文献34

共引文献25

同被引文献18

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

机构知识库自动存储系统研究 被引量：2

参考文献13

二级参考文献34

共引文献25

同被引文献18

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

机构知识库自动存储系统研究被引量：2