期刊文献+

网络科技信息监测中富文档识别与信息提取技术研究 被引量:8

Identification and Information Extraction of Rich Documents for Web Scientific Information Monitoring
原文传递
导出
摘要 【目的/意义】围绕富文档载体类型的鉴别、元数据的提取等开展相应的实际应用探索。【方法/过程】通过开源工具PDFBox以及Tika对不同类型的富文档元数据及正文内容进行提取,取得了良好的实际效果,为科研人员提供了大量的有学术价值的情报资源。【结果/结论】通过对富文档监测与识别的研究与探索,笔者拓展了文本知识内容的识别方法,为后续的深度知识分析提供了有效的支撑。 【Purpose/significance】This paper focuses on the practical application of the identification of the rich documentcarrier, the extraction of metadata and the content of the text, and so on.【Method/process】Through the open source tools,such as PDFBox and Tika, the author provides a lot of valuable information resources for the scientific research personnel,which has obtained good actual effect.【Result/conclusion】With the survey and identification of rich documents, the authorexpands the identification methods of text knowledge contents,and provides the effective support to the coming deep knowl-edge analysis.
出处 《情报科学》 CSSCI 北大核心 2017年第1期128-132,共5页 Information Science
基金 中国科学院文献情报能力建设专项(院1509) 教育部人文社科基金(14YJC870029)
关键词 富文档 元数据 类型识别 rich documents metadata identification of the rich document carrier
  • 相关文献

参考文献5

二级参考文献26

  • 1宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量:16
  • 2陈俊林,张文德.基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术,2007(2):18-23. 被引量:9
  • 3陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量:12
  • 4Min Yuh Day, Richard Tzong Han Tsai, Cheng Lung Sung, et al. Reference Metadata Extraction Using a Hierarchical Knowledge Representation Framework [ J ]. Decision Support Systems, 2007 ( 43 ) : 152 - 167.
  • 5Hu Y H, Li H, Cao Y B, et al. Automatic Extraction of Titles from General Documents Using Machine Learning [ J ]. Information Processing and Management, 2006,42 ( ! ) :! 276 - 1293.
  • 6Yu J D, Fan X Z. Metadata Extraction from Chinese Research Papers Based on Conditional Random Fields[ J/OL]. [2008 -10- 21 ]. http://ieeexplore, ieee. org/stamp/stamp, jsp? arnumber = 4405975 &isnumber = 4405869.
  • 7Giles C L, Bollacker K D, Lawrence S. CiteSeer: An Automatic Citation Indexing System[ J/OL]. [ 2008 - 10 - 21 ]. http ://clgiles. ist. psu. edu/papers/DL - 1998 - citeseer, pdf.
  • 8PDF Reference [ EB/OL]. [ 2008 - 04 - 15 ]. http ://www. adobe. com/devnet/pdf/pdfs/PDFReferencel3, pdf.
  • 9Hoadley E D.The Functions of Color in Human InformationProcessing[].Lattanze Working Paper #W P.1989
  • 10Hoadley E D.The Supplanting Function of Color in HumanInformation Processing[].Human Factors inManagement Information Systems.1995

共引文献43

同被引文献68

引证文献8

二级引证文献52

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部