网络科技信息监测中富文档识别与信息提取技术研究被引量：8

Identification and Information Extraction of Rich Documents for Web Scientific Information Monitoring

导出

摘要【目的/意义】围绕富文档载体类型的鉴别、元数据的提取等开展相应的实际应用探索。【方法/过程】通过开源工具PDFBox以及Tika对不同类型的富文档元数据及正文内容进行提取,取得了良好的实际效果,为科研人员提供了大量的有学术价值的情报资源。【结果/结论】通过对富文档监测与识别的研究与探索,笔者拓展了文本知识内容的识别方法,为后续的深度知识分析提供了有效的支撑。【Purpose/significance】This paper focuses on the practical application of the identification of the rich documentcarrier, the extraction of metadata and the content of the text, and so on.【Method/process】Through the open source tools,such as PDFBox and Tika, the author provides a lot of valuable information resources for the scientific research personnel,which has obtained good actual effect.【Result/conclusion】With the survey and identification of rich documents, the authorexpands the identification methods of text knowledge contents,and provides the effective support to the coming deep knowl-edge analysis.

作者张敏刘建华谢靖

机构地区中国科学院文献情报中心中国科学院大学

出处《情报科学》 CSSCI 北大核心 2017年第1期128-132,共5页 Information Science

基金中国科学院文献情报能力建设专项(院1509) 教育部人文社科基金(14YJC870029)

关键词富文档元数据类型识别 rich documents metadata identification of the rich document carrier

分类号 G254.97 [文化科学—图书馆学]

引文网络
相关文献

参考文献5

1Laurette P.Simmons,郭岚香(译),Ellen D.Hoadley,Faith D.Gilroy,李东风(译),史东承(译).文件中色彩、字形和字体变化的显著突出作用──在不同文化背景下的调查[J].计算机工程,2000,26(11):1-3. 被引量：4
2李珍,田学东.PDF文件信息的抽取与分析[J].计算机应用,2003,23(12):145-147. 被引量：21
3张秀秀,马建霞.PDF科技论文语义元数据的自动抽取研究[J].现代图书情报技术,2009(2):102-106. 被引量：10
4牛永洁,薛苏琴.基于PDFBox抽取学术论文信息的实现[J].计算机技术与发展,2014,24(12):61-63. 被引量：11
5刘建华,张智雄,谢靖,邹益民.基于规则的网络文本资源标题快速自动识别方法[J].现代图书情报技术,2011(6):27-31. 被引量：5

二级参考文献26

1宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
2陈俊林,张文德.基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术,2007(2):18-23. 被引量：9
3陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
4Min Yuh Day, Richard Tzong Han Tsai, Cheng Lung Sung, et al. Reference Metadata Extraction Using a Hierarchical Knowledge Representation Framework [ J ]. Decision Support Systems, 2007 ( 43 ) : 152 - 167.
5Hu Y H, Li H, Cao Y B, et al. Automatic Extraction of Titles from General Documents Using Machine Learning [ J ]. Information Processing and Management, 2006,42 ( ! ) :! 276 - 1293.
6Yu J D, Fan X Z. Metadata Extraction from Chinese Research Papers Based on Conditional Random Fields[ J/OL]. [2008 -10- 21 ]. http://ieeexplore, ieee. org/stamp/stamp, jsp? arnumber = 4405975 &isnumber = 4405869.
7Giles C L, Bollacker K D, Lawrence S. CiteSeer: An Automatic Citation Indexing System[ J/OL]. [ 2008 - 10 - 21 ]. http ://clgiles. ist. psu. edu/papers/DL - 1998 - citeseer, pdf.
8PDF Reference [ EB/OL]. [ 2008 - 04 - 15 ]. http ://www. adobe. com/devnet/pdf/pdfs/PDFReferencel3, pdf.
9Hoadley E D.The Functions of Color in Human InformationProcessing[].Lattanze Working Paper #W P.1989
10Hoadley E D.The Supplanting Function of Color in HumanInformation Processing[].Human Factors inManagement Information Systems.1995

共引文献43

1肖守柏.IEEE批量上传解析PDF方案设计[J].生物技术世界,2013,10(3):169-169.
2王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
3彭纲.论网页的色彩[J].装饰,2004(2):94-94. 被引量：5
4刘平,廖兆存,于俊清.科技文档对象在标签PDF中的表示研究[J].计算机工程与设计,2007,28(13):3198-3200.
5郑彦宁,化柏林,张新民.信息检索与信息抽取差异性探析[J].图书情报工作,2007,51(10):17-20. 被引量：1
6朱斐,刁红军,吕强.一种富文本分类方法的设计和实现[J].计算机应用与软件,2007,24(12):121-122. 被引量：2
7王学忠,肖斌.编程直接生成PDF文档的方法与实现[J].科技信息,2008(14):39-41. 被引量：9
8化柏林,张新民.从知识抽取相关概念辨析看知识抽取的特点和发展趋势[J].情报科学,2010,28(2):311-315. 被引量：16
9褚纪红,云宪明,左宏良.一种实现PDF文档加密的方法[J].情报杂志,2009,28(B12):168-169.
10李强,刘时进.PDF阅读器的设计与实现[J].计算机工程与设计,2010,31(7):1635-1638. 被引量：10

同被引文献68

1黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：20
2包昌火.方法论的建设对情报研究工作的重要意义[J].情报理论与实践,1988,11(2):3-6. 被引量：9
3陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
4钱军.企业竞争情报分析方法的层次框架[J].图书情报工作,2006,50(11):43-45. 被引量：10
5王沙骋,赵澄谋,姬鹏宏.基于WSR的军事情报分析[J].情报杂志,2007,26(4):22-23. 被引量：15
6李运景,侯汉清,薛春香,任银铃.可视化同被引分析技术综述[J].图书情报工作,2008,52(11):22-25. 被引量：7
7冷伏海,冯璐.情报研究方法发展现状与趋势[J].图书情报工作,2009,53(2):29-33. 被引量：29
8钱军.亟需加强以实践为指向的情报分析方法范式研究[J].情报理论与实践,2009,32(2):27-28. 被引量：4
9徐芳.情报分析方法研究进展[J].情报理论与实践,2009,32(8):121-124. 被引量：15
10徐芳,金小璞.认知心理学视角的情报分析过程模型构建[J].图书情报工作,2011,55(16):16-19. 被引量：20

引证文献8

1孙娜.自然语言文本中否定性信息智能抽取仿真[J].计算机仿真,2018,35(12):276-279. 被引量：2
2田文利.基于霍夫直线检测与二维透视变换的图像校正恢复算法[J].电子测量技术,2017,40(9):128-131. 被引量：17
3李超,周瑛,周焕,潘玮.大数据环境下情报分析方法与情报分析软件探讨[J].现代情报,2017,37(7):151-158. 被引量：26
4杨战武,相明科.可重构置换网络配置信息快速提取仿真[J].计算机仿真,2019,36(3):389-392.
5臧弘毅.大数据环境下情报分析的发展前景研究[J].内蒙古科技与经济,2020,0(2):120-121. 被引量：1
6张贺.网络科技信息情报价值评价方法综述[J].无线互联科技,2020,17(16):36-37.
7王春伟,侯方,申升,南赛,李英伟.基于文本信息的PDF文档管理系统设计与实现[J].燕山大学学报,2020,44(6):603-608. 被引量：7
8涂著刚,李正军,杨敏.基于柔性粒度的文本摘要自动化技术创新研究[J].计算机科学与应用,2021,11(10):2546-2554.

二级引证文献52

1罗翔.基于大数据的网络安全与情报分析研究[J].网络安全技术与应用,2020,0(2):66-67. 被引量：3
2蔡挺,徐海龙,张晓梅,李骁,李晓楠."刑侦痕迹图像复原及鉴定系统"应用研究[J].中国公共安全,2023(2):84-87.
3赵相宾,年培新.谈我国变频调速技术的发展及应用[J].电气传动,2000,30(2):3-6. 被引量：73
4刘智皓,林盛鑫,庄泽杰.基于嵌入式Linux系统的条码识别器的设计与实现[J].东莞理工学院学报,2019,26(1):6-10.
5柳兆峰,杨奇,霍永华,谢志敏.基于CURE聚类算法的科技情报异常数据检测[J].无线电通信技术,2018,44(6):605-609. 被引量：3
6袁帅,郭艳茹,宫巍,韩笑迎,闫雪.基于DSmT的室内环境轮廓超声检测模型研究[J].仪器仪表学报,2018,39(10):142-149. 被引量：6
7孙敏.2017年我国情报学研究进展[J].山东图书馆学刊,2018(6):13-19. 被引量：2
8陈宇.大数据分析与情报分析关系辨析[J].教育教学论坛,2019(11):48-49.
9袁敬芸,刘春茂.基于可视化的情报学理论发展趋势研究[J].图书馆工作与研究,2019(5):5-13. 被引量：10
10Lihua WU,Qinghua SHANG,Yupeng SUN,Xu BAI.A self-adaptive correction method for perspective distortions of image[J].Frontiers of Computer Science,2019,13(3):588-598. 被引量：1

1冯华,陆旭安.广西壮族自治区党委常委、秘书长、办公厅主任王可调研自治区档案局[J].中国档案,2017,0(1):10-10.
2于点.分析微博语境下谣言的流传与政府部门的应对策略[J].新闻研究导刊,2016,7(19).
3文通参加中国少数民族语言文字工作成果展[J].数码世界（A）,2008,7(1):15-15.
4吴永臻.企业竞争环境的知识产权信息监测[J].情报探索,1997(1):36-38.
5张磊.档案学高被引论文引用情感类型分析[J].档案管理,2014(4):22-23. 被引量：3
6祝清松,冷伏海.引文类型识别研究进展[J].图书情报知识,2013,30(6):70-76. 被引量：14
7曹树金.专题·网络舆情信息监测(一)[J].图书情报知识,2011,28(6):41-41. 被引量：2
8李畅.微博信息传播的把关对策研究[J].西南科技大学学报（哲学社会科学版）,2012,29(3):91-96. 被引量：3
9孙燕.高校图书馆学科服务工作研究[J].内蒙古科技与经济,2017(3):126-128.
10本刊讯.广西壮族自治区档案局局长黎富文一行来我局考察[J].档案,2016(9):6-6.

情报科学

2017年第1期

浏览历史

内容加载中请稍等...

网络科技信息监测中富文档识别与信息提取技术研究被引量：8

参考文献5

二级参考文献26

共引文献43

同被引文献68

引证文献8

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

网络科技信息监测中富文档识别与信息提取技术研究 被引量：8

参考文献5

二级参考文献26

共引文献43

同被引文献68

引证文献8

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

网络科技信息监测中富文档识别与信息提取技术研究被引量：8