期刊文献+

PDF文件信息的抽取与分析 被引量:21

Extraction and Analysis of Information from PDF Files
下载PDF
导出
摘要 PDF文件网络信息抽取的重要资源。通过对PDF文件结构的分析,针对最流行的线性PDF文件,在论述如何从源代码中取出正文内容字符串流并进行解码的基础上,对从解码后的字符串流中提取出文本及其相关的字体、字号和换行等文本信息进行了详细的讨论。这将有助于根据需要进一步抽取PDF文件信息。 PDF files are important resource of Internet information extraction. Based on the analysis of PDF file structure, the article discusses the extraction methods of text and related information such as font, font size and line information from the most popular linearized PDF files. These will contribute to extract the information of PDF files we needed further.'
作者 李珍 田学东
出处 《计算机应用》 CSCD 北大核心 2003年第12期145-147,共3页 journal of Computer Applications
基金 河北省自然科学基金项目 (6 0 2 1 2 7)
关键词 信息抽取 PDF文件 文本信息分析 information extraction PDF file analysis of text information
  • 相关文献

参考文献3

二级参考文献10

  • 1万博审. 图形图象文件格式大全[M]. 北京:学苑出版社,1994.
  • 2丁一.PDF技术的拓展范畴(上)[J].印艺,1999,(8).
  • 3丁一.PDF技术的拓展范畴(下)[J].印艺,1999,(9).
  • 4丁一.PDF如何改造文件的世界[J].印艺,2000,(1).
  • 5Kin. 编辑/加工Acrobat文档[EB/OL]. http//www.5dmedia.com.
  • 6小虫.PDF技术—综述篇[J].印艺,2000,(1).
  • 7Losia. Adobe力推的ePaper解决方案[EB/OL]. http// www.5dmedia.com.
  • 8保护Adobe PDF文档的安全及使用数字签名[EB/OL]. http// www.adobe.com.cn.
  • 9Adobe PDF[EB/OL]. http// www.adobe.com.cn.
  • 10肖明.PDF文档的阅读与生成工具[J].电子与电脑,2000,7(1):62-65. 被引量:6

共引文献25

同被引文献153

引证文献21

二级引证文献72

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部