摘要
PDF文件网络信息抽取的重要资源。通过对PDF文件结构的分析,针对最流行的线性PDF文件,在论述如何从源代码中取出正文内容字符串流并进行解码的基础上,对从解码后的字符串流中提取出文本及其相关的字体、字号和换行等文本信息进行了详细的讨论。这将有助于根据需要进一步抽取PDF文件信息。
PDF files are important resource of Internet information extraction. Based on the analysis of PDF file structure, the article discusses the extraction methods of text and related information such as font, font size and line information from the most popular linearized PDF files. These will contribute to extract the information of PDF files we needed further.'
出处
《计算机应用》
CSCD
北大核心
2003年第12期145-147,共3页
journal of Computer Applications
基金
河北省自然科学基金项目 (6 0 2 1 2 7)
关键词
信息抽取
PDF文件
文本信息分析
information extraction
PDF file
analysis of text information