期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于知识的多页文档逻辑结构的分析和理解
1
作者 王姝华 李佐 +1 位作者 蔡士杰 曹阳 《计算机应用与软件》 CSCD 北大核心 2002年第4期33-37,共5页
文档图像理解中最重要的部分是逻辑结构的提取。目前的研究主要集中在页面的布局分析上,少数对文档逻辑结构的研究只是针对单页文档或页面关系简单的多页文档。建筑标书的特殊性在于其层次式的逻辑组成结构没有明确的索引信息标识。本... 文档图像理解中最重要的部分是逻辑结构的提取。目前的研究主要集中在页面的布局分析上,少数对文档逻辑结构的研究只是针对单页文档或页面关系简单的多页文档。建筑标书的特殊性在于其层次式的逻辑组成结构没有明确的索引信息标识。本文提出了一种利用页面间引用关系获取文档逻辑结构的方法。该方法采用修正的树形结构表示文档的逻辑结构,逻辑树的创建过程就是逻辑结构的获取过程,而且有利于更高层的语义处理及还原输出。该方法已在标书自动处理系统中实现,保证了该系统的灵活和高效。 展开更多
关键词 文档理解 文档处理 物理结构 多页文档逻辑结构 知识库 办公自动化
下载PDF
基于优化层次聚类的文档逻辑结构抽取 被引量:2
2
作者 张阔 徐鹏 +1 位作者 李涓子 王克宏 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第4期471-474,共4页
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算... 半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。 展开更多
关键词 层次聚类 文档逻辑结构 特征提取 结构
原文传递
一个基于规则的图书逻辑结构提取算法 被引量:5
3
作者 陈国光 丁晓青 彭良瑞 《计算机工程与应用》 CSCD 北大核心 2002年第19期53-57,143,共6页
在数字图书馆建设中,一个急需解决的问题是如何自动化地将海量的纸张图书数字化为电子文档。对于生成图书电子文档而言,除了文档内容信息以外,文档版面信息和文档逻辑信息同样重要。该文提出了一种基于规则的图书逻辑结构提取算法。从... 在数字图书馆建设中,一个急需解决的问题是如何自动化地将海量的纸张图书数字化为电子文档。对于生成图书电子文档而言,除了文档内容信息以外,文档版面信息和文档逻辑信息同样重要。该文提出了一种基于规则的图书逻辑结构提取算法。从多页图书文档的模型描述出发,通过采用基于规则的推理方法,提取出图书中的逻辑元素并确定各元素间的层次关系和相互联系,从而得到了整本图书的逻辑结构。实验结果证明了算法的有效性。 展开更多
关键词 规则 图书逻辑结构提取算法 文档理解 文档逻辑结构 文档图像分析 OCR 数字图书馆
下载PDF
一种基于聚类技术的图书目录识别方法 被引量:2
4
作者 高良才 汤帜 +2 位作者 林晓帆 俞银燕 房婧 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第4期531-538,共8页
分析了目录识别研究的现状,在总结当前技术优缺点的基础上,提出了一种适应性和效率兼顾的目录识别方法。根据图书目录具有风格一致性的特点,利用聚类技术发现目录装饰性内容,生成具有自适应性的目录布局模型,然后利用该模型生成目录条... 分析了目录识别研究的现状,在总结当前技术优缺点的基础上,提出了一种适应性和效率兼顾的目录识别方法。根据图书目录具有风格一致性的特点,利用聚类技术发现目录装饰性内容,生成具有自适应性的目录布局模型,然后利用该模型生成目录条目及其层次关系。实验结果表明,该方法在准确度和效率上均取得了较好的效果,尤其是有效地处理了存在装饰性内容、折行和多种层次布局的复杂目录。该方法已应用于电子图书生产线,显著提高了原电子目录制作系统的生产效率。 展开更多
关键词 目录识别 文档逻辑结构 文档分析和理解 聚类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部