期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于知识的多页文档逻辑结构的分析和理解
1
作者
王姝华
李佐
+1 位作者
蔡士杰
曹阳
《计算机应用与软件》
CSCD
北大核心
2002年第4期33-37,共5页
文档图像理解中最重要的部分是逻辑结构的提取。目前的研究主要集中在页面的布局分析上,少数对文档逻辑结构的研究只是针对单页文档或页面关系简单的多页文档。建筑标书的特殊性在于其层次式的逻辑组成结构没有明确的索引信息标识。本...
文档图像理解中最重要的部分是逻辑结构的提取。目前的研究主要集中在页面的布局分析上,少数对文档逻辑结构的研究只是针对单页文档或页面关系简单的多页文档。建筑标书的特殊性在于其层次式的逻辑组成结构没有明确的索引信息标识。本文提出了一种利用页面间引用关系获取文档逻辑结构的方法。该方法采用修正的树形结构表示文档的逻辑结构,逻辑树的创建过程就是逻辑结构的获取过程,而且有利于更高层的语义处理及还原输出。该方法已在标书自动处理系统中实现,保证了该系统的灵活和高效。
展开更多
关键词
文档
理解
文档
处理
物理
结构
多页
文档逻辑结构
知识库
办公自动化
下载PDF
职称材料
基于优化层次聚类的文档逻辑结构抽取
被引量:
2
2
作者
张阔
徐鹏
+1 位作者
李涓子
王克宏
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005年第4期471-474,共4页
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算...
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。
展开更多
关键词
层次聚类
文档逻辑结构
特征提取
半
结构
化
原文传递
一个基于规则的图书逻辑结构提取算法
被引量:
5
3
作者
陈国光
丁晓青
彭良瑞
《计算机工程与应用》
CSCD
北大核心
2002年第19期53-57,143,共6页
在数字图书馆建设中,一个急需解决的问题是如何自动化地将海量的纸张图书数字化为电子文档。对于生成图书电子文档而言,除了文档内容信息以外,文档版面信息和文档逻辑信息同样重要。该文提出了一种基于规则的图书逻辑结构提取算法。从...
在数字图书馆建设中,一个急需解决的问题是如何自动化地将海量的纸张图书数字化为电子文档。对于生成图书电子文档而言,除了文档内容信息以外,文档版面信息和文档逻辑信息同样重要。该文提出了一种基于规则的图书逻辑结构提取算法。从多页图书文档的模型描述出发,通过采用基于规则的推理方法,提取出图书中的逻辑元素并确定各元素间的层次关系和相互联系,从而得到了整本图书的逻辑结构。实验结果证明了算法的有效性。
展开更多
关键词
规则
图书
逻辑
结构
提取算法
文档
理解
文档逻辑结构
文档
图像分析
OCR
数字图书馆
下载PDF
职称材料
一种基于聚类技术的图书目录识别方法
被引量:
2
4
作者
高良才
汤帜
+2 位作者
林晓帆
俞银燕
房婧
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010年第4期531-538,共8页
分析了目录识别研究的现状,在总结当前技术优缺点的基础上,提出了一种适应性和效率兼顾的目录识别方法。根据图书目录具有风格一致性的特点,利用聚类技术发现目录装饰性内容,生成具有自适应性的目录布局模型,然后利用该模型生成目录条...
分析了目录识别研究的现状,在总结当前技术优缺点的基础上,提出了一种适应性和效率兼顾的目录识别方法。根据图书目录具有风格一致性的特点,利用聚类技术发现目录装饰性内容,生成具有自适应性的目录布局模型,然后利用该模型生成目录条目及其层次关系。实验结果表明,该方法在准确度和效率上均取得了较好的效果,尤其是有效地处理了存在装饰性内容、折行和多种层次布局的复杂目录。该方法已应用于电子图书生产线,显著提高了原电子目录制作系统的生产效率。
展开更多
关键词
目录识别
文档逻辑结构
文档
分析和理解
聚类
下载PDF
职称材料
题名
基于知识的多页文档逻辑结构的分析和理解
1
作者
王姝华
李佐
蔡士杰
曹阳
机构
南京大学计算机软件新技术国家重点实验室
香港理工大学建筑与房地产系
出处
《计算机应用与软件》
CSCD
北大核心
2002年第4期33-37,共5页
文摘
文档图像理解中最重要的部分是逻辑结构的提取。目前的研究主要集中在页面的布局分析上,少数对文档逻辑结构的研究只是针对单页文档或页面关系简单的多页文档。建筑标书的特殊性在于其层次式的逻辑组成结构没有明确的索引信息标识。本文提出了一种利用页面间引用关系获取文档逻辑结构的方法。该方法采用修正的树形结构表示文档的逻辑结构,逻辑树的创建过程就是逻辑结构的获取过程,而且有利于更高层的语义处理及还原输出。该方法已在标书自动处理系统中实现,保证了该系统的灵活和高效。
关键词
文档
理解
文档
处理
物理
结构
多页
文档逻辑结构
知识库
办公自动化
Keywords
Document understanding Document processing Layout analysis Physical structure Logical structure
分类号
TP317.1 [自动化与计算机技术—计算机软件与理论]
C931.4 [经济管理—管理学]
下载PDF
职称材料
题名
基于优化层次聚类的文档逻辑结构抽取
被引量:
2
2
作者
张阔
徐鹏
李涓子
王克宏
机构
清华大学计算机科学与技术系
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005年第4期471-474,共4页
基金
国家自然科学基金资助项目(60443002)
文摘
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。
关键词
层次聚类
文档逻辑结构
特征提取
半
结构
化
Keywords
hierarchy clustering
document logical structure
attribute extraction
semi-structured
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
原文传递
题名
一个基于规则的图书逻辑结构提取算法
被引量:
5
3
作者
陈国光
丁晓青
彭良瑞
机构
清华大学电子工程系智能技术与系统国家重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2002年第19期53-57,143,共6页
基金
国家自然科学基金(编号:69972024)
国家863高技术研究发展计划(编号:2001AA114081)
文摘
在数字图书馆建设中,一个急需解决的问题是如何自动化地将海量的纸张图书数字化为电子文档。对于生成图书电子文档而言,除了文档内容信息以外,文档版面信息和文档逻辑信息同样重要。该文提出了一种基于规则的图书逻辑结构提取算法。从多页图书文档的模型描述出发,通过采用基于规则的推理方法,提取出图书中的逻辑元素并确定各元素间的层次关系和相互联系,从而得到了整本图书的逻辑结构。实验结果证明了算法的有效性。
关键词
规则
图书
逻辑
结构
提取算法
文档
理解
文档逻辑结构
文档
图像分析
OCR
数字图书馆
Keywords
Document Understanding,Document Logical Structure,Document Image Analysis,Optical Character Recogni-tion(OCR)
分类号
G250.76 [文化科学—图书馆学]
下载PDF
职称材料
题名
一种基于聚类技术的图书目录识别方法
被引量:
2
4
作者
高良才
汤帜
林晓帆
俞银燕
房婧
机构
北京大学计算机科学技术研究所
Vobile Incorporation
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010年第4期531-538,共8页
基金
国家科技支撑计划(2006BAH02A21)资助
文摘
分析了目录识别研究的现状,在总结当前技术优缺点的基础上,提出了一种适应性和效率兼顾的目录识别方法。根据图书目录具有风格一致性的特点,利用聚类技术发现目录装饰性内容,生成具有自适应性的目录布局模型,然后利用该模型生成目录条目及其层次关系。实验结果表明,该方法在准确度和效率上均取得了较好的效果,尤其是有效地处理了存在装饰性内容、折行和多种层次布局的复杂目录。该方法已应用于电子图书生产线,显著提高了原电子目录制作系统的生产效率。
关键词
目录识别
文档逻辑结构
文档
分析和理解
聚类
Keywords
table of contents recognition
document logical structure
document analysis and understanding
clustering
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于知识的多页文档逻辑结构的分析和理解
王姝华
李佐
蔡士杰
曹阳
《计算机应用与软件》
CSCD
北大核心
2002
0
下载PDF
职称材料
2
基于优化层次聚类的文档逻辑结构抽取
张阔
徐鹏
李涓子
王克宏
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005
2
原文传递
3
一个基于规则的图书逻辑结构提取算法
陈国光
丁晓青
彭良瑞
《计算机工程与应用》
CSCD
北大核心
2002
5
下载PDF
职称材料
4
一种基于聚类技术的图书目录识别方法
高良才
汤帜
林晓帆
俞银燕
房婧
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部