期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于自适应注意力机制的表格结构识别模型
1
作者 郑剑锋 张广涛 刘英莉 《化工自动化及仪表》 CAS 2024年第3期449-455,共7页
针对图像中表格结构识别问题,提出了基于自适应注意力机制的编码-解码架构,预测图像中表格的HTML标签。采用轻量化LCNet和CSP-PAN作为特征编码网络,获得全局图像特征;为解码器设计自适应注意力机制,在解码器的每个时间步骤添加语义特征... 针对图像中表格结构识别问题,提出了基于自适应注意力机制的编码-解码架构,预测图像中表格的HTML标签。采用轻量化LCNet和CSP-PAN作为特征编码网络,获得全局图像特征;为解码器设计自适应注意力机制,在解码器的每个时间步骤添加语义特征,使模型自主选择关注图像信息或语义特征。另外,为提升研究效率,对训练图片数量与模型准确率之间的关系进行研究,结果表明合适的图像数量在70k~100k之间,实验从公开数据集PubTabNet中随机选择100k图片进行训练,模型的TEDS-Struct分数达到了95.1%。 展开更多
关键词 表格结构识别 注意力机制 文档智能 深度学习 模式识别 图像描述
下载PDF
融合边特征与注意力的表格结构识别模型
2
作者 吕学强 张煜楠 +2 位作者 韩晶 崔运鹏 李欢 《计算机应用》 CSCD 北大核心 2023年第3期752-758,共7页
针对现有方法在表格结构识别问题中存在的先验知识依赖、鲁棒性不足、表达能力不足等问题,提出一种新的融合边特征与注意力的表格结构识别模型——GEAN-TSR。首先,提出图边注意力网络(GEAN)并作为模型的主干网络,在边卷积结构的基础上... 针对现有方法在表格结构识别问题中存在的先验知识依赖、鲁棒性不足、表达能力不足等问题,提出一种新的融合边特征与注意力的表格结构识别模型——GEAN-TSR。首先,提出图边注意力网络(GEAN)并作为模型的主干网络,在边卷积结构的基础上引入并改进图注意力机制聚合图节点特征,解决图网络在特征提取过程中的信息损失的问题,提高图网络的表达能力;然后,引入边特征融合模块融合浅层图节点信息与图网络输出,增强图网络的局部信息提取能力与表达能力;最后,将门控循环单元(GRU)提取的图节点文本特征融入文本特征融合模块对边进行分类预测。在SciTSR-COMP数据集上的对比实验中,相较于目前最优的模型SEM,GEAN-TSR的召回率与F1值分别提升2.5与1.4个百分点。在消融实验中,GEAN-TSR采用特征融合模块后,所有指标都取得了最优值,验证了模块的有效性。实验结果表明,GEAN-TSR能够有效提升网络性能,更好地完成表格结构识别任务。 展开更多
关键词 图神经网络 图注意力网络 特征融合 表格结构识别 表格解析
下载PDF
表格结构识别的自动性能评估
3
作者 靳简明 史广顺 +3 位作者 张伟鹏 韩智 潘武模 王庆人 《计算机工程与应用》 CSCD 北大核心 2003年第6期82-84,91,共4页
评估算法的性能需要反复大量的测试。人工评估既难以保证评价标准的一致,又无法保证测试的速度和规模,只有自动的性能评估才能解决上述问题。表格结构识别是进一步理解表格内容的前提。在定义通用表格结构描述的基础上,提出了基于表格... 评估算法的性能需要反复大量的测试。人工评估既难以保证评价标准的一致,又无法保证测试的速度和规模,只有自动的性能评估才能解决上述问题。表格结构识别是进一步理解表格内容的前提。在定义通用表格结构描述的基础上,提出了基于表格线的表格结构识别的性能评估方法。自动评估系统能够指出识别结果与基准数据的区别,平均每秒比较38.6个表格,远超过人工评估的效率。 展开更多
关键词 表格结构识别 自动性能评估 文档图像处理系统 字符识别
下载PDF
Web实体表格结构识别研究 被引量:1
4
作者 张兴兰 刘岩 《软件导刊》 2016年第6期1-5,共5页
Web表格信息提取已成为构建本体的重要工作,它能自动将本体所需的属性名和属性值提取出来,节省大量人工劳动。提出了一种基于单元格类型和值长度的表格结构识别算法,能有效识别定位出的表格展开方式,对于表格信息提取具有重要意义。
关键词 信息提取 表格信息抽取 表格结构识别
下载PDF
基于行列信息门的表格结构识别网络 被引量:2
5
作者 包云超 周全 +1 位作者 孔令军 王茜雯 《无线电工程》 北大核心 2022年第3期463-469,共7页
目前基于深度学习的表格结构识别有2种主流方法:检测表格框线法和检测表格行与列法。在检测表格框线法中,表格框线所占像素数较少导致了正负样本失衡的问题。虽然检测表格行与列法避免了正负样本失衡的问题,但有的研究将行与列预测分别... 目前基于深度学习的表格结构识别有2种主流方法:检测表格框线法和检测表格行与列法。在检测表格框线法中,表格框线所占像素数较少导致了正负样本失衡的问题。虽然检测表格行与列法避免了正负样本失衡的问题,但有的研究将行与列预测分别简化成一列与一行像素的预测,又造成了容错率大的问题。针对该问题,提出了2种信息传输模块:行信息门和列信息门。在模块内,通过特征切片和平铺来对行或列进行软预测,解决了简化行与列预测产生的大容错率问题;通过计算通道注意力进一步提取行或列信息;使用行信息门与列信息门搭建了一个语义分割模型,同时完成表格行分割与列分割。在ICDAR 2013数据集上构建表格的行与列掩模并对模型评估,验证结果表明,与基于检测表格行与列法的分割模型相比,提出的模型有更好的性能,平均查准率、查全率和F1值分别高出0.55%,2.78%和1.48%。 展开更多
关键词 深度学习 表格结构识别 行信息门 列信息门
下载PDF
基于深度学习的政务表格单元格结构检测
6
作者 杨烨 王德军 孟博 《中南民族大学学报(自然科学版)》 CAS 北大核心 2023年第2期253-259,共7页
当前政务领域中涵盖大量复杂异构表格,其结构检测困难,识别准确率较低并且单元格边缘拟合效果较差.针对该问题,在掩膜区域卷积神经网络(Mask R-CNN)的基础上,以政务表格单元格结构为对象,提出一种改进的政务表格单元格结构检测方法.首先... 当前政务领域中涵盖大量复杂异构表格,其结构检测困难,识别准确率较低并且单元格边缘拟合效果较差.针对该问题,在掩膜区域卷积神经网络(Mask R-CNN)的基础上,以政务表格单元格结构为对象,提出一种改进的政务表格单元格结构检测方法.首先,在Mask R-CNN算法的主干网络及特征金字塔中加入通道注意力机制,增强有效特征通道权重;然后,对分割产生的掩膜结果使用基于规则和形态学方法进行优化以提升单元格分割边缘拟合度.实验结果表明:改进后的表格单元格结构检测模型在此数据集G-Tab及公开表格数据集ICDAR2013上的精确率和召回率都有明显提升,能够验证改进模型的有效性. 展开更多
关键词 表格结构识别 深度学习 掩膜区域卷积神经网络 注意力机制
下载PDF
智能化表格识别技术综述
7
作者 梁天恺 苏新铎 +3 位作者 黄宇恒 徐天适 张华俊 曾碧 《计算机工程与应用》 CSCD 北大核心 2023年第12期62-76,共15页
在大数据和互联网的历史背景下,信息技术的发展伴随着大量文档的产生。作为数据关系直观体现的表格常见于文档中,表格的归档也是文档处理的重要任务之一。如何在海量的文档中快速地对表格进行自动化识别成为妨碍文档处理迈向智能化的关... 在大数据和互联网的历史背景下,信息技术的发展伴随着大量文档的产生。作为数据关系直观体现的表格常见于文档中,表格的归档也是文档处理的重要任务之一。如何在海量的文档中快速地对表格进行自动化识别成为妨碍文档处理迈向智能化的关键因素。作为人工智能研究领域重要分支之一的表格识别,能实现表格对象和结构的自动化检测与识别,被广泛应用在文档智能化处理等场景。因此总结与综述表格识别领域的概念、技术、应用与挑战显得尤为重要。阐述表格识别的概念,指出表格识别任务可被分为表格检测和表格结构识别两大子任务。针对表格检测研究方向主流的anchor-based和anchor-free算法进行介绍和分析,总结不同算法的优缺点。分别阐述基于语义分割、基于双向割并、融合神经网络以及端到端等四大类别的主流的表格结构识别算法的原理和优缺点。同时分析并讨论目前常见的有机融合表格检测和表格结构识别的非端到端与端到端的表格识别算法。最后总结并指出表格识别的应用、挑战与展望。 展开更多
关键词 表格识别 表格检测 表格结构识别 人工智能 大数据
下载PDF
基于改进结构与位置对齐网络的表结构识别法
8
作者 陈雨 蒋三新 《国外电子测量技术》 北大核心 2023年第12期57-62,共6页
针对现有表格结构检测方法运算量大,表格结构识别准确率低的问题,提出了一种改进的表格结构识别方法。该方法优化了结构与位置对齐网络,提出在一个轻量级的CPU卷积神经网络PPLCNet较深层增加残差连接,加强网络的学习能力;在特征提取和... 针对现有表格结构检测方法运算量大,表格结构识别准确率低的问题,提出了一种改进的表格结构识别方法。该方法优化了结构与位置对齐网络,提出在一个轻量级的CPU卷积神经网络PPLCNet较深层增加残差连接,加强网络的学习能力;在特征提取和特征融合之间引入卷积块注意力模块(convolutional block attention module,CBAM)机制,同时从通道和空间维度加强模型对目标对象的定位能力;在Head部分采用卷积层替代全连接层,实现权重共享,用来降低模型的计算量;此外,还采用Smooth L1损失函数,通过回归表格四顶点坐标,避免图像畸变对于模型性能的影响;为了验证算法的性能,采用PubTabNet数据集进行测试,结果表明所提方法的准确率(Acc)达到71.58%,基于树编辑距离的相似度(tree-editdistance-based similarity,TEDS)达到94.47%;相比较于改进前模型精度提升了2.76%,TEDS提升了0.79%,模型综合性能更优。 展开更多
关键词 深度学习 表格结构识别 注意力机制 残差网络
下载PDF
基于图卷积网络的表格结构提取 被引量:1
9
作者 李一仁 黄征 +2 位作者 陈凯 郭捷 邱卫东 《信息系统工程》 2021年第1期132-134,共3页
论文提出了一种基于图卷积网络的表格结构提取方法,通过了融合表格中的文本信息、位置信息和图片信息,从采用数据的多样性方面和对数据进行特征提取的方法等方面进行改进,有效提升了表格识别的准确率,获得了更加准确的表格结构重建结果... 论文提出了一种基于图卷积网络的表格结构提取方法,通过了融合表格中的文本信息、位置信息和图片信息,从采用数据的多样性方面和对数据进行特征提取的方法等方面进行改进,有效提升了表格识别的准确率,获得了更加准确的表格结构重建结果,相对现有基于传统规则的表格识别机制及基于图片的传统深度学习方法有了很大的提升效果。 展开更多
关键词 机器学习 图卷积神经网络 表格结构识别
下载PDF
基于本体的Web表格信息抽取技术的研究 被引量:3
10
作者 袁鸿雁 《青岛大学学报(自然科学版)》 CAS 2010年第2期47-51,共5页
将本体与和Web信息抽取技术相结合,将信息抽取的重点放在特定的领域,利用表格属性定位、识别表格结构生成启发式规则,可以大大提高信息抽取的准确率。
关键词 WEB表格 本体 表格定位 表格结构识别
下载PDF
Web表格信息抽取研究综述 被引量:11
11
作者 赵洪 肖洪 +1 位作者 薛德军 师庆辉 《现代图书情报技术》 CSSCI 北大核心 2008年第3期24-31,共8页
介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展... 介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。 展开更多
关键词 WEB表格 信息抽取 表格定位 表格结构识别 表格内容整合
下载PDF
基于加权无向图的表格分割方法
12
作者 贺岩 崔喆 《计算机应用》 CSCD 北大核心 2004年第S1期175-177,共3页
用计算机大批量实时处理表格 ,必须尽量快速地分割出各有效信息块 ,再针对单个信息块进行字符识别和基于词语句法的后期处理。介绍了一种构造加权无向图以分割表格的方法 ,图本身蕴含了表格的版面结构 ,同时又可以作为模式对表格进行分类。
关键词 表格处理 表格结构识别 信息块分割
下载PDF
表格识别技术研究进展 被引量:9
13
作者 高良才 李一博 +6 位作者 都林 张新鹏 朱子仪 卢宁 金连文 黄永帅 汤帜 《中国图象图形学报》 CSCD 北大核心 2022年第6期1898-1917,共20页
表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息。表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一。随着深度学习的发展,针对表格识... 表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息。表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一。随着深度学习的发展,针对表格识别的新研究和新方法纷纷涌现。然而,由于表格应用场景广泛、样式众多、图像质量参差不齐等因素,表格识别领域仍然存在着大量问题亟需解决。为了更好地总结前人工作,为后续研究提供支持,本文围绕表格区域检测、结构识别和内容识别等3个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内外的发展历史和最新进展。梳理了表格识别相关数据集及评测标准,并基于主流数据集和标准,分别对表格区域检测、结构识别、表格信息抽取的典型方法进行了性能比较。然后,对比分析了国内相对于国外,在表格识别方面的研究进展与水平。最后,结合表格识别领域目前面临的主要困难与挑战,对未来的研究趋势和技术发展目标进行了展望。 展开更多
关键词 表格区域检测 表格结构识别 表格内容识别 深度学习 单元格识别 表格信息抽取
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部