期刊文献+
共找到44篇文章
< 1 2 3 >
每页显示 20 50 100
基于自适应注意力机制的表格结构识别模型
1
作者 郑剑锋 张广涛 刘英莉 《化工自动化及仪表》 CAS 2024年第3期449-455,共7页
针对图像中表格结构识别问题,提出了基于自适应注意力机制的编码-解码架构,预测图像中表格的HTML标签。采用轻量化LCNet和CSP-PAN作为特征编码网络,获得全局图像特征;为解码器设计自适应注意力机制,在解码器的每个时间步骤添加语义特征... 针对图像中表格结构识别问题,提出了基于自适应注意力机制的编码-解码架构,预测图像中表格的HTML标签。采用轻量化LCNet和CSP-PAN作为特征编码网络,获得全局图像特征;为解码器设计自适应注意力机制,在解码器的每个时间步骤添加语义特征,使模型自主选择关注图像信息或语义特征。另外,为提升研究效率,对训练图片数量与模型准确率之间的关系进行研究,结果表明合适的图像数量在70k~100k之间,实验从公开数据集PubTabNet中随机选择100k图片进行训练,模型的TEDS-Struct分数达到了95.1%。 展开更多
关键词 表格结构识别 注意力机制 文档智能 深度学习 模式识别 图像描述
下载PDF
融合边特征与注意力的表格结构识别模型
2
作者 吕学强 张煜楠 +2 位作者 韩晶 崔运鹏 李欢 《计算机应用》 CSCD 北大核心 2023年第3期752-758,共7页
针对现有方法在表格结构识别问题中存在的先验知识依赖、鲁棒性不足、表达能力不足等问题,提出一种新的融合边特征与注意力的表格结构识别模型——GEAN-TSR。首先,提出图边注意力网络(GEAN)并作为模型的主干网络,在边卷积结构的基础上... 针对现有方法在表格结构识别问题中存在的先验知识依赖、鲁棒性不足、表达能力不足等问题,提出一种新的融合边特征与注意力的表格结构识别模型——GEAN-TSR。首先,提出图边注意力网络(GEAN)并作为模型的主干网络,在边卷积结构的基础上引入并改进图注意力机制聚合图节点特征,解决图网络在特征提取过程中的信息损失的问题,提高图网络的表达能力;然后,引入边特征融合模块融合浅层图节点信息与图网络输出,增强图网络的局部信息提取能力与表达能力;最后,将门控循环单元(GRU)提取的图节点文本特征融入文本特征融合模块对边进行分类预测。在SciTSR-COMP数据集上的对比实验中,相较于目前最优的模型SEM,GEAN-TSR的召回率与F1值分别提升2.5与1.4个百分点。在消融实验中,GEAN-TSR采用特征融合模块后,所有指标都取得了最优值,验证了模块的有效性。实验结果表明,GEAN-TSR能够有效提升网络性能,更好地完成表格结构识别任务。 展开更多
关键词 图神经网络 图注意力网络 特征融合 表格结构识别 表格解析
下载PDF
基于表格线搜索的智能表格结构提取算法 被引量:1
3
作者 汪先矩 黄瀚敏 马笑潇 《基础自动化》 CSCD 1999年第6期32-35,共4页
提出了一种新型的基于表格线搜索的表格结构提取算法。该算法充分分析了表格的结构特点,应用了大量的先验知识,制定了各种最佳阈值参数的选择规则,对不同的表格适应性很强。测试结果表明,该算法具有抗噪能力强,识别速度快,识别率高等特点。
关键词 表格线搜索 办公自动化 表格结构提取 算法
下载PDF
表格结构识别的自动性能评估
4
作者 靳简明 史广顺 +3 位作者 张伟鹏 韩智 潘武模 王庆人 《计算机工程与应用》 CSCD 北大核心 2003年第6期82-84,91,共4页
评估算法的性能需要反复大量的测试。人工评估既难以保证评价标准的一致,又无法保证测试的速度和规模,只有自动的性能评估才能解决上述问题。表格结构识别是进一步理解表格内容的前提。在定义通用表格结构描述的基础上,提出了基于表格... 评估算法的性能需要反复大量的测试。人工评估既难以保证评价标准的一致,又无法保证测试的速度和规模,只有自动的性能评估才能解决上述问题。表格结构识别是进一步理解表格内容的前提。在定义通用表格结构描述的基础上,提出了基于表格线的表格结构识别的性能评估方法。自动评估系统能够指出识别结果与基准数据的区别,平均每秒比较38.6个表格,远超过人工评估的效率。 展开更多
关键词 表格结构识别 自动性能评估 文档图像处理系统 字符识别
下载PDF
在应用服务器层修改数据库表格结构的方法与一个针对Oracle的实例
5
作者 操晓春 熊璋 龚声蓉 《计算机应用研究》 CSCD 2000年第10期74-76,共3页
数据库应用程序采用固定的表格结构是影响其通用性的重要原因之一,修改表格结构的传统方法是在数据库服务层修改。这种方法需要修改部分代码、手工生成报表,维护工作量大。文章提出的在应用服务层修改数据库表格结构的方法不用修改源... 数据库应用程序采用固定的表格结构是影响其通用性的重要原因之一,修改表格结构的传统方法是在数据库服务层修改。这种方法需要修改部分代码、手工生成报表,维护工作量大。文章提出的在应用服务层修改数据库表格结构的方法不用修改源代码,报表自动生成,并以Oracle为例,讨论如何在应用服务层实现对数据库表格结构的修改。 展开更多
关键词 数据库 表格结构 ORACLE 应用服务器层
下载PDF
Web实体表格结构识别研究 被引量:1
6
作者 张兴兰 刘岩 《软件导刊》 2016年第6期1-5,共5页
Web表格信息提取已成为构建本体的重要工作,它能自动将本体所需的属性名和属性值提取出来,节省大量人工劳动。提出了一种基于单元格类型和值长度的表格结构识别算法,能有效识别定位出的表格展开方式,对于表格信息提取具有重要意义。
关键词 信息提取 表格信息抽取 表格结构识别
下载PDF
基于行列信息门的表格结构识别网络 被引量:2
7
作者 包云超 周全 +1 位作者 孔令军 王茜雯 《无线电工程》 北大核心 2022年第3期463-469,共7页
目前基于深度学习的表格结构识别有2种主流方法:检测表格框线法和检测表格行与列法。在检测表格框线法中,表格框线所占像素数较少导致了正负样本失衡的问题。虽然检测表格行与列法避免了正负样本失衡的问题,但有的研究将行与列预测分别... 目前基于深度学习的表格结构识别有2种主流方法:检测表格框线法和检测表格行与列法。在检测表格框线法中,表格框线所占像素数较少导致了正负样本失衡的问题。虽然检测表格行与列法避免了正负样本失衡的问题,但有的研究将行与列预测分别简化成一列与一行像素的预测,又造成了容错率大的问题。针对该问题,提出了2种信息传输模块:行信息门和列信息门。在模块内,通过特征切片和平铺来对行或列进行软预测,解决了简化行与列预测产生的大容错率问题;通过计算通道注意力进一步提取行或列信息;使用行信息门与列信息门搭建了一个语义分割模型,同时完成表格行分割与列分割。在ICDAR 2013数据集上构建表格的行与列掩模并对模型评估,验证结果表明,与基于检测表格行与列法的分割模型相比,提出的模型有更好的性能,平均查准率、查全率和F1值分别高出0.55%,2.78%和1.48%。 展开更多
关键词 深度学习 表格结构识别 行信息门 列信息门
下载PDF
基于图卷积网络的表格结构提取 被引量:1
8
作者 李一仁 黄征 +2 位作者 陈凯 郭捷 邱卫东 《信息系统工程》 2021年第1期132-134,共3页
论文提出了一种基于图卷积网络的表格结构提取方法,通过了融合表格中的文本信息、位置信息和图片信息,从采用数据的多样性方面和对数据进行特征提取的方法等方面进行改进,有效提升了表格识别的准确率,获得了更加准确的表格结构重建结果... 论文提出了一种基于图卷积网络的表格结构提取方法,通过了融合表格中的文本信息、位置信息和图片信息,从采用数据的多样性方面和对数据进行特征提取的方法等方面进行改进,有效提升了表格识别的准确率,获得了更加准确的表格结构重建结果,相对现有基于传统规则的表格识别机制及基于图片的传统深度学习方法有了很大的提升效果。 展开更多
关键词 机器学习 图卷积神经网络 表格结构识别
下载PDF
基于深度学习的政务表格单元格结构检测
9
作者 杨烨 王德军 孟博 《中南民族大学学报(自然科学版)》 CAS 北大核心 2023年第2期253-259,共7页
当前政务领域中涵盖大量复杂异构表格,其结构检测困难,识别准确率较低并且单元格边缘拟合效果较差.针对该问题,在掩膜区域卷积神经网络(Mask R-CNN)的基础上,以政务表格单元格结构为对象,提出一种改进的政务表格单元格结构检测方法.首先... 当前政务领域中涵盖大量复杂异构表格,其结构检测困难,识别准确率较低并且单元格边缘拟合效果较差.针对该问题,在掩膜区域卷积神经网络(Mask R-CNN)的基础上,以政务表格单元格结构为对象,提出一种改进的政务表格单元格结构检测方法.首先,在Mask R-CNN算法的主干网络及特征金字塔中加入通道注意力机制,增强有效特征通道权重;然后,对分割产生的掩膜结果使用基于规则和形态学方法进行优化以提升单元格分割边缘拟合度.实验结果表明:改进后的表格单元格结构检测模型在此数据集G-Tab及公开表格数据集ICDAR2013上的精确率和召回率都有明显提升,能够验证改进模型的有效性. 展开更多
关键词 表格结构识别 深度学习 掩膜区域卷积神经网络 注意力机制
下载PDF
非结构化表格文档数据抽取与组织模型研究 被引量:12
10
作者 张元鸣 陈苗 +2 位作者 陆佳炜 徐俊 肖刚 《浙江工业大学学报》 CAS 北大核心 2016年第5期487-494,共8页
针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括... 针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析. 展开更多
关键词 结构表格文档 数据抽取 结构化数据模型 数据分析
下载PDF
用Delphi生成Word报告及动态结构表格 被引量:19
11
作者 鲁保玉 杨新芳 《计算机应用与软件》 CSCD 北大核心 2007年第3期180-183,共4页
在Delphi中用Word作为报表输出工具可以进一步扩展应用程序的功能,便于用户对所生成的报表进行二次加工和重复使用。用Servers控件调用Word能够较好地实现Delphi对Word的控制。可以在Word中创建模板,在Delphi中运用该模板生成Word文档... 在Delphi中用Word作为报表输出工具可以进一步扩展应用程序的功能,便于用户对所生成的报表进行二次加工和重复使用。用Servers控件调用Word能够较好地实现Delphi对Word的控制。可以在Word中创建模板,在Delphi中运用该模板生成Word文档。对于文档中动态变化的部分,可预先设置好书签或关键字,在Delphi中通过定位书签或查找替换的方法更新Word文档。对于动态结构表格和多层次嵌套表格,可以通过巧妙地运用单元格的拆分与合并功能来创建。 展开更多
关键词 DELPHI WORD模板 书签 查找替换 动态结构表格
下载PDF
融合容错机制的基于Attention-Mask RCNN地质表格信息抽取方法
12
作者 董家慧子 谢忠 +3 位作者 邱芹军 马凯 田苗 陶留锋 《地质科学》 CAS CSCD 北大核心 2023年第3期1147-1163,共17页
地质表格信息提取是地质报告从信息转换到知识阶段的重要任务之一,对将非结构化的数据转化为结构化的地学知识具有重要意义,同时还为文本与表格的知识关联提供了技术支撑。然而现有的表格解析方法在地学领域存在局限性,在单元格提取中,... 地质表格信息提取是地质报告从信息转换到知识阶段的重要任务之一,对将非结构化的数据转化为结构化的地学知识具有重要意义,同时还为文本与表格的知识关联提供了技术支撑。然而现有的表格解析方法在地学领域存在局限性,在单元格提取中,地质表格中大量的合并单元格造成了不同单元格间大小差异大,大量小面积单元格无法被提取;在表格解析方面地质表格包含了大量的被斜线分割的特殊表头,难以自动化解析。为解决上述问题,本文提出了一种基于注意力机制的Mask RCNN单元格提取模型及基于OpenCV框架的表格结构解析方法。主要包括两个步骤:1)上下文注意模块(CAM)学习上下文特征以识别不同大小单元格;2)一种标准容错机制的复杂表头解析方法,解析含斜线分割的复杂表头单元格。在构建的地质表格数据集上进行模型性能评估,该方法对于多数地质表格的解析准确率达到95%以上;相比其他单元格识别和表格结构解析方法,该方法解析效果更优。 展开更多
关键词 地质报告 地质表格结构解析 Mask RCNN 容错机制 注意力机制
下载PDF
智能化表格识别技术综述
13
作者 梁天恺 苏新铎 +3 位作者 黄宇恒 徐天适 张华俊 曾碧 《计算机工程与应用》 CSCD 北大核心 2023年第12期62-76,共15页
在大数据和互联网的历史背景下,信息技术的发展伴随着大量文档的产生。作为数据关系直观体现的表格常见于文档中,表格的归档也是文档处理的重要任务之一。如何在海量的文档中快速地对表格进行自动化识别成为妨碍文档处理迈向智能化的关... 在大数据和互联网的历史背景下,信息技术的发展伴随着大量文档的产生。作为数据关系直观体现的表格常见于文档中,表格的归档也是文档处理的重要任务之一。如何在海量的文档中快速地对表格进行自动化识别成为妨碍文档处理迈向智能化的关键因素。作为人工智能研究领域重要分支之一的表格识别,能实现表格对象和结构的自动化检测与识别,被广泛应用在文档智能化处理等场景。因此总结与综述表格识别领域的概念、技术、应用与挑战显得尤为重要。阐述表格识别的概念,指出表格识别任务可被分为表格检测和表格结构识别两大子任务。针对表格检测研究方向主流的anchor-based和anchor-free算法进行介绍和分析,总结不同算法的优缺点。分别阐述基于语义分割、基于双向割并、融合神经网络以及端到端等四大类别的主流的表格结构识别算法的原理和优缺点。同时分析并讨论目前常见的有机融合表格检测和表格结构识别的非端到端与端到端的表格识别算法。最后总结并指出表格识别的应用、挑战与展望。 展开更多
关键词 表格识别 表格检测 表格结构识别 人工智能 大数据
下载PDF
光学字符识别对卒中结构化随访表格识别效果的对比研究
14
作者 王驰 王伟 +2 位作者 邱玉发 唐冬梅 舒张 《中国社区医师》 2022年第29期164-166,共3页
目的:研究不同光学字符识别(OCR)方案在真实环境中对纸质卒中随访表格的识别效果,探索OCR技术在结构化卒中随访表格电子化中的可行性。方法:收集太仓市第一人民医院2019-2020年社区、乡镇人群心脑血管病危险因素纸质随访表,根据图像采... 目的:研究不同光学字符识别(OCR)方案在真实环境中对纸质卒中随访表格的识别效果,探索OCR技术在结构化卒中随访表格电子化中的可行性。方法:收集太仓市第一人民医院2019-2020年社区、乡镇人群心脑血管病危险因素纸质随访表,根据图像采集质量分为正常、角度不佳、光线不佳。文字识别分别采用通用OCR和百度自定义模板文字识别(IOCR),输出文字经人工校对与原始数据对比,计算错误率。结果:通用OCR的正常、角度不佳、光线不佳识别率分别为99.3%、86.1%、97.1%,IOCR的正常、角度不佳、光线不佳识别率分别为99.0%、93.7%、98.1%。通用OCR与IOCR总体识别率比较,差异有统计学意义(P<0.05)。正常、角度不佳、光线不佳图片的通用OCR识别率比较,差异有统计学意义(P<0.05);正常、角度不佳、光线不佳图片的IOCR识别率比较,差异有统计学意义(P<0.05)。结论:结构化表格通过模板构建的IOCR识别方案可以提高识别率,在正常采集角度下能够基本满足临床需求,极大地提高医生的录入效率,形成电子档案,说明图像采集角度是影响识别率的重要因素,为数据的进一步利用提供基础。 展开更多
关键词 光学字符识别 卒中 结构表格
下载PDF
表格文件图象逻辑结构提取方法 被引量:5
15
作者 刘冰 江早 +2 位作者 胡军安 何耀东 赵宏 《中国图象图形学报(A辑)》 CSCD 2000年第8期678-682,共5页
近几年来 ,国内外已提出了许多关于表格文件图象分析的方法 ,但其中关于表格逻辑结构提取的方法却很少 .为此 ,提出了一种关于表格文件逻辑结构提取的方法 .此方法主要分为整表的全局划分、局部的逻辑结构分析和整表的再次全局划分 3个... 近几年来 ,国内外已提出了许多关于表格文件图象分析的方法 ,但其中关于表格逻辑结构提取的方法却很少 .为此 ,提出了一种关于表格文件逻辑结构提取的方法 .此方法主要分为整表的全局划分、局部的逻辑结构分析和整表的再次全局划分 3个步骤 .该方法强调对文件全局和局部布局结构的综合分析 .与以往的仅仅从局部上对表格逻辑结构进行确定的方法相比 ,它具有较高的识别正确率 ,并可以识别结构更为复杂的表格文件 . 展开更多
关键词 表格文件图象 逻辑结构分析 表格布局结构分析
下载PDF
基于改进结构与位置对齐网络的表结构识别法
16
作者 陈雨 蒋三新 《国外电子测量技术》 北大核心 2023年第12期57-62,共6页
针对现有表格结构检测方法运算量大,表格结构识别准确率低的问题,提出了一种改进的表格结构识别方法。该方法优化了结构与位置对齐网络,提出在一个轻量级的CPU卷积神经网络PPLCNet较深层增加残差连接,加强网络的学习能力;在特征提取和... 针对现有表格结构检测方法运算量大,表格结构识别准确率低的问题,提出了一种改进的表格结构识别方法。该方法优化了结构与位置对齐网络,提出在一个轻量级的CPU卷积神经网络PPLCNet较深层增加残差连接,加强网络的学习能力;在特征提取和特征融合之间引入卷积块注意力模块(convolutional block attention module,CBAM)机制,同时从通道和空间维度加强模型对目标对象的定位能力;在Head部分采用卷积层替代全连接层,实现权重共享,用来降低模型的计算量;此外,还采用Smooth L1损失函数,通过回归表格四顶点坐标,避免图像畸变对于模型性能的影响;为了验证算法的性能,采用PubTabNet数据集进行测试,结果表明所提方法的准确率(Acc)达到71.58%,基于树编辑距离的相似度(tree-editdistance-based similarity,TEDS)达到94.47%;相比较于改进前模型精度提升了2.76%,TEDS提升了0.79%,模型综合性能更优。 展开更多
关键词 深度学习 表格结构识别 注意力机制 残差网络
下载PDF
基于深度学习的非结构化表格文档数据抽取方法 被引量:1
17
作者 奚建飞 王志英 +1 位作者 邹文景 甘莹 《微型电脑应用》 2022年第2期102-105,共4页
非结构化表格文档结构性较低,模式多样且数据冗杂,但此类文档里潜藏大量有价值数据,数据高精度抽取对分析数据价值存在增值作用,为此提出基于深度学习的非结构化表格文档数据抽取方法。在数据抽取前,采用基于循环和卷积神经网络的文本... 非结构化表格文档结构性较低,模式多样且数据冗杂,但此类文档里潜藏大量有价值数据,数据高精度抽取对分析数据价值存在增值作用,为此提出基于深度学习的非结构化表格文档数据抽取方法。在数据抽取前,采用基于循环和卷积神经网络的文本分类方法,对非结构化表格文档实施分类,获取所需表格文档,由此缩小后续数据抽取范围,提高抽取效率与精度;在分类后的表格文档中使用基于深度学习的数据自动抽取模型,通过双向循环神经网络编码获取中间语义向量,然后通过注意力模型和单项循环神经网络解密中间语义向量,获取非结构化表格文档数据。实验结果表明,采用所提方法抽取10种非结构化表格文档数据时,均获取显著的抽取效果。 展开更多
关键词 深度学习 结构表格 文档数据 抽取方法 卷积神经网络
下载PDF
Web表格信息抽取模型的设计与实现 被引量:1
18
作者 廖涛 刘宗田 孔庆苹 《计算机应用与软件》 CSCD 2009年第4期72-74,共3页
Web表格作为一种简洁有效的数据信息表达方式,已广泛应用于Web页面中。现提出一种基于表格结构的Web表格信息抽取模型,该模型主要有表格定位模块、表格结构预处理模块和表格信息抽取与重构模块三个模块组成,根据Web表格的结构标记和自... Web表格作为一种简洁有效的数据信息表达方式,已广泛应用于Web页面中。现提出一种基于表格结构的Web表格信息抽取模型,该模型主要有表格定位模块、表格结构预处理模块和表格信息抽取与重构模块三个模块组成,根据Web表格的结构标记和自定义的启发式规则来抽取表格信息。实验结果表明该模型能够很好地应用于Web表格信息的抽取。 展开更多
关键词 表格结构 抽取模型 启发式规则 预处理 解析
下载PDF
快速实用的通用表格分析方法
19
作者 何国辉 解正梅 《计算机工程与设计》 CSCD 北大核心 2008年第19期5114-5116,共3页
表格分析是对表格的基本结构及形状进行识别的过程,是以后能否从表格单元中正确提取文本信息的关键。在结合表格特点的基础上,采用了表格线检测与处理相结合的方法获取表格框线。检测表格线过程中,通过定义了主表格线长度来加快扫描的速... 表格分析是对表格的基本结构及形状进行识别的过程,是以后能否从表格单元中正确提取文本信息的关键。在结合表格特点的基础上,采用了表格线检测与处理相结合的方法获取表格框线。检测表格线过程中,通过定义了主表格线长度来加快扫描的速度;在表格线的处理中,针对杂线的剔除、表格线的调整及最终获得表格结构等方面进行了系统的探讨。大量的实验结果表明所提方法是可行的。 展开更多
关键词 表格分析 表格识别 直线提取 直线检测 表格结构
下载PDF
实现表格压缩打印的一种算法
20
作者 秦玉平 殷延知 张志强 《锦州师范学院学报(自然科学版)》 2003年第3期25-26,共2页
通过对DOS下各种表格结构的研究分析 ,利用UCDOS的英文制表符的自动识别技术 ,实现了对表格的压缩打印 ,阐明了压缩打印的原理 ,并给出了压缩打印的算法。
关键词 表格结构 压缩打印 UCDOS 英文制表符 打印原理 局部压缩法 整体压缩法
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部