期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于Hough变换的图像档案的表格提取与倾斜校正 被引量:5
1
作者 李云华 段会川 《信息技术与信息化》 2007年第6期49-51,共3页
本文提出了一种基于Hough变换的图像档案的表格提取与倾斜校正方法,在检测表格线的同时,完成对其端点坐标的同步记录,对于表格图像倾斜角度较小的情况,采用基于线性搬移技术的校正达到图像快速倾斜校正的目的。
关键词 图像档案 HOUGH变换 表格提取 倾斜校正
下载PDF
基于深度学习和数据挖掘的自动表格提取算法 被引量:2
2
作者 商迎美 《长春工程学院学报(自然科学版)》 2021年第4期100-106,共7页
提出了一种新的通用表格提取工具,该工具结合了数据挖掘技术和机器学习方法,能够有效且高效地从表格中识别和提取数据。首先使用卷积神经网络来识别和分离出所有潜在的表,通过与物体检测网络相结合,进一步优化了识别过程。然后,用计算... 提出了一种新的通用表格提取工具,该工具结合了数据挖掘技术和机器学习方法,能够有效且高效地从表格中识别和提取数据。首先使用卷积神经网络来识别和分离出所有潜在的表,通过与物体检测网络相结合,进一步优化了识别过程。然后,用计算机视觉方法识别每个表的高层结构,另一个卷积神经网络使用这种高层次的结构化元数据来识别准确的单元位置。最后,在每个单独的单元上执行光学字符识别,以提取它们的内容。这种多阶段算法允许神经网络专注于完成复杂的任务,同时让图像处理方法高效地完成更简单的任务。这使得所提出的方法足够通用,可以处理大量的表,而不管它们的内部编码或布局的复杂性。此外,它在ICDAR 2013表数据集上取得了0.9156的F1分数。 展开更多
关键词 表格提取 数据挖掘 机器学习 光学字符识别
下载PDF
勘察报告表格和文本信息提取算法研究
3
作者 李浩 《铁道技术标准(中英文)》 2024年第3期39-46,共8页
当前,勘察报告作为重要的工程设计依据,其中有大量表格和文本信息未被有效识别利用,为进一步打通专业软件研发的数据壁垒,有效识别和提取勘察报告信息迫在眉睫。针对该现状,本文设计Word表格及文本信息提取算法,并提出信息提取、显示和... 当前,勘察报告作为重要的工程设计依据,其中有大量表格和文本信息未被有效识别利用,为进一步打通专业软件研发的数据壁垒,有效识别和提取勘察报告信息迫在眉睫。针对该现状,本文设计Word表格及文本信息提取算法,并提出信息提取、显示和利用的一整套解决方案。基于文件读写库遍历Word表格,计算每个单元格的行列合并数,进而实现Word表格精准识别至Excel;基于文档自动化技术,记录Word表格范围,反向搜索获取表格标题。基于栈数据结构和匹配算法,遍历Word段落进行大纲匹配和范围计算,实现Word文本大纲信息识别;通过程序后台模拟复制粘贴操作将数据呈现在软件界面上。引入多线程机制,防止勘察报告信息提取操作阻塞主线程,引入并行分析机制,加速文本分析效率,进而提升软件的综合用户体验。以某一实际工程勘察报告为案例进行分析,验证该算法的适用性和准确性。 展开更多
关键词 算法 表格信息提取 文本信息提取 多线程
下载PDF
基于表格线搜索的智能表格结构提取算法 被引量:1
4
作者 汪先矩 黄瀚敏 马笑潇 《基础自动化》 CSCD 1999年第6期32-35,共4页
提出了一种新型的基于表格线搜索的表格结构提取算法。该算法充分分析了表格的结构特点,应用了大量的先验知识,制定了各种最佳阈值参数的选择规则,对不同的表格适应性很强。测试结果表明,该算法具有抗噪能力强,识别速度快,识别率高等特点。
关键词 表格线搜索 办公自动化 表格结构提取 算法
下载PDF
基于深度学习的CAD表格识别算法设计
5
作者 方靖宇 韩文涛 +3 位作者 应成才 何天祥 徐瑞吉 毛科技 《科技资讯》 2024年第16期16-20,共5页
随着工程和设计行业的快速发展,计算机辅助设计(Computer-Aided Design,CAD)软件在生产设计图纸方面发挥着不可或缺的作用。然而,传统的CAD在表格数据管理和提取方面存在局限性,尤其是在处理大规模的工程图纸中的表格数据时。为了解决... 随着工程和设计行业的快速发展,计算机辅助设计(Computer-Aided Design,CAD)软件在生产设计图纸方面发挥着不可或缺的作用。然而,传统的CAD在表格数据管理和提取方面存在局限性,尤其是在处理大规模的工程图纸中的表格数据时。为了解决这一问题,提出了一种新的自动化方法来提取CAD图纸中的大型表格数据。通过将原始CAD文件转换为图像格式,并应用先进的图像处理技术和深度学习模型(SAHI算法和Cycle-CenterNet模型),能够有效地提高表格数据的识别准确率和处理效率。实验结果显示,对比直接提取表格数据,使用该方法能显著提高数据提取的精确度、召回率和F1分数,验证了其在自动化提取大型CAD表格数据方面的有效性。未来的工作将集中在优化模型架构和提升其在不同类型图纸中的通用性和效果。 展开更多
关键词 计算机辅助设计 表格检测 表格结构识别 表格信息提取 表格分割 图像处理 深度学习
下载PDF
基于多特征融合的网页表格数据提取方法
6
作者 马佳芸 杨林峰 《工业控制计算机》 2022年第11期81-83,86,共4页
随着工业互联网的快速发展,工业管理网站获得大量应用,网页内容防篡改成为重要的安全问题。在面向工业管理网站的篡改检测问题中,网页表格数据检测是其中的重要环节,实现网页表格数据的自动化提取成为研究人员关注的重点问题。现有的网... 随着工业互联网的快速发展,工业管理网站获得大量应用,网页内容防篡改成为重要的安全问题。在面向工业管理网站的篡改检测问题中,网页表格数据检测是其中的重要环节,实现网页表格数据的自动化提取成为研究人员关注的重点问题。现有的网页表格数据提取方法通常集中于表格自身的结构特征,且多数方法只针对由标签构成的规范化表格,无法提取由其他标签构成的非规范化表格,因此提出了一种基于多特征融合的表格数据提取方法。该方法首先对网页进行预处理,然后根据DOM树节点的标签特征和属性特征进行过滤,再通过相似度聚类算法对路径相似的节点进行分组,最后结合节点簇的尺寸特征和空间特征确定表格区域。实验结果表明,该方法适用于规范化表格和非规范化表格的数据提取任务,具有较高的准确性和通用性。 展开更多
关键词 表格数据提取 多特征融合 DOM树 节点聚类
下载PDF
Excel工作簿提取数据教学案例
7
作者 罗之睿 宋文广 +2 位作者 邹佳伦 彭文浩 李婉 《科教导刊(电子版)》 2015年第11期63-63,共1页
提出一种基于C#的Excel精确提取数据方法,并将此方法应用在C#环境下实现Excel工作表的导入、预处理、表格定位等过程。经检验方法被证明可以有效解决复杂表格的提取问题,为复杂表格的提取提供了新的思路。通过此案例引导学生学习Excel。
关键词 EXCEL 表格提取 数据导入
下载PDF
基于图像的表格识别问题研究 被引量:2
8
作者 雷寰宇 《科技视界》 2021年第13期32-34,共3页
针对现在许多企事业单位至今仍然使用纸质表格记录数据,存在大量的纸质表格,却难以提取处理的问题,文章提出了一种基于图像的表格识别应用。该应用在图片灰度化的基础上,进行图像矫正处理,横竖线识别,单元格分割和文字数字识别等操作,... 针对现在许多企事业单位至今仍然使用纸质表格记录数据,存在大量的纸质表格,却难以提取处理的问题,文章提出了一种基于图像的表格识别应用。该应用在图片灰度化的基础上,进行图像矫正处理,横竖线识别,单元格分割和文字数字识别等操作,来进行图像的表格识别与提取。 展开更多
关键词 图像表格识别 图像表格提取 图像预处理
下载PDF
基于图像统计学聚类的非规则表格处理算法 被引量:1
9
作者 吕志刚 李亮亮 +2 位作者 王洪喜 王鹏 李晓艳 《计算机集成制造系统》 EI CSCD 北大核心 2022年第6期1755-1766,共12页
机械表格类档案广泛存在于生产、制造等领域,包括机械工艺卡、零部件测试报表等。纸质版机械表格类档案数字化,以及对表格中的表格、文字等有效元素进行提取,是有效管理机械类产品的关键内容。现有表格有效元素提取算法成果较为丰富,但... 机械表格类档案广泛存在于生产、制造等领域,包括机械工艺卡、零部件测试报表等。纸质版机械表格类档案数字化,以及对表格中的表格、文字等有效元素进行提取,是有效管理机械类产品的关键内容。现有表格有效元素提取算法成果较为丰富,但对存在纵向框线为虚线、纵向框线错位、连续跨页等现象的非规则表格处理效果不佳。针对纵向直线不连续、框线错位的表格,提出一种图像统计学聚类表格识别分割算法,提高了算法的自适应能力及鲁棒性;然后针对表格跨页问题提出一种基于局部小区域内像素占比的跨页拼接算法,最终实现了机械产品中非规则表格的数字化复现。对现有的147张存在非规则现象的机械零部件测试报表进行数字化(分辨率为75 dpi~400 dpi)后,利用所提算法进行迭代测试,非规则表格的定位分割拼接准确率可达97.32%。实验证明了该方法的有效性。 展开更多
关键词 投影统计 聚类 表格交点提取 跨页拼接 数字化复现
下载PDF
图像中表格转换成HTML表格的研究与实现 被引量:1
10
作者 蒋东玉 田英鑫 《黑龙江科技信息》 2014年第24期172-172,共1页
针对普通文档图像中表格结构的识别近年来已经成为了图像处理的研究热点。本文旨在探讨文档图像中的表格转换成Html表格的实现,通过对图像的预处理、旋转调整,表格线提取来实现表格扫描件到Html表格文件的自动转换,提出了三条表格边框... 针对普通文档图像中表格结构的识别近年来已经成为了图像处理的研究热点。本文旨在探讨文档图像中的表格转换成Html表格的实现,通过对图像的预处理、旋转调整,表格线提取来实现表格扫描件到Html表格文件的自动转换,提出了三条表格边框判断准则,经测试该程序可以准确识别用户提供的所有表格。其具有普遍适用意义,可以为表格定制提供帮助。 展开更多
关键词 表格识别 二值化 表格线提取
下载PDF
数据自动采集在煤层气生产中的应用——以沁水盆地柿庄南区块煤层气井为例 被引量:1
11
作者 陈慧 郭晖 《西北地质》 CAS CSCD 北大核心 2021年第2期203-211,共9页
为了提高煤层气生产数据采集效率,笔者建立了数据自动采集系统。该系统可以自动识别、采集并处理不同格式、不同结构和不同类别的生产数据,形成具有统一结构的数据格式。系统可分别针对Word文件和Excel文件查找表格标题和分析表格结构,... 为了提高煤层气生产数据采集效率,笔者建立了数据自动采集系统。该系统可以自动识别、采集并处理不同格式、不同结构和不同类别的生产数据,形成具有统一结构的数据格式。系统可分别针对Word文件和Excel文件查找表格标题和分析表格结构,并利用整表识别或者关键字识别对单个单元格、连续多个单元格、单元格内的键值对和按行/列增长的数据表进行表格识别,从而实现数据自动采集。柿庄南煤层气生产数据自动采集结果表明,该系统可以准确和高效地提取和采集生产数据,为提高煤层气田生效效率提供有效技术支撑。 展开更多
关键词 数据自动采集系统 查找表格标题 分析表格结构 提取表格数据 煤层气
下载PDF
信息检索中关于表格信息挖掘技术的研究 被引量:1
12
作者 刘葳 孙一鸣 《情报科学》 CSSCI 北大核心 2014年第11期92-95,共4页
本文在详细分析文章与网页中表格形式的基础上,针对表格形式多样性的实际情况,利用自然语言处理,数据挖掘技术,通过程序设计方式提出算法进行表格相关信息提取。并提出有效的方式将复杂表格存入数据库,能够方便用户高效的对表格内容进... 本文在详细分析文章与网页中表格形式的基础上,针对表格形式多样性的实际情况,利用自然语言处理,数据挖掘技术,通过程序设计方式提出算法进行表格相关信息提取。并提出有效的方式将复杂表格存入数据库,能够方便用户高效的对表格内容进行查询与重组,增强了针对表格进行数据挖掘的能力。 展开更多
关键词 信息检索 数据挖掘 表格提取
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部