期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于多特征融合的网页表格数据提取方法
1
作者 马佳芸 杨林峰 《工业控制计算机》 2022年第11期81-83,86,共4页
随着工业互联网的快速发展,工业管理网站获得大量应用,网页内容防篡改成为重要的安全问题。在面向工业管理网站的篡改检测问题中,网页表格数据检测是其中的重要环节,实现网页表格数据的自动化提取成为研究人员关注的重点问题。现有的网... 随着工业互联网的快速发展,工业管理网站获得大量应用,网页内容防篡改成为重要的安全问题。在面向工业管理网站的篡改检测问题中,网页表格数据检测是其中的重要环节,实现网页表格数据的自动化提取成为研究人员关注的重点问题。现有的网页表格数据提取方法通常集中于表格自身的结构特征,且多数方法只针对由标签构成的规范化表格,无法提取由其他标签构成的非规范化表格,因此提出了一种基于多特征融合的表格数据提取方法。该方法首先对网页进行预处理,然后根据DOM树节点的标签特征和属性特征进行过滤,再通过相似度聚类算法对路径相似的节点进行分组,最后结合节点簇的尺寸特征和空间特征确定表格区域。实验结果表明,该方法适用于规范化表格和非规范化表格的数据提取任务,具有较高的准确性和通用性。 展开更多
关键词 表格数据提取 多特征融合 DOM树 节点聚类
下载PDF
数据自动采集在煤层气生产中的应用——以沁水盆地柿庄南区块煤层气井为例 被引量:1
2
作者 陈慧 郭晖 《西北地质》 CAS CSCD 北大核心 2021年第2期203-211,共9页
为了提高煤层气生产数据采集效率,笔者建立了数据自动采集系统。该系统可以自动识别、采集并处理不同格式、不同结构和不同类别的生产数据,形成具有统一结构的数据格式。系统可分别针对Word文件和Excel文件查找表格标题和分析表格结构,... 为了提高煤层气生产数据采集效率,笔者建立了数据自动采集系统。该系统可以自动识别、采集并处理不同格式、不同结构和不同类别的生产数据,形成具有统一结构的数据格式。系统可分别针对Word文件和Excel文件查找表格标题和分析表格结构,并利用整表识别或者关键字识别对单个单元格、连续多个单元格、单元格内的键值对和按行/列增长的数据表进行表格识别,从而实现数据自动采集。柿庄南煤层气生产数据自动采集结果表明,该系统可以准确和高效地提取和采集生产数据,为提高煤层气田生效效率提供有效技术支撑。 展开更多
关键词 数据自动采集系统 查找表格标题 分析表格结构 提取表格数据 煤层气
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部