-
题名非结构化表格文档数据抽取与组织模型研究
被引量:12
- 1
-
-
作者
张元鸣
陈苗
陆佳炜
徐俊
肖刚
-
机构
浙江工业大学计算机科学与技术学院
浙江工业大学机械工程博士后流动站
-
出处
《浙江工业大学学报》
CAS
北大核心
2016年第5期487-494,共8页
-
基金
浙江省钱江人才计划D类项目(QJD1302009)
浙江省重大科技专项资助项目(2014C01408)
-
文摘
针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析.
-
关键词
非结构化表格文档
数据抽取
结构化数据模型
数据分析
-
Keywords
unstructured form document
data extraction
structured data model
data analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度学习的非结构化表格文档数据抽取方法
被引量:2
- 2
-
-
作者
奚建飞
王志英
邹文景
甘莹
-
机构
南方电网数字电网研究院有限公司
中国南方电网有限责任公司
-
出处
《微型电脑应用》
2022年第2期102-105,共4页
-
文摘
非结构化表格文档结构性较低,模式多样且数据冗杂,但此类文档里潜藏大量有价值数据,数据高精度抽取对分析数据价值存在增值作用,为此提出基于深度学习的非结构化表格文档数据抽取方法。在数据抽取前,采用基于循环和卷积神经网络的文本分类方法,对非结构化表格文档实施分类,获取所需表格文档,由此缩小后续数据抽取范围,提高抽取效率与精度;在分类后的表格文档中使用基于深度学习的数据自动抽取模型,通过双向循环神经网络编码获取中间语义向量,然后通过注意力模型和单项循环神经网络解密中间语义向量,获取非结构化表格文档数据。实验结果表明,采用所提方法抽取10种非结构化表格文档数据时,均获取显著的抽取效果。
-
关键词
深度学习
非结构化表格
文档数据
抽取方法
卷积神经网络
-
Keywords
deep learning
unstructured table
document data
extraction method
convolutional neural network
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-