基于深度学习的非结构化表格文档数据抽取方法被引量：2

Data Extraction Method of Unstructured form Documents Based on Deep Learning

下载PDF

导出

摘要非结构化表格文档结构性较低,模式多样且数据冗杂,但此类文档里潜藏大量有价值数据,数据高精度抽取对分析数据价值存在增值作用,为此提出基于深度学习的非结构化表格文档数据抽取方法。在数据抽取前,采用基于循环和卷积神经网络的文本分类方法,对非结构化表格文档实施分类,获取所需表格文档,由此缩小后续数据抽取范围,提高抽取效率与精度;在分类后的表格文档中使用基于深度学习的数据自动抽取模型,通过双向循环神经网络编码获取中间语义向量,然后通过注意力模型和单项循环神经网络解密中间语义向量,获取非结构化表格文档数据。实验结果表明,采用所提方法抽取10种非结构化表格文档数据时,均获取显著的抽取效果。 Documents with unstructured form have low structure,diverse patterns and redundant data.There are a lot of valuable data in this kind of documents,and high-precision data extraction has a catalytic effect on the analysis of data.Before data extraction,the text classification method based on cyclic and convolutional neural network is used to classify unstructured form documents and obtain the required form documents,so as to reduce the scope of subsequent data extraction and improve the efficiency and accuracy of extraction.After classification,the automatic data extraction model based on deep learning is used in the documents,and the two-way cyclic neural network coding is used to obtain the data.The intermediate semantic vector is then decrypted by attention model and single loop neural network to obtain unstructured form document data.The experimental results show that when the proposed method is used to extract 10 kinds of unstructured form document data,significant extraction results are obtained.

作者奚建飞王志英邹文景甘莹 XI Jianfei;WANG Zhiying;ZOU Wenjing;GAN Ying(Digital Grid Research Institute, CSG, Guangzhou 511455, China;China Southern Power Grid Co. Ltd., Guangzhou 510663, China)

机构地区南方电网数字电网研究院有限公司中国南方电网有限责任公司

出处《微型电脑应用》 2022年第2期102-105,共4页 Microcomputer Applications

关键词深度学习非结构化表格文档数据抽取方法卷积神经网络 deep learning unstructured table document data extraction method convolutional neural network

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1王东波,胡昊天,周鑫,朱丹浩.基于深度学习的数据科学招聘实体自动抽取及分析研究[J].图书情报工作,2018,62(13):64-73. 被引量：15
2黄刚,刘先林.基于深度学习的道路标线自动提取与分类方法[J].中国激光,2019,46(8):138-145. 被引量：28
3丁泽亮,胡宇辉,龚建伟,熊光明,吕超.基于深度学习的自适应场景路面提取方法[J].北京理工大学学报,2019,39(11):1133-1137. 被引量：8
4牛力,蒋菲,曾静怡.面向数字记忆的数字文档资源描述框架构建研究[J].档案学研究,2019(4):40-49. 被引量：14
5杨兵,聂铁铮,申德荣,寇月,于戈.一种面向医学文本数据的结构化信息抽取方法[J].小型微型计算机系统,2019,40(7):1479-1485. 被引量：16
6马超义,徐蔚然.基于弱监督和半自动方法的中文关系抽取数据集构建[J].中文信息学报,2017,31(5):114-119. 被引量：3
7戴大洋,邓光明.基于主成分特征提取的面板数据聚类方法[J].统计与决策,2018,0(21):72-76. 被引量：10
8蒋腾,胡涛,祝民鹏,陈丹.基于连续小波变换的多数据心率提取方法[J].现代雷达,2019,41(5):22-26. 被引量：6
9袁明汶,钱江波,董一鸿,陈华辉.基于深度学习的散列检索技术研究进展[J].电信科学,2018,34(10):104-115. 被引量：1
10丁建立,邹云开,王静,王怀超.基于深度学习的ADS-B异常数据检测模型[J].航空学报,2019,40(12):162-172. 被引量：31

二级参考文献73

1甄蜀春,张善文,赵兴录.低信噪比下的一种信号检测方法[J].现代雷达,2001,23(5):32-33. 被引量：2
2史林,姜敏,黄莉.基于谐波模型的生命探测雷达人体状态识别方法[J].西安电子科技大学学报,2005,32(2):179-183. 被引量：13
3朱建平,陈民恳.面板数据的聚类分析及其应用[J].统计研究,2007,24(4):11-14. 被引量：100
4刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411. 被引量：59
5唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
6张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：83
7郑逢强,林磊,刘秉权,孙承杰.《知网》在命名实体识别中的应用研究[J].中文信息学报,2008,22(5):97-101. 被引量：11
8崔光灿.房地产价格与宏观经济互动关系实证研究——基于我国31个省份面板数据分析[J].经济理论与经济管理,2009,29(1):57-62. 被引量：125
9牟晋娟,包宏.中文实体关系抽取研究[J].计算机工程与设计,2009,30(15):3587-3590. 被引量：7
10裘江南,师花艳,叶鑫,王延章.基于事件的定性知识表示模型[J].系统工程,2009,27(10):1-8. 被引量：24

共引文献146

1夏奴奴.建筑工程设计中计算机技术应用研究[J].城市建筑空间,2021(S01):3-4. 被引量：1
2黄汉威.琴韵音响数码影音中心——AVR9928[J].实用影音技术,2000(3):18-19.
3俞琰,陈磊,赵乃瑄.基于网络招聘文本挖掘的课程知识模型自动构建研究[J].图书情报工作,2019,63(10):134-142. 被引量：9
4关鹏举,曹春萍.基于BLSTM的临床文本实体关系抽取[J].软件,2019,40(5):159-162. 被引量：2
5米丹丹,李伯德.普通线性回归模型对在线网络课堂收入的预测[J].牡丹江师范学院学报（自然科学版）,2019,0(3):18-21.
6孙安,于英香,罗永刚,孙逊.序列标注模型中不同输入特征组合的集成学习与直推学习方法研究——以CCKS-2018电子病历命名实体识别任务为例[J].情报杂志,2019,38(10):176-183. 被引量：2
7周岩,郭卫东,张乾慧,邹尧.郑洛新国家自主创新示范区创新能力的竞优评析[J].河南科技大学学报（社会科学版）,2019,37(5):79-85. 被引量：4
8田启川,王满丽.深度学习算法研究进展[J].计算机工程与应用,2019,55(22):25-33. 被引量：58
9肖连杰,孟涛,王伟,吴志祥.基于深度学习的情报分析方法识别研究——以安全情报领域为例[J].数据分析与知识发现,2019,3(10):20-28. 被引量：15
10刘海涛,李少洋,秦定本,李冬霞.共信道干扰环境下星基ADS-B系统监视性能[J].航空学报,2019,40(12):215-228. 被引量：4

同被引文献23

1刘欢,彭书强.基于Excel VBA的批量数据提取工具开发[J].电脑知识与技术,2019,15(2Z):196-198. 被引量：6
2单嵩岩,吴振新.面向作者消歧和合作预测领域的作者相似度算法述评[J].东北师大学报（自然科学版）,2019,51(2):71-80. 被引量：6
3毛尚伟,张志清,汤槟,郑成坤,翟波,符云清.基于Transfer-crf神经网络的电子表格智能识别算法[J].重庆理工大学学报（自然科学）,2019,33(10):155-160. 被引量：6
4赵翀,王丽达.基于数据挖掘技术的智能图书馆云检索系统设计[J].现代电子技术,2020,43(2):60-63. 被引量：10
5陆旭,陈毅红,熊章瑞,廖彬宇.一种面向大数据分析的快速并行决策树算法[J].云南大学学报（自然科学版）,2020,42(2):244-251. 被引量：20
6施阳,李勇,曹一家,王炜宇,左剑.基于形态相似距离的暂态电压稳定评估方法[J].电力系统及其自动化学报,2020,32(5):105-112. 被引量：5
7赵英豪,吕亮,徐青,施群山,卢万杰.一种面向海量时空数据的多维检索策略[J].测绘科学,2020,45(6):199-204. 被引量：8
8刘振宇,宋晓莹.一种可用于分类型属性数据的多变量决策树算法[J].东北大学学报（自然科学版）,2020,41(11):1521-1527. 被引量：17
9米晓希,汤爱涛,朱雨晨,康靓,潘复生.机器学习技术在材料科学领域中的应用进展[J].材料导报,2021,35(15):15115-15124. 被引量：25
10姬正一,陈阳,沈培志,韩先平,齐鸿坤.决策树集成方法在反舰导弹效能评估中的应用[J].现代防御技术,2021,49(4):15-23. 被引量：7

引证文献2

1徐传运,马莹丽,李刚,舒涛,李星光.混合相似性度量的仪表询价电子表格结构识别[J].重庆理工大学学报（自然科学）,2024,38(1):150-159.
2钟保强,谭毅恺,何倩,董天波,魏莱.基于数据挖掘和机器学习的智能数据快速检索算法分析[J].自动化与仪器仪表,2024(5):59-63. 被引量：3

二级引证文献3

1杨文波,苏莹,段金奎,尤靖茜.基于梦想云的长庆数智设计与实现[J].信息系统工程,2024(10):12-15.
2王祥波,王军锋,宋一琦.基于小样本训练的智能算法在油田监控中的应用研究[J].信息系统工程,2024(11):56-59.
3单增朗杰.大数据驱动下基于深度学习的药品信息分布式检索[J].长江信息通信,2024,37(10):144-146.

1黄嘉铭,许玲玲.浅析内部审计对组织统筹发展和安全发挥的增值作用--以Z农商银行为例[J].产业创新研究,2021(21):71-73. 被引量：2
2顾博妮.内部审计为国企统筹发展和安全发挥增值作用[J].经济技术协作信息,2022(6):0047-0049.
3马一鸣,熊国保.企业环境责任对企业价值的影响研究[J].重庆文理学院学报（社会科学版）,2022,41(1):70-80. 被引量：8
4江千军,桂前进,王磊,徐瑞翔,王京景,麦立,许水清.命名实体识别技术研究进展综述[J].电力信息与通信技术,2022,20(2):15-24. 被引量：13
5陈燕,龚庆悦,戴彩艳.基于句法抽取与图结构编码的患者问询意图识别[J].计算机与数字工程,2021,49(11):2276-2281. 被引量：1
6李沛哲,张征,王燕舞,陈虹,秦肖臻.基于线上教学群聊文本的问句抽取模型[J].中国教育信息化,2022,28(1):70-77.
7范守祥,姚俊萍,李晓军,程开原.一种多模特征融合的方面信息情感分类方法[J].应用科学学报,2021,39(6):969-982. 被引量：2
8李旭晖,程威,唐小雅,于滔,陈壮,钱铁云.基于多层卷积神经网络的金融事件联合抽取方法[J].图书情报工作,2021,65(24):89-99. 被引量：15
9刘英莉,吴瑞刚,么长慧,沈韬.铝硅合金实体关系抽取数据集的构建方法[J].浙江大学学报（工学版）,2022,56(2):245-253. 被引量：3
10李坤,周世斌,朱佳明,张国鹏.多时间维度信息融合的图像描述方法[J].小型微型计算机系统,2022,43(1):103-110. 被引量：1

微型电脑应用

2022年第2期

浏览历史

内容加载中请稍等...

基于深度学习的非结构化表格文档数据抽取方法被引量：2

参考文献13

二级参考文献73

共引文献146

同被引文献23

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于深度学习的非结构化表格文档数据抽取方法 被引量：2

参考文献13

二级参考文献73

共引文献146

同被引文献23

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于深度学习的非结构化表格文档数据抽取方法被引量：2