-
题名勘察报告表格和文本信息提取算法研究
- 1
-
-
作者
李浩
-
机构
中铁第四勘察设计院集团有限公司数智化勘察设计系统铁路行业工程研究中心
中铁第四勘察设计院集团有限公司数智化事业部
-
出处
《铁道技术标准(中英文)》
2024年第3期39-46,共8页
-
基金
国家重点研发计划(2021YFB2600400)
中国铁建股份有限公司科技研发计划(2022-A02)
中铁第四勘察设计院集团有限公司科技研发项目(2022D001)。
-
文摘
当前,勘察报告作为重要的工程设计依据,其中有大量表格和文本信息未被有效识别利用,为进一步打通专业软件研发的数据壁垒,有效识别和提取勘察报告信息迫在眉睫。针对该现状,本文设计Word表格及文本信息提取算法,并提出信息提取、显示和利用的一整套解决方案。基于文件读写库遍历Word表格,计算每个单元格的行列合并数,进而实现Word表格精准识别至Excel;基于文档自动化技术,记录Word表格范围,反向搜索获取表格标题。基于栈数据结构和匹配算法,遍历Word段落进行大纲匹配和范围计算,实现Word文本大纲信息识别;通过程序后台模拟复制粘贴操作将数据呈现在软件界面上。引入多线程机制,防止勘察报告信息提取操作阻塞主线程,引入并行分析机制,加速文本分析效率,进而提升软件的综合用户体验。以某一实际工程勘察报告为案例进行分析,验证该算法的适用性和准确性。
-
关键词
算法
表格信息提取
文本信息提取
多线程
-
Keywords
algorithm
table information extraction
text information extraction
multi-thread
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-