-
题名电网OA系统非结构化文档内容自动化识别技术
- 1
-
-
作者
冯光璐
欧阳静
李然
倪凡
曾路
-
机构
贵州电网有限责任公司信息中心
-
出处
《信息技术》
2024年第1期104-109,114,共7页
-
基金
南方电网公司一般科技项目(066700KK52180027)。
-
文摘
针对电网OA系统内存在大量的非结构化文档难以识别的问题,研究电网OA系统非结构化文档内容自动化识别技术。采用非直接转换方法,将非结构化数据先转换为采用XML文件承载的不完全结构化数据,利用SAX解析工具解析不完全结构化数据,采用Simhash算法对文本信息进行去重处理;采用TextRank算法提取文本内的关键词,根据关键词识别电网OA系统非结构化文档内容。测试结果显示,在海明距离与相似度阈值分别为10和70的条件下可获取较好的去重效果,关键词提取效果较好,具有推广价值。
-
关键词
非结构化文档
非直接转换
自动化识别
关键词提取
去重算法
-
Keywords
extraction
de-duplication algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-