期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
电网OA系统非结构化文档内容自动化识别技术
1
作者 冯光璐 欧阳静 +2 位作者 李然 倪凡 曾路 《信息技术》 2024年第1期104-109,114,共7页
针对电网OA系统内存在大量的非结构化文档难以识别的问题,研究电网OA系统非结构化文档内容自动化识别技术。采用非直接转换方法,将非结构化数据先转换为采用XML文件承载的不完全结构化数据,利用SAX解析工具解析不完全结构化数据,采用Sim... 针对电网OA系统内存在大量的非结构化文档难以识别的问题,研究电网OA系统非结构化文档内容自动化识别技术。采用非直接转换方法,将非结构化数据先转换为采用XML文件承载的不完全结构化数据,利用SAX解析工具解析不完全结构化数据,采用Simhash算法对文本信息进行去重处理;采用TextRank算法提取文本内的关键词,根据关键词识别电网OA系统非结构化文档内容。测试结果显示,在海明距离与相似度阈值分别为10和70的条件下可获取较好的去重效果,关键词提取效果较好,具有推广价值。 展开更多
关键词 结构化文档 非直接转换 自动化识别 关键词提取 去重算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部