电网OA系统非结构化文档内容自动化识别技术

Automatic identification technology of unstructured document content in power grid OA system

下载PDF

导出

摘要针对电网OA系统内存在大量的非结构化文档难以识别的问题,研究电网OA系统非结构化文档内容自动化识别技术。采用非直接转换方法,将非结构化数据先转换为采用XML文件承载的不完全结构化数据,利用SAX解析工具解析不完全结构化数据,采用Simhash算法对文本信息进行去重处理;采用TextRank算法提取文本内的关键词,根据关键词识别电网OA系统非结构化文档内容。测试结果显示,在海明距离与相似度阈值分别为10和70的条件下可获取较好的去重效果,关键词提取效果较好,具有推广价值。 To solve the problem that there are a large number of unstructured documents in power grid OA system,which are difficult to identify,the automatic identification technology of unstructured document content in power grid OA system is studied.The indirect conversion method is used to convert the unstructured data into the incomplete structured data carried by XML file,and the incomplete structured data is parsed by SAX parsing tool.In addition,the text information is de-duped by Simhash algorithm.The TextRank algorithm is used to extract the keywords in the text,and identify the unstructured document content of power grid OA system according to the keywords.The test results show that under the condition that the Hamming distance and similarity threshold are 10 and 70 respectively,good de-duplication effect can be obtained,and the keyword extraction effect is good,which has popularization value.

作者冯光璐欧阳静李然倪凡曾路 FENG Guang-lu;OUYANG Jing;LI Ran;NI Fan;ZENG Lu(Information Center of Guizhou Power Grid Co.,Ltd.,Guiyang 550000,China)

机构地区贵州电网有限责任公司信息中心

出处《信息技术》 2024年第1期104-109,114,共7页 Information Technology

基金南方电网公司一般科技项目(066700KK52180027)。

关键词非结构化文档非直接转换自动化识别关键词提取去重算法 extraction de-duplication algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1付婷,蔡宇翔,李宏发,周晟,张垚.智能电网中非结构化数据可视化技术研究[J].电网与清洁能源,2019,0(1):44-48. 被引量：9
2佟佳弘,武志刚,管霖,刘奇,杜亮,徐良德.电力调度文本的自然语言理解与解析技术及应用[J].电网技术,2020,44(11):4148-4155. 被引量：30
3李智星,任诗雅,王化明,沈柯.基于非结构化文本增强关联规则的知识推理方法[J].计算机科学,2019,46(11):209-215. 被引量：9
4谷学汇.基于信息融合算法的暴力视频内容识别[J].济南大学学报（自然科学版）,2019,33(3):224-228. 被引量：4
5丁禹,尚学伟,米为民.基于深度学习的电网调控文本知识抽取方法[J].电力系统自动化,2020,44(24):161-168. 被引量：15
6李亚红,龚喜平,冯庆华.异构集群中非结构化大数据检测方法[J].重庆理工大学学报（自然科学）,2020,34(7):170-175. 被引量：1
7普措才仁,秦亚红.基于深度学习模型的非结构化数据标注方法研究[J].西北民族大学学报（自然科学版）,2020,41(2):14-19. 被引量：3
8郑梦悦,秦春秀,马续补.面向中文科技文献非结构化摘要的知识元表示与抽取研究——基于知识元本体理论[J].情报理论与实践,2020,43(2):157-163. 被引量：15
9李国辉.火灾报告非结构化数据转换为结构化数据的信息提取技术[J].消防科学与技术,2020,39(7):926-926. 被引量：3
10杨兵,聂铁铮,申德荣,寇月,于戈.一种面向医学文本数据的结构化信息抽取方法[J].小型微型计算机系统,2019,40(7):1479-1485. 被引量：16

二级参考文献87

1韦吉锋.学术论文摘要编写存在的主要问题与对策[J].广西大学学报（哲学社会科学版）,2008,30(6):136-139. 被引量：15
2张妍,许云峰,张立全.基于云计算的中文分词研究[J].河北科技大学学报,2012,33(3):266-269. 被引量：5
3王晓华,闫其涛,程智强,张睿.科技论文中文摘要写作要点分析[J].编辑学报,2010,22(S1):53-55. 被引量：9
4高新波,田春娜,张娜.一种基于SVM主动学习的卡通视频检测方法[J].电子与信息学报,2007,29(6):1338-1342. 被引量：2
5郝晓燕,刘伟,李茹,刘开瑛.汉语框架语义知识库及软件描述体系[J].中文信息学报,2007,21(5):96-100. 被引量：50
6赵巾帼,罗庆云.基于B/S模式的Web数据可视化研究[J].重庆科技学院学报（自然科学版）,2009,11(5):130-132. 被引量：4
7温有奎,焦玉英.Wiki知识元语义图研究[J].情报学报,2009,28(6):870-877. 被引量：21
8庞雄文,姚占林,李拥军.大数据量的高效重复记录检测方法[J].华中科技大学学报（自然科学版）,2010,38(2):8-11. 被引量：15
9宋建武,朱静,黄开颜,陈望忠,王征爱.高影响因子国际医学期刊摘要类型的分析与思考[J].中国科技期刊研究,2010,21(2):181-184. 被引量：9
10周炳喜,周坚华,王珂.基于ArcGIS Flex API的电网企业信息可视化系统研究[J].测绘与空间地理信息,2010,33(2):123-126. 被引量：12

共引文献134

1彭德军,曹树斌,马平,赵俊达.煤矿安全隐患信息关键语义智能提取方法研究[J].煤炭工程,2022,54(S01):224-229. 被引量：2
2黄汉威.琴韵音响数码影音中心——AVR9928[J].实用影音技术,2000(3):18-19.
3陈宇轩,沈鹏.自然语言处理在中华优秀传统文化挖掘中的应用[J].数码设计,2019,8(10):41-44.
4葛思坤.短视频生产与传播的负面风险管理策略分析[J].视听,2020(2):160-162. 被引量：1
5Shengli Zhou,Xin Wang,Zerui Yang.Monitoring and Early Warning of New Cyber-Telecom Crime Platform Based on BERT Migration Learning[J].China Communications,2020,17(3):140-148. 被引量：5
6刘欢,冉昊.基于数据挖掘技术的医疗数据信息提取仿真[J].计算机仿真,2020,37(5):375-378. 被引量：8
7熊回香,景紫薇,杨梦婷.在线学术资源中知识图谱的应用研究综述[J].情报资料工作,2020,41(3):61-68. 被引量：7
8陈辞.基于语义分析的软件需求提取技术研究[J].舰船电子工程,2020,40(6):118-123.
9李洪江,杨永昆,冉启鹏.基于数字化虚拟推演的电网建设过程三维可视化研究[J].机械与电子,2020,38(8):33-37. 被引量：4
10陈亚茹,陈世平.融合自注意力机制和BiGRU网络的微博情感分析模型[J].小型微型计算机系统,2020,41(8):1590-1595. 被引量：11

1叶小媚.探析OA系统下高校财务报销流程的设计与实现[J].社会科学前沿,2024,13(1):429-435.
2申峻宇,李东闻,钟震宇,张玉志.一种基于局部敏感哈希的文本数据去重算法及其实现[J].南开大学学报（自然科学版）,2023,56(6):29-35.
3李莉,杨春艳,朱江文,胡荣磊.区块链下社交网络用户抄袭识别方案[J].计算机应用,2024,44(1):242-251.
4许忠云.网上办公很方便保密红线不能碰[J].保密工作,2023(12):35-36.
5杨丹丹,刘永红,李婕.高校电子文件在线归档接口建设方案的研究[J].办公自动化,2024,29(1):52-54.
6谭伟杰,胡润哲.“智”巢何以引凤:智慧城市建设对地区创业活跃度的影响[J].经济与管理研究,2024,45(1):75-93. 被引量：1
7朱建平,黄恒,周积,陈海茂,黄利君.一种融合文件及内容分块的重复数据删除算法[J].软件,2023,44(12):53-59.
8李阳,程昔恩.文本指纹在旋律相似性检测中的应用研究[J].福建电脑,2024,40(2):63-66.

信息技术

2024年第1期

浏览历史

内容加载中请稍等...

电网OA系统非结构化文档内容自动化识别技术

参考文献15

二级参考文献87

共引文献134

相关作者

相关机构

相关主题

浏览历史