面向配网一次设备缺陷文本命名实体识别研究被引量：2

Research on Named Entity Recognition Technology for Defect Text of Primary Equipment in Distribution Network

导出

摘要配网系统存储着大量闲置的设备缺陷文本,可采用命名实体识别技术对其进行挖掘和利用。针对目前电力设备缺陷文本数据人工标注效率低,且专业领域实体识别困难的问题,提出一种新的标注策略和基于Bert-CRF(Bidirectional encoder representation from transformers-Conditional Random Fields)的命名实体识别模型。利用基于半监督学习的BIO(Begin、Internal、Other)标注,减少人工标注占比,提升标注速率,接着利用Bert预训练模型得到包含丰富语义信息的动态词向量,最后利用CRF层对标签进行约束。所提模型在自制配网一次设备缺陷文本数据集上进行了对比试验,该数据集包含9186条文本数据,12个大类25个小类。实验结果表明,文中模型取得了很好的效果,精确率、召回率和F1值分别达到97.85%、97.36%、97.34%,验证了该模型优于其他5种模型。 The distribution network system stores a large number of idle equipment defect analysis reports,which can be mined and utilized by named entity recognition technology.In view of the low efficiency of manual annotation of text data of electrical equipment defects and the difficulty of entity recognition in professional fields,this paper proposes a new annotation strategy and a named entity recognition model based on Bert-CRF(Bidirectional encoder representation from transformers-Conditional Random Fields).Use BIO(Begin,Internal,Other)annotation based on semi-supervised learning to reduce the proportion of manual annotation and improve the annotation rate,then use the Bert pre-training model to obtain dynamic word vectors containing rich semantic information,and finally use the CRF layer to constrain the labels.The proposed model is tested on the self-made distribution network primary equipment defect text dataset,which contains 9186 text data,12categories and 25subcategories.The experimental results show that the model in this paper has achieved good results,with the precision rate,recall rate and F1 value reaching 97.85%,97.36%,and 97.34%,respectively,verifying that the model is better than the other five models.

作者刘雨可周申培石英杜家宝 LIU Yu-ke;ZHOU Shen-pei;SHI Ying;DU Jia-bao(School of Automation,Wuhan University of Technology,Wuhan 430070,China)

机构地区武汉理工大学自动化学院

出处《武汉理工大学学报》 CAS 2022年第10期93-101,共9页 Journal of Wuhan University of Technology

基金国家自然科学基金(52105528)

关键词命名实体识别缺陷文本半监督学习 Bert-CRF named entity recognition defect text semi-supervised learning Bert-CRF

分类号 TM507 [电气工程—电器] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1陆世豪,祝云,周振茂.基于多头注意力循环卷积神经网络的电力设备缺陷文本分类方法[J].广东电力,2021,34(6):30-38. 被引量：12
2潘正高.基于规则和统计相结合的中文命名实体识别研究[J].情报科学,2012,30(5):708-712. 被引量：29
3焦凯楠,李欣,朱容辰.中文领域命名实体识别综述[J].计算机工程与应用,2021,57(16):1-15. 被引量：41
4QIN Ying,ZENG Yingfei.Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J].Journal of Shanghai Jiaotong university(Science),2018,23(3):392-397. 被引量：15
5祝春捷,潘坚跃,王译田,陈超.基于结构化表达的电力运维文本分析[J].电子设计工程,2019,27(17):53-58. 被引量：6
6周明月,龚晨,李正华,张民.数据标注方法比较研究:以依存句法树标注为例[J].清华大学学报（自然科学版）,2022,62(5):908-916. 被引量：4
7侯禹臣,吴伟.静态图像行为标注众包系统的设计与实现[J].计算机科学,2019,46(S11):580-583. 被引量：3
8刘梓权,王慧芳,曹靖,邱剑.基于卷积神经网络的电力设备缺陷文本分类模型研究[J].电网技术,2018,42(2):644-650. 被引量：105
9张俊飞,毕志升,王静,吴小玲.基于BLSTM-CRF中文领域命名实体识别框架设计[J].计算技术与自动化,2019,38(3):117-121. 被引量：13
10陈剑,何涛,闻英友,马林涛.基于BERT模型的司法文书实体识别方法[J].东北大学学报（自然科学版）,2020,41(10):1382-1387. 被引量：24

二级参考文献85

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
4俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160
5周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
6张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139. 被引量：20
7ZHANG Yimin,ZHOU J F.A traninable method for extracting Chinese entity names an their relations[].proc of the nd Chinese Language Processing Workshop.2000
8冯元勇,孙乐,李文波,张大鲲.基于单字提示特征的中文命名实体识别快速算法[J].中文信息学报,2008,22(1):104-110. 被引量：24
9张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：84
10郑逢强,林磊,刘秉权,孙承杰.《知网》在命名实体识别中的应用研究[J].中文信息学报,2008,22(5):97-101. 被引量：11

共引文献236

1冯斌,张又文,唐昕,郭创新,王坚俊,杨强,王慧芳.基于BiLSTM-Attention神经网络的电力设备缺陷文本挖掘[J].中国电机工程学报,2020,40(S01):1-10. 被引量：55
2李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
3吴漾,王鹏宇,缪新萍,柳林溪,田钺.基于改进深度强化学习算法的电网缺陷文本挖掘模型研究[J].科技通报,2021,37(2):47-55. 被引量：5
4熊奥,高畅,赵明辉,张玲玲.基于知识图谱的核电设备健康管理知识建模与分析[J].科技促进发展,2021,17(4):640-649. 被引量：10
5石磊,李敬明,朱家明.基于BERT-BiLSTM-CRF的突发公共卫生事件抽取研究[J].哈尔滨师范大学自然科学学报,2022,38(2):37-42. 被引量：1
6陶洪铸,翟明玉,许洪强,季学纯,刘金波,徐丽燕.适应调控领域应用场景的人工智能平台体系架构及关键技术[J].电网技术,2020,44(2):412-419. 被引量：36
7姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
8蒲天骄,乔骥,韩笑,张国宾,王新迎.人工智能技术在电力设备运维检修中的研究及应用[J].高电压技术,2020,46(2):369-383. 被引量：218
9吕春.统计规律性的计算机模拟演示[J].工科物理,2000,10(4):46-51.
10李湘东,巴志超,黄莉.基于加权隐含狄利克雷分配模型的新闻话题挖掘方法[J].计算机应用,2014,34(5):1354-1359. 被引量：14

同被引文献37

1李捷佳,贾君枝.基于关联数据的作者数据聚合研究[J].情报科学,2019,37(1):16-21. 被引量：6
2杜修明,秦佳峰,郭诗瑶,闫丹凤.电力设备典型故障案例的文本挖掘[J].高电压技术,2018,44(4):1078-1084. 被引量：70
3刘梓权,王慧芳.基于知识图谱技术的电力设备缺陷记录检索方法[J].电力系统自动化,2018,42(14):158-164. 被引量：97
4郑文玮.基于配网设备安全监控的视觉辨识技术[J].电子技术与软件工程,2018(21):128-129. 被引量：1
5叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：110
6王慧芳,曹靖,罗麟.电力文本数据挖掘现状及挑战[J].浙江电力,2019,38(3):1-7. 被引量：33
7许磊,王建新.基于模糊神经网络的异常网络数据挖掘算法[J].计算机科学,2019,46(4):73-76. 被引量：19
8邵冠宇,王慧芳,何奔腾.电网设备缺陷文本的质量评价与提升方法[J].电网技术,2019,43(4):1472-1479. 被引量：33
9蔡天鸿,邓金,史国阳,朱晋,怀丽波.基于TF-IDF方法的文本人物群体人格分析方法[J].计算机应用与软件,2019,36(5):35-38. 被引量：7
10林倩瑜.基于模糊卷积神经网络的大数据分类挖掘技术[J].重庆理工大学学报（自然科学）,2019,33(10):121-126. 被引量：15

引证文献2

1万金金,文屹,吕黔苏,张迅,范强,肖书舟,万云林.基于大数据深度挖掘电网设备缺陷体外循环的模型研制与应用[J].电力大数据,2023,26(3):61-68. 被引量：1
2赵山尧,赵钰,徐守洋,刘强.基于改进SIFT算法的配网设备状态监测方法研究[J].信息记录材料,2024,25(5):64-66.

二级引证文献1

1金国锋,杨世峰,刘玲玲,王凯,王强,王磊.基于二维混沌映射正余弦算法的智能变电站虚回路自动连接技术[J].中国电力,2024,57(8):152-158.

1邓科,侯晓松,林湘宁,李霄,林瑨,李煜磊,马书民.基于5G通信的电气设备监测终端性能在线评估方案[J].电力系统保护与控制,2021,49(7):39-47. 被引量：32
2廖涛,陈彦杰,张顺香.融合字词特征的BiGRU-CRF中文事件要素识别[J].阜阳师范大学学报（自然科学版）,2022,39(4):50-55. 被引量：1
3李曈昊,干宁,李建锋,肖波.电力设备缺陷文本智能检索[J].科学技术创新,2023(5):93-96. 被引量：1
4张家瑞,张磊,胡仕林,谢家旭.基于改进自注意力机制的电力设备热成像超分辨率方法[J].电子设计工程,2023,31(7):141-145.
5张裔,王广冬.牵引供电设备健康及预测系统在京张高速铁路的应用研究[J].铁道技术标准（中英文）,2023,5(4):15-21. 被引量：1
6陈旋,蔡宇佳,冉文兵,张利.SECU-Net:一种结合SE和CRF的皮肤病图像分割网络[J].智能计算机与应用,2022,12(11):71-77. 被引量：3
7陈利娟,陈伟,薛帅宁,钟美,何奇,廖伟,胡芸芸.基于NAS的非结构化数据分布式存储系统设计[J].自动化与仪器仪表,2023(3):275-278. 被引量：5
8郑卫东,韦玉华,郭雷,李晓燕,张守文.基于智能识别与增强现实的电力设备巡检技术研究[J].电子设计工程,2023,31(7):100-103. 被引量：3
9Liu Chang.A Kaleidoscope of Life Chocolates[J].China Pictorial,2022(9):46-63.
10Gui Juan,shi Linjng.Dananpo Village:Revitalization Through Culture[J].China Pictorial,2022(10):24-27.

武汉理工大学学报

2022年第10期

浏览历史

内容加载中请稍等...

面向配网一次设备缺陷文本命名实体识别研究被引量：2

参考文献10

二级参考文献85

共引文献236

同被引文献37

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向配网一次设备缺陷文本命名实体识别研究 被引量：2

参考文献10

二级参考文献85

共引文献236

同被引文献37

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向配网一次设备缺陷文本命名实体识别研究被引量：2