面向电力业务数据的命名实体识别被引量：5

Named Entity Recognition for Electric Power Business Data

下载PDF

导出

摘要电力行业内部会积累规模可观的电力业务数据,自动挖掘电力业务数据中的信息对提升相关部门业务能力、降低电力行业内巨大运维成本有促进作用。但电力业务数据大多是非结构化数据且体量庞大繁杂,因此针对如何将电力业务数据中非结构化文本提取出结构化信息这一问题,设计了基于Transformer模型的融合词汇和二元词组特征的命名实体识别模型。在该模型中,通过使用融合多特征的BERT预训练语言模型得到词嵌入表示,并使用Transformer模型和条件随机场作为编码层和解码层,实现电网领域的命名实体识别。通过在电网领域文本的实验表明,所提出的模型在实体类型识别的准确率为93.62%,性能优于传统的命名实体识别方法,通过消融实验证明了该命名实体识别方法的有效性。 The power industry tends to accumulate large-scale power business data.Automatic mining of information in power business data can promote the business capacity of relevant departments and reduce the huge operation and maintenance cost in the power industry.But most of the power business data is unstructured,huge and complicated.Therefore,this paper aims at how to extract structured information from the unstructured text in the power business data,designs a named entity recognition model with fused vocabulary and binary phrase features based on the Transformer model.In this model,the word embedding representation is obtained by using the BERT pre-training language model fused with multiple features.The Transformer model and the conditional random field are used as the encoding layer and the decoding layer to realize the named entity recognition in the power grid field.Experiments on texts in the power grid field show that the model proposed in this paper has an accuracy of 93.62% in entity type recognition,which is better than traditional named entity recognition methods.Ablation experiments show the effectiveness of the named entity recognition method proposed in this paper.

作者李妍孟洁何金张旭王梓蒴 LI Yan;MENG Jie;HE Jin;ZHANG Xu;WANG Zishuo(Information and Communication Company,State Grid Tianjin Electric Power Company,Tianjin 300010,China;Key Laboratory of Energy Big Data Simulation of Tianjin Enterprise,Tianjin 300010,China)

机构地区国网天津市电力公司信息通信公司天津市能源大数据仿真企业重点实验室

出处《电力信息与通信技术》 2022年第4期24-31,共8页 Electric Power Information and Communication Technology

基金国家电网有限公司总部科技项目资助“面向电力业务的自然语言理解建模研究及应用”(KJ20-1-15)。

关键词知识图谱中文命名实体识别 BERT模型 Transformer模型条件随机场 knowledge graph chinese named entity recognition BERT model Transformer model conditional random field

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1陈树勇,宋书芳,李兰欣,沈杰.智能电网技术综述[J].电网技术,2009,33(8):1-7. 被引量：1128
2余贻鑫,栾文鹏.智能电网述评[J].中国电机工程学报,2009,29(34):1-8. 被引量：519
3闫湖,黄碧斌,刘龙珠.人工智能在新一代电力系统中的应用前景分析[J].电力信息与通信技术,2018,16(11):7-11. 被引量：34
4谭刚,陈聿,彭云竹.融合领域特征知识图谱的电网客服问答系统[J].计算机工程与应用,2020,56(3):232-239. 被引量：24
5罗熹,夏先运,安莹,陈先来.结合多头自注意力机制与BiLSTM-CRF的中文临床实体识别[J].湖南大学学报（自然科学版）,2021,48(4):45-55. 被引量：27
6朱龙珠,徐宏,刘莉莉.基于深度学习的95598重大服务事件识别研究[J].电力信息与通信技术,2018,16(11):19-23. 被引量：12
7李明扬,孔芳.融入自注意力机制的社交媒体命名实体识别[J].清华大学学报（自然科学版）,2019,59(6):461-467. 被引量：45
8冯兴杰,曾云泽.基于评分矩阵与评论文本的深度推荐模型[J].计算机学报,2020,43(5):884-900. 被引量：42

二级参考文献100

1廖斌,仇宏祥.标准化的智能电网提升电网安全[J].上海电力,2006,19(6):584-588. 被引量：28
2帅军庆.创新发展建设智能电网——华东高级调度中心项目群建设的实践[J].中国电力企业管理,2009(4):19-21. 被引量：66
3陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
4薛禹胜,刘觉,岑文辉.专家系统在电力系统中的应用——特点,现状和展望[J].电力系统自动化,1989,13(2):10-19. 被引量：12
5柳明,何光宇,沈沉,卢强.IECSA项目介绍[J].电力系统自动化,2006,30(13):99-104. 被引量：26
6洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
7任江波,郭志忠.电网自愈控制中的状态估计模式研究[J].电网技术,2007,31(3):59-63. 被引量：15
8迟永宁,刘燕华,王伟胜,陈默子,戴慧珠.风电接入对电力系统的影响[J].电网技术,2007,31(3):77-81. 被引量：500
9王明俊.自愈电网与分布能源[J].电网技术,2007,31(6):1-7. 被引量：117
10范明天,刘思革,张祖平,周孝信.城市供电应急管理研究与展望[J].电网技术,2007,31(10):38-41. 被引量：37

共引文献1755

1赵高尚,刘道伟,陈树勇,李柏青,杨红英,李宗翰,田一童.基于尺度不变特征转换的暂态稳定边界特征提取[J].中国电机工程学报,2019,39(S01):84-94. 被引量：5
2成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
3王子瑞.自动化检定流水线校验平台的搭建与实现[J].科技经济导刊,2019,0(31):46-46. 被引量：1
4王哲,李耀华,李子欣,赵聪,高范强,罗龙,王平.基于阻抗特性的级联H桥型PET并网稳定性分析[J].电网技术,2020,44(3):1070-1079. 被引量：9
5李承颢.智能电网需求侧的能效改善与高效化[J].中国科技纵横,2018,0(5):183-184.
6赵芳,王金磊,徐晨光,孟祥薇,吕晓华.智能电网与电力产业的发展关系浅析[J].区域治理,2018,0(32):175-175.
7侯付红,赵颖辉.智能电网关键技术及面临挑战[J].中国水运（下半月）,2011,11(8):88-89. 被引量：1
8于劲松,秦香春.智能电网技术应用与发展[J].科技风,2010(21). 被引量：12
9宋思扬.电力营销过程中的智能用电技术[J].电脑应用技术,2011(1):22-29.
10周念成,周颖,池源,王强钢.新能源并网对配电网影响的正负效应综合评估[J].中国电力,2012,45(7):62-67. 被引量：13

同被引文献50

1李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：21
2俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160
3胡文博,都云程,吕学强,施水才.基于多层条件随机场的中文命名实体识别[J].计算机工程与应用,2009,45(1):163-165. 被引量：25
4王焕,刘国辉.航海通告编发模式的研究与进展[J].海洋测绘,2009,29(4):82-84. 被引量：9
5刘国辉,彭认灿,肖京国,李纪东.航海通告数字化生产方法研究[J].海洋测绘,2010,30(6):37-39. 被引量：4
6许冠中,宁柏锋,邱海枫,赵少东.基于内容的智能推荐在知识管理中的应用研究[J].电力信息与通信技术,2014,12(12):54-57. 被引量：5
7庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：471
8周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：101
9任智慧,徐浩煜,封松林,周晗,施俊.基于LSTM网络的序列标注中文分词法[J].计算机应用研究,2017,34(5):1321-1324. 被引量：69
10易黎,黄鹏,彭艳兵,程光.基于联合模型的中文社交媒体命名实体识别[J].计算机与数字工程,2017,45(12):2402-2406. 被引量：2

引证文献5

1孙宏云,李喜旺.面向配电网数据的命名实体识别[J].计算机系统应用,2023,32(2):387-393.
2庄云行,季铎,马尧,敬少杰.基于Bi-LSTM的涉恐类案件法律文书的命名实体识别研究[J].网络安全技术与应用,2023(7):36-39. 被引量：2
3黄洋,刘国辉,郭立新.基于深度学习的航海通告命名实体识别方法[J].海洋测绘,2024,44(1):79-82.
4贺馨仪,董明,颜拥,姚影,黄建平.基于改进BERT预训练模型的电力标准命名实体识别方法研究[J].电力信息与通信技术,2024,22(11):52-59.
5徐冲,汪凝,倪相生.基于知识图谱的用户特征-关系推荐模型在电力安全教育中的应用[J].电力信息与通信技术,2024,22(11):60-66.

二级引证文献2

1王彬彬,周可法,王金林,汪玮,李超,程寅益.基于大规模预训练模型的地质矿物属性识别方法及应用[J].新疆地质,2024,42(1):139-144.
2李林瑛,王孙和,曲云平.恐怖袭击事件实体语料库构建[J].现代信息科技,2024,8(19):44-47.

1谢彬.施工企业协作项目风险管控措施[J].经济技术协作信息,2022(13):0036-0038.
2胥小波,王涛,康睿,周刚,李天宁.多特征中文命名实体识别[J].四川大学学报（自然科学版）,2022,59(2):51-57. 被引量：5
3吴晓霞.基于立德树人背景下小学群文阅读教学策略[J].好日子,2022(6):106-108.
4赵丹丹,黄德根,孟佳娜,谷丰,张攀.多头注意力与字词融合的中文命名实体识别[J].计算机工程与应用,2022,58(7):142-149. 被引量：14
5王进强,刘金硕.基于注意力机制的结构化文本自动生成[J].武汉大学学报（工学版）,2022,55(2):198-203. 被引量：4
6生龙,张有强,吴迪.基于词汇增强的中文命名实体识别方法[J].现代电子技术,2022,45(7):157-162.
7杨可心,刘欢欢.江苏省徐州市某三级甲等医院灾害脆弱性分析——基于改良版Kaiser模型[J].江苏科技信息,2022,39(6):69-74. 被引量：5
8林晨兰.群文阅读:中考英语备考策略探析--以福建省中考试卷中“人与自我:完善自我”主题阅读为例[J].福建基础教育研究,2022(2):65-67.
9王德志,陈靖耀.基于BERT的社交网络媒体突发事件标注方法研究[J].华北科技学院学报,2021,18(6):74-82.
10丁美荣,刘鸿业,徐马一,龚思雨,陈晓敏,曾碧卿.面向机器阅读理解的多任务层次微调模型[J].计算机系统应用,2022,31(3):212-219. 被引量：2

电力信息与通信技术

2022年第4期

浏览历史

内容加载中请稍等...

面向电力业务数据的命名实体识别被引量：5

参考文献8

二级参考文献100

共引文献1755

同被引文献50

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

面向电力业务数据的命名实体识别 被引量：5

参考文献8

二级参考文献100

共引文献1755

同被引文献50

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

面向电力业务数据的命名实体识别被引量：5