随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整...随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整合利用的方法。针对以上问题,该文基于BERT(bidirectional encoder representation from transformers)模型对命名实体抽取技术展开研究。一方面,增加了双向长短期记忆(bi-directional long short-term memory,Bi-LSTM)层进一步提取文本语义信息;另一方面,采用条件随机场(conditional random field,CRF)替换了BERT的输出层,克服了预测标签的局部最优问题。最后融合以上2种策略提出了改进BERT算法,即将BERT与双向长短记忆网络和条件随机场相结合,实现了缺陷文本的命名实体抽取。实验结果表明,改进BERT算法在7类实体上均取得了较高的F1值(精确率和召回率的加权调和平均值)。与BERT相比,实体抽取的总体精确率和召回率分别提升了0.94%和0.95%。展开更多
目的:设计一种新型的钓鱼网站检测技术,以提高检测的精确率。方法:提出了一种利用BERT(Bidirectional Encoder Representations from Transformers)提取HTML字符串嵌入特征的方法,将HTML文档转化为词嵌入向量。同时提出一种结合四种分...目的:设计一种新型的钓鱼网站检测技术,以提高检测的精确率。方法:提出了一种利用BERT(Bidirectional Encoder Representations from Transformers)提取HTML字符串嵌入特征的方法,将HTML文档转化为词嵌入向量。同时提出一种结合四种分类器的Stacking集成学习模型,使用HTML字符串嵌入特征以及筛选出的URL特征进行钓鱼网站检测。结果:在10万级数据集上精确率达到98.52%,F_(1)值达到98.81%。且相较只使用URL特征,引入上述HTML字符串嵌入特征后,检测钓鱼网站的精确率提升了近两个百分点。结论:本文所提出的基于BERT提取的HTML字符串嵌入特征对于检测钓鱼网站具有显著提升。展开更多
文摘随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整合利用的方法。针对以上问题,该文基于BERT(bidirectional encoder representation from transformers)模型对命名实体抽取技术展开研究。一方面,增加了双向长短期记忆(bi-directional long short-term memory,Bi-LSTM)层进一步提取文本语义信息;另一方面,采用条件随机场(conditional random field,CRF)替换了BERT的输出层,克服了预测标签的局部最优问题。最后融合以上2种策略提出了改进BERT算法,即将BERT与双向长短记忆网络和条件随机场相结合,实现了缺陷文本的命名实体抽取。实验结果表明,改进BERT算法在7类实体上均取得了较高的F1值(精确率和召回率的加权调和平均值)。与BERT相比,实体抽取的总体精确率和召回率分别提升了0.94%和0.95%。
文摘目的:设计一种新型的钓鱼网站检测技术,以提高检测的精确率。方法:提出了一种利用BERT(Bidirectional Encoder Representations from Transformers)提取HTML字符串嵌入特征的方法,将HTML文档转化为词嵌入向量。同时提出一种结合四种分类器的Stacking集成学习模型,使用HTML字符串嵌入特征以及筛选出的URL特征进行钓鱼网站检测。结果:在10万级数据集上精确率达到98.52%,F_(1)值达到98.81%。且相较只使用URL特征,引入上述HTML字符串嵌入特征后,检测钓鱼网站的精确率提升了近两个百分点。结论:本文所提出的基于BERT提取的HTML字符串嵌入特征对于检测钓鱼网站具有显著提升。