核电装备质量文本描述了核电装备在设计、采购、施工和调试阶段出现的质量缺陷等问题。由于不同阶段质量事件的发生频率不同,且同一装备对应不同阶段的质量文本中存在相同的关键词和相似的表述形式,针对类型数量不均衡和语义描述耦合的...核电装备质量文本描述了核电装备在设计、采购、施工和调试阶段出现的质量缺陷等问题。由于不同阶段质量事件的发生频率不同,且同一装备对应不同阶段的质量文本中存在相同的关键词和相似的表述形式,针对类型数量不均衡和语义描述耦合的质量文本分类问题,提出一种融合正则反馈焦点损失函数的改进循环池化网络分类模型。首先,采用BERT(Bidirectional Encoder Representation from Transformers)将核电装备质量文本转化为词向量;然后,提出一个改进的3层循环池化网络的分类模型结构,通过增加中间层并选择合适权重,扩大参数训练的提取空间,提升表征质量缺陷语义特征的能力;接着,提出正则反馈焦点损失函数来训练提出分类模型的参数,通过正则项使损失函数的梯度变化更稳定,根据反馈项对损失函数进行基于真实值和预测值之间误差的迭代调整,解决了不均衡样本在训练过程中梯度偏向不均衡的问题;最后,通过归一化指数函数计算出核电装备质量事件对应的阶段。在某核电公司真实数据集和公共数据集上,与Fast_Text网络相比,所提模型的F1值分别提高了2个百分点和1个百分点,实验结果表明该模型在文本分类任务中具有较高的准确性。展开更多
文摘核电装备质量文本描述了核电装备在设计、采购、施工和调试阶段出现的质量缺陷等问题。由于不同阶段质量事件的发生频率不同,且同一装备对应不同阶段的质量文本中存在相同的关键词和相似的表述形式,针对类型数量不均衡和语义描述耦合的质量文本分类问题,提出一种融合正则反馈焦点损失函数的改进循环池化网络分类模型。首先,采用BERT(Bidirectional Encoder Representation from Transformers)将核电装备质量文本转化为词向量;然后,提出一个改进的3层循环池化网络的分类模型结构,通过增加中间层并选择合适权重,扩大参数训练的提取空间,提升表征质量缺陷语义特征的能力;接着,提出正则反馈焦点损失函数来训练提出分类模型的参数,通过正则项使损失函数的梯度变化更稳定,根据反馈项对损失函数进行基于真实值和预测值之间误差的迭代调整,解决了不均衡样本在训练过程中梯度偏向不均衡的问题;最后,通过归一化指数函数计算出核电装备质量事件对应的阶段。在某核电公司真实数据集和公共数据集上,与Fast_Text网络相比,所提模型的F1值分别提高了2个百分点和1个百分点,实验结果表明该模型在文本分类任务中具有较高的准确性。